【岗位职责】1.多模态算法研发:负责基于课堂视频的AI分析系统核心算法研发,涵盖计算机视觉(CV)、语音识别(ASR)、自然语言处理(NLP)等多模态技术,实现对学生出勤、专注度、教师行为、教学内容等维度的自动化识别与量化分析。2.行为识别模型开发:设计并优化基于视频的人体姿态估计、动作识别、目标检测(YOLO/DeepSORT)等模型,用于分析教师移动轨迹、手势动作、学生抬头率、低头行为等教学行为特征。3.语音与内容理解:构建高准确率的课堂语音识别(ASR)系统,结合NLP技术进行教学内容主题提取、关键词识别、提问频率统计与知识覆盖分析,支持教学过程的语义化理解。4.多模态融合与智能分析:探索视觉、语音、文本等多模态信息的融合策略,提升行为识别与教学分析的准确性;探索VQA(视觉问答)或多模态大模型在教学场景中的应用,支持智能问答与教学反思辅助。5.算法工程化落地:推动算法在边缘设备(如Jetson)或云端的部署优化,关注模型轻量化、推理效率与稳定性,确保在真实教室环境中的高效运行。6.技术调研与前沿探索:跟踪AI+教育领域的*新技术进展(如多模态大模型、行为理解、教育知识图谱),持续推动产品技术升级。【经验背景】1.及以上,计算机、人工智能、模式识别、自动化等相关专业,3年以上VL算法研发经验。2.具备完整的计算机视觉项目经验,熟悉目标检测(YOLO系列)、人体姿态估计(OpenPose、HRNet、MediaPipe)、行为识别等主流算法。3.有语音识别(ASR)或NLP项目经验者优先。4.熟悉Whisper、Wav2Vec、BERT、LLM等模型者更佳。【专业技能】1.精通Python,熟悉PyTorch/TensorFlow等深度学习框架,具备扎实的算法实现与调优能力。2.熟悉OpenCV、FFmpeg等音视频处理工具,具备视频流处理经验。3.掌握模型压缩、量化、边缘部署(TensorRT、ONNX)等工程优化技能。4.对多模态学习、视觉-语言模型(如CLIP、Qwen-VL)有实际研究或应用经验者优先。5.熟悉常用数据处理与分析工具(Pandas、NumPy、SQL),具备良好的工程规范意识。【能力素质】1.具备强烈的技术自驱力与问题解决能力,能独立完成从算法设计到落地的全流程。2.良好的跨团队协作能力,能与产品、前端、后端、硬件团队高效沟通。3.对教育行业有热情,理解高校教学场景,具备一定的教育数据敏感度。4.具备优秀的文档撰写和技术表达能力,能清晰输出技术方案与设计文档。【加分项】有多模态大模型(VL)或VQA项目经验,并在实际场景中落地。----------------------------------------------------------------------------------------------【公司背景】我们是一家专注于高等教育大数据领域的咨询服务公司,我们拥有:1)行业领军地位:成立于06年,是产业开拓者和领跑者,已深耕高等教育年;2)超半数的市场占有率:服务了北大、浙大、复旦等超过00所院校,拥有超%的市场占有率;3)权威和公信力的官方*:中国科协、人社部、司法部、世界经济合作与发展组织等机构的研究合作单位,并是北大、北师大、清华等高校的产学研基地;就业蓝皮书数据及《中国-世界高等教育趋势报告核心议题得到了权威媒体的广泛报道;4)数据改变教育,我们的工作价值体现是推动中国高教发展。【团队介绍】作为公司核心团队之一,我们是一支年轻、充满活力的团队。在这里,没有森严的等级,只有开放的讨论;没有无意义的加班,只有灵活的工作节奏(灵活上下班时间,拒绝!)。我们采用扁平化管理。无论是技术探讨还是业务决策,每个人都能参与其中。我们鼓励持续学习,并会提供行业前沿的培训资源、定期的知识分享会,以及充足的试错空间,让你在实战中快速提升。如果你渴望一个轻松但不松懈、自由但有追求的工作环境,与一群聪明、有趣的伙伴共同进步、做有意义的事,
联系我时,请说是在58同城上看到的,谢谢!