资深强化学习算法研究员(MARL/多轮对话方向)岗位职责:围绕“数字医生”构建多智能体强化学习(MARL)与多轮对话强化学习(Dialogue-RL)的训练方法与评测体系:在真实医疗语境中,让医生数字分身与多类协作体以长期目标、安全约束与可解释推理路径为中心演化策略,并可迁移到生产级服务。一、岗位职责(研究×落地并重)•算法设计(MARL&Dialogue-RL)面向医生-患者-团队协作等场景,设计可扩展的多智能体与多轮对话RL方法;聚焦信用分配、长期依赖、稀疏回报、安全约束与可解释性,形成可复用的训练范式。•仿真与数据生成构建面向医疗流程的仿真环境与“推理路径”(问诊—假设—验证—建议—复核);制定奖励/评价机制(如循证一致性、推理路径一致性、红旗捕获、信息增益、回合效率等),并开展课程化训练、对抗生成/自博弈与反事实数据增强。•训练流水线与工程化打通离线预训练+在线/离线RL微调的一体化管线,完善采样、分布式回放、策略/价值网络优化、超参与早停、稳定性与复现实验协议;支持在受限算力与严格隐私约束下的高效训练。•评测与监控建立任务级与过程级指标:建议集中度(Top-K)、推理路径一致性、红旗敏感度、对话回合效率、延迟/成本、风险触发率等;支撑A/B测试与上线后漂移/失效模式追踪。•安全与合规在训练与推理阶段引入安全栅栏/约束学习与风险预算,对高风险输出设置升级与拒答策略;保证数据脱敏、*小化使用与留痕审计,满足相关法规要求。•迁移与协作与医学专家、产品与工程协作,将研究成果迁移为可运维的服务与SDK;沉淀方法与专利/论文,提升团队学术与产业影响力。二、任职要求:必备(硬条件)1.学历与成果•计算机/人工智能/自动化/数学等相关专业;或3年+相关研究经验;2.算法与理论基础•对策略梯度、价值方法、分布式/离线RL、信用分配、长期依赖、稀疏回报与安全/约束学习有系统理解,能把业务目标与约束形式化为奖励/约束并证明可训练性与稳定性。3.训练管线与复现•熟练PyTorch/JAX/TensorFlow(其一);独立搭建并稳定运行完整RL流水线(采样、分布式回放、策略/价值网络、超参/调度、评测与复现实验);•具备良好的实验设计与消融能力,能给出可复现的对比报告与脚本。4.工程与加速•Python/C++编程习惯良好;熟悉Linux、容器化与GPU/TPU训练与性能剖析;具备日志/指标/Trace的可观测意识。5.英文能力•英文读写流畅,能快速阅读/复现论文并形成清晰技术文档。3.关键软能力•自驱与问题分解:能在不完美需求下提出清晰假设、指标与里程碑;•跨学科沟通:能与医生/法规/产品/工程对齐目标、边界与风险;•隐私与合规意识:理解HIPAA/GDPR/《个人信息保护法的基本要求,具备数据*小化、脱敏与留痕的工程认知。三、加分项•LLM+RLHF/RLAIF实战;对话规划与推理(ReAct/Tree-of-Thought/Reflection等);•医学NLP/知识图谱经验(实体/事件/时序抽取),或临床标准FHIR/HL7的对接实践;•多模态RL(影像/语音/文本)或安全/约束RL、离线RL研究经历;•仿真环境与课程学习、自博弈/对抗数据生成经验;•在RL/MARL/对话管理方向具备可验证成果,满足其一顶会/顶刊(NeurIPS/ICLR/ACL/EMNLP/AAAI等)篇;或同等影响力产出(如被广泛使用的开源项目/专利/落地系统的负责人级贡献)。•线上系统经验:在真实业务中做过训练-部署-监控-回滚一体化与漂移/失效模式治理;•有影响力的开源/专利/竞赛成绩(可提供链接或材料)。
联系我时,请说是在58同城上看到的,谢谢!