职位描述:1.负责大模型训练与推理服务的部署、监控、故障排查与性能调优,保障线上服务的稳定性与高可用性;2.设计并实施大模型服务的⾃动化运维体系,包括弹性扩缩容、服务发现、流量治理、灰度发布与灾备⽅案;3.深⼊优化大模型推理性能,结合硬件资源(GPU/TPU)进行负载均衡、批处理优化、显存管理与低延迟调度;4.构建完善的可观测性体系,集成指标监控、⽇志采集与分布式追踪,实现问题快速定位与根因分析;5.与算法团队紧密协作,推动模型上线标准化流程,支持从实验环境到生产环境的高效交付;6.探索和落地MLOps*佳实践,提升大模型迭代效率与运维自动化水平职位要求:1.计算机、软件工程、人工智能或相关专业及以上;2.3年以上运维、SRE或云原生平台开发经验,有大模型或深度学习模型上线经验者优先;3.熟练掌握Kubernetes、Docker、Helm等容器化与编排技术;4.熟悉Prometheus、Grafana、ELK、OpenTelemetry等监控与日志工具;5.熟悉主流大模型推理框架,如vLLM、TritonInferenceServer、TensorRT-LLM、Hu*ingFaceTGI等;6.具备Python/Go/Shell编程能力,能编写自动化脚本与工具;7.熟悉GPU加速计算环境(*IDIACUDA、NCCL、Multi-GPU/Multi-Node推理);加分项:有LLM应用平台(如LangChain、LlamaIndex)集成经验;熟悉模型服务网关(如KServe、TorchServe)或自研推理框架;了解MLOps工具链(MLflow、Kubeflow、Airflow);有高并发、低延迟线上服务运维经验;
联系我时,请说是在58同城上看到的,谢谢!