一、岗位职责:1.研究与开发:负责文本前端处理(文本正则化、分词、词性标注、韵律预测等)、端到端声学模型(如VITS,FastSpeech等)以及神经声码器(如HiFi-GAN)等TTS核心算法的研究、设计与实现。2.模型优化与迭代:持续优化现有TTS模型,提升合成语音的自然度、清晰度、表现力和实时率,解决特定场景下的badcase。3.前沿技术探索:跟踪国际*新学术进展(如大语言模型在TTS中的应用、Zero-shot/少样本语音克隆、情感/风格可控TTS等),并将有潜力的技术进行实验和产品化落地。4.数据处理与构建:设计和构建高质量、多领域、多风格的语音训练数据集,并开发高效的数据处理和标注流程。5.工程落地:与工程团队紧密合作,推动算法模型在线上产品中的部署、性能调优和稳定性保障。6.技术文档撰写:撰写清晰、规范的技术文档和专利。二、任职资格(必备要求):1.与专业:计算机科学、人工智能、电子工程、应用数学等相关专业,及以上。2.技术基础:扎实的机器学习/深度学习基础,熟悉PyTorch或TensorFlow等主流深度学习框架。精通Python编程,具备良好的数据结构和算法功底。3.NLP与TTS经验:深刻理解自然语言处理基础任务,如语言模型、序列标注等。对现代神经语音合成技术有深入理解,至少精通一种主流TTS模型(如Tacotron2,FastSpeech1/2,VITS等)及其实现细节。4.实践能力:具备优秀的分析问题和解决问题的能力,能够独立完成算法的实验设计、模型训练、效果评估和调优。5.团队合作:具备良好的沟通能力和团队协作精神。
联系我时,请说是在58同城上看到的,谢谢!