Job Description
【岗位职责】
多语言语音大模型数据基建:负责构建和优化高质量、大规模的多语言语音数据集。主导音频数据处理链路,包括但不限于音频过滤、说话人分离(Speaker Diarization)、质量筛选、副语言事件(Paralinguistic Events,如笑声、叹气、呼吸声等)检测以及情感分类等。
多语言语音大模型算法研发:负责前沿多语言语音生成模型(TTS)的算法设计、训练、优化及工程上线,持续提升语音生成的自然度、表现力、音色相似度及多语言能力,确保核心技术指标达到业内领先水平。
Requirements
【任职要求】
(注:候选人无需同时满足“数据”与“模型”的所有要求,在其中一个方向有深入积累,且有意愿向另一方向拓展即可)
方向一:侧重数据基建与分析(对应职责1)
在语音/音频数据处理方面有丰富经验,熟悉大规模音频数据的清洗与挖掘。
【核心要求】:对副语言事件检测(Paralinguistic Event Detection)和语音情感分类(Speech Emotion Recognition)有深入的认识和实战经验。
熟悉说话人分离、音频降噪、VAD(端点检测)、音频质量打分等相关算法。
方向二:侧重模型研发与优化(对应职责2)
在TTS或语音大模型领域有深厚积累,对以下一项或多项技术有深入研究和落地经验:
生成范式:对 Diffusion Model、Flow Matching 等前沿生成式TTS架构有深入认识。
表征与对齐:对音频量化(Audio Quantization/Codec)有深入研究;对音素与音频的强制对齐(Forced Alignment)有深入研究。
模型架构:对音素和文本结合预测的方案有深入研究;对文本-音频双流架构(Dual-stream)有深入认识。
训练策略:对语音大模型的微调(Fine-tuning)、后训练(Post-training,如RLHF/DPO在语音中的应用)有深入认识。
多语言能力:对多语言语音模型(Cross-lingual / Multilingual TTS)的架构设计与训练有深入认识。
【加分项】
全栈能力:同时具备“数据基建(尤其是副语言/情感分类)”与“大模型研发”双重经验者优先。
在顶级会议(如ICASSP, Interspeech, ACL, ICLR, NeurIPS等)发表过相关高质量论文。
有主导或参与过业界知名开源语音项目(如VALL-E, Voicebox, ChatTTS, CosyVoice等复现或优化)经验者优先。
About AI Rudder
AI Rudder is an AI product company transforming how business communicate to their customers.
We launched in 2019 with one of the world’s first enterprise-grade AI voice agents: built to hold real, intelligent conversations, not just play back scripts. Today, we serve over 500 enterprises across 20+ countries, processing 50 million calls every day and having delivered more than 8 billion calls to date. Our customers range from fast-growing startups to large enterprises.
When AI talks to people, it has to feel human. That’s what we build.