TTS算法工程师

Jun 25, 2026

Job Description

【岗位职责】

多语言语音大模型数据基建:负责构建和优化高质量、大规模的多语言语音数据集。主导音频数据处理链路,包括但不限于音频过滤、说话人分离(Speaker Diarization)、质量筛选、副语言事件(Paralinguistic Events,如笑声、叹气、呼吸声等)检测以及情感分类等。

多语言语音大模型算法研发:负责前沿多语言语音生成模型(TTS)的算法设计、训练、优化及工程上线,持续提升语音生成的自然度、表现力、音色相似度及多语言能力,确保核心技术指标达到业内领先水平。

Requirements

【任职要求】

(注:候选人无需同时满足“数据”与“模型”的所有要求,在其中一个方向有深入积累,且有意愿向另一方向拓展即可)

方向一:侧重数据基建与分析(对应职责1)

在语音/音频数据处理方面有丰富经验,熟悉大规模音频数据的清洗与挖掘。

【核心要求】:对副语言事件检测(Paralinguistic Event Detection)和语音情感分类(Speech Emotion Recognition)有深入的认识和实战经验。

熟悉说话人分离、音频降噪、VAD(端点检测)、音频质量打分等相关算法。

方向二:侧重模型研发与优化(对应职责2)

在TTS或语音大模型领域有深厚积累,对以下一项或多项技术有深入研究和落地经验:

生成范式:对 Diffusion Model、Flow Matching 等前沿生成式TTS架构有深入认识。

表征与对齐:对音频量化(Audio Quantization/Codec)有深入研究;对音素与音频的强制对齐(Forced Alignment)有深入研究。

模型架构:对音素和文本结合预测的方案有深入研究;对文本-音频双流架构(Dual-stream)有深入认识。

训练策略:对语音大模型的微调(Fine-tuning)、后训练(Post-training,如RLHF/DPO在语音中的应用)有深入认识。

多语言能力:对多语言语音模型(Cross-lingual / Multilingual TTS)的架构设计与训练有深入认识。

【加分项】

全栈能力:同时具备“数据基建(尤其是副语言/情感分类)”与“大模型研发”双重经验者优先。

在顶级会议(如ICASSP, Interspeech, ACL, ICLR, NeurIPS等)发表过相关高质量论文。

有主导或参与过业界知名开源语音项目(如VALL-E, Voicebox, ChatTTS, CosyVoice等复现或优化)经验者优先。

About AI Rudder

AI Rudder is an AI product company transforming how business communicate to their customers.

We launched in 2019 with one of the world’s first enterprise-grade AI voice agents: built to hold real, intelligent conversations, not just play back scripts. Today, we serve over 500 enterprises across 20+ countries, processing 50 million calls every day and having delivered more than 8 billion calls to date. Our customers range from fast-growing startups to large enterprises.

When AI talks to people, it has to feel human. That’s what we build.

Apply for this role


Other News & Articles