# 2406.02430_Seed-TTS: A Family of High-Quality Versatile Speech Generation Models * 首页: [https://arxiv.org/abs/2406.02430](https://arxiv.org/abs/2406.02430) * PDF: [https://arxiv.org/pdf/2406.02430](https://arxiv.org/pdf/2406.02430) * 演示: [https://bytedancespeech.github.io/seedtts_tech_report](https://bytedancespeech.github.io/seedtts_tech_report) * 组织: Seed Team, ByteDance * 引用: 115(2025-07-15) ## Abstract 本论文介绍了 **Seed-TTS**,这是一类大规模自回归的文本到语音(TTS)模型,能够生成几乎与人类语音无法区分的高质量语音。Seed-TTS 作为语音生成的基础模型,在上下文学习方面表现出色,其在说话人相似度和自然度上的表现,在客观和主观评估中均能与真实人类语音相媲美。通过微调,其在这些指标上的主观评分甚至进一步提升。该模型还提供了对语音属性(如情感)的更强可控性,能够生成丰富多样的表达性语音。 此外,论文提出了一种用于语音因子分解的**自我蒸馏方法**,以及一种用于增强模型鲁棒性、说话人相似度和可控性的**强化学习方法**。同时,还介绍了一个 **非自回归(NAR)变体** Seed-TTS-DiT,该模型采用完全基于扩散的架构,与以往依赖预估音素时长的非自回归TTS系统不同,Seed-TTS-DiT 通过端到端处理直接生成语音。实验表明,该变体在性能上与基于语言模型的版本相当,并在语音编辑任务中表现出有效性。 ## 1 Introduction 该论文介绍了 **Seed-TTS**,一个具有生成高质量、自然且富表现力语音能力的语音生成模型家族。其主要目标是通过少量数据实现接近人类水平的语音生成,适用于任意说话人,尤其适用于虚拟助手、有声书籍和视频配音等应用。 论文重点研究了 Seed-TTS 在三项任务中的表现:**零样本上下文学习**(zero-shot in-context learning)、**说话人微调** 和 **情绪控制**。为便于未来研究,作者还公开了测试数据集的配置,并讨论了该模型在产品部署中的行为表现。 为提升 Seed-TTS 的性能,作者提出了两种创新方法: 1. **通过自蒸馏的语音因子化**:无需改变模型结构或损失函数,即可实现高质量的语音音色分离(timbre disentanglement),在语音转换任务中表现优异。 2. **基于强化学习的偏好偏移(preference biasing)**:显著提升了模型的鲁棒性、说话人相似度和可控性。 此外,论文对比了当前语音生成的两大主流方法:**基于语言模型的方法** 和 **基于扩散模型的方法**。作者提出了一个非自回归(NAR)的 Seed-TTS 变体 **Seed-TTS-DiT**,这是一个完全基于扩散的端到端语音生成模型,直接预测语音的潜在表示,无需依赖单独的时长预测模块。实验表明,Seed-TTS-DiT 表现与自回归语言模型相当,并在语音编辑任务中展现出优势。 最后,论文讨论了 Seed-TTS 的潜在应用场景、局限性以及开发过程中遇到的挑战,包括与构建负责任的 AI 相关的问题。Seed-TTS 的能力与限制提出了在多媒体和安全应用领域需要深入研究的重要问题,尤其是在其对社会影响方面。 ### 主要贡献总结: 1. 提出 Seed-TTS 模型家族,实现高质量、拟人化的语音生成,并在多项评估中达到**业界领先(SOTA)**水平。 2. 提出一种基于自蒸馏的语音因子化方法,有效提升语音转换任务的性能。 3. 引入基于强化学习的后训练扩展,提升模型整体表现。 4. 提出首个完全基于扩散模型的 Seed-TTS 变体(Seed-TTS-DiT),在语音生成质量和编辑任务中表现优异,并与基于语言模型的方法进行了对比。 ## 2 Method ![](https://img.zhaoweiguo.com/uPic/2025/07/OpK4jk.png) Figure 1:An overview of the Seed-TTS inference pipeline. (1) The speech tokenizer learns tokens from reference speech. (2) The autoregressive language model generates the speech tokens based on the condition text and speech. (3) The diffusion transformer model generates continuous speech representations given generated speech tokens in a coarse-to-fine manner. (4) The acoustic vocoder yields higher-quality speech from the diffusion output. Seed-TTS 是一个基于 Transformer 的自回归模型,其设计目标是实现高质量、多功能的语音生成。该模型主要包括四个核心模块:语音标记器(speech tokenizer)、标记语言模型(token language model)、扩散模型(diffusion model)和声码器(acoustic vocoder)。整个系统通过大量数据训练,提升了泛化能力和新兴能力。 在方法部分,首先介绍了 Seed-TTS 的总体推理流程:从语音标记器生成语音标记,到语言模型生成语音序列,再到扩散模型细化语音表示,最后由声码器生成高质量语音波形。模型的设计关键在于语音标记器的选择,文中比较了连续和离散的标记器,并指出其对系统性能有重要影响。 Seed-TTS 的训练分为三个阶段:预训练(pre-training)、微调(fine-tuning)和后训练(post-training)。预训练阶段通过大规模数据建立语音建模的基础;微调阶段进一步优化特定说话人和指令控制;后训练则通过强化学习(RL)提升整体性能。 Seed-TTS 相较于现有模型有两个主要优势:一是语音合成的自然度和表现力更强,尤其在情感语音(如哭、喊等)等复杂任务中表现出色;二是系统稳定性显著提升,通过模型和标记设计改进、训练策略增强及数据增强等方法,使模型在实际应用中更具鲁棒性。 作为语音生成的基础模型,Seed-TTS 支持多种任务,包括上下文学习(ICL)、可控 TTS、跨语言 TTS、语音转换、音色生成和说话风格迁移。文中展示了 Seed-TTS 在 ICL、说话人微调、可控 TTS 和语音转换任务中的实验结果,验证了其多功能性和优越性能。 ## 3 Experiments 该论文章节主要探讨了 Seed-TTS 模型在零样本上下文学习(Zero-shot in-context learning)和语音微调(Speaker fine-tuning)两种设置下的实验表现,旨在评估其生成高质量语音的能力,特别是在语音相似性、自然度和可控性方面的性能。 ### 3.1 Zero-shot in-context learning(零样本上下文学习) #### 实验设置 - **测试集**:分为 *objective-set* 和 *subjective-set*。 - *objective-set*:包含 1000 个英语样本和 2000 个普通话样本,用于客观评估。 - *subjective-set*:包含 100 个英语和 100 个普通话样本,用于主观评估,样本具有更丰富的语音风格(如情绪、方言等)。 - **实验方法**: - 每个样本包含一个参考语音和一个目标文本。 - 使用 Seed-TTS 生成目标语音,通过参考语音作为提示。 - 系统生成的语音与真实语音进行对比。 #### 评估指标 - **客观指标**: - **WER(Word Error Rate)**:衡量语音识别错误率,使用 Whisper-large-v3 和 Paraformer-zh。 - **SIM(Speaker Similarity)**:通过 WavLM-large 测量生成语音与参考语音的语音嵌入相似度(余弦相似度)。 - **主观指标**: - **CMOS(Comparative Mean Opinion Score)**:让人类评估生成语音与真实语音在语音相似性和表现力上的偏好,评分范围为 -2 到 +2。 #### 实验结果 - Seed-TTS 在 WER 上接近真实语音,且在 SIM 上表现优异。 - 主观测评中,Seed-TTS 与人类语音的 CMOS 差值极小(分别为 -0.07 和 -0.08),表明其在零样本 ICL 设置下生成的语音质量已接近真实语音。 - 与其他模型(如 Jiang et al., Le et al.)相比,Seed-TTS 是第一个在真实语音提示下生成的语音在主观上与真实语音难以区分的 TTS 模型。 - 但 Seed-TTS 在长语音生成中可能存在语音变化较少的问题,影响了表现力,未来可能通过多样本 ICL 解决这一问题。 #### 与传统语音微调模型的比较 - 使用 10 位发言人(分为“普通”和“困难”两类),比较 Seed-TTS(使用 15 秒提示)与传统训练模型(使用 5 小时数据)。 - 在普通发言人中,Seed-TTS 在 47.9% 的样本中优于传统模型,尤其在自然度和表现力方面表现突出。 - 在困难发言人(如带有强烈口音或夸张语气的虚拟角色)中,传统模型表现更强,推测是因为 15 秒的提示未能充分捕捉其语音特征。 #### 语音理解评估 - 使用 Seed-TTS 生成的语音训练 ASR 模型(基于 LibriSpeech 960 小时语料库),测试其语音理解能力。 - 结果显示,生成语音训练的 ASR 模型在干净语料(dev_clean, test_clean)上与真实数据训练的模型表现相近。 - 在噪声数据(dev_other, test_other)上,生成数据训练的模型性能略差,推测是由于 Seed-TTS 在生成过程中去除了背景噪声,降低了模型对噪声的鲁棒性。 #### 语音相似性可视化 - 通过 t-SNE 可视化 VoxCeleb1 数据集中 25 位发言人的真实语音与生成语音的语音嵌入。 - 结果显示,同一个人的真实语音与生成语音嵌入高度相似,说明 Seed-TTS 生成的语音在音色上与目标语音高度一致。 ### 3.2 Speaker fine-tuning(语音微调) #### 实验设置 - 在 Seed-TTS 预训练模型基础上,使用 5 位发言人(3 女 2 男,总数据 20 小时)进行微调。 - 在推理时引入目标发言人索引,控制生成语音的音色。 #### 评估结果 - 微调后的模型(Seed-TTS_SFT)在客观指标(WER, SIM)上与基线模型(Seed-TTS_ICL)接近,但在主观 CMOS 上表现出明显优势(+0.37)。 - 微调模型更擅长捕捉目标语音的细微变化,如语调变化和句子结尾的发音特点。 #### 指令微调(Instruction fine-tuning) - 通过指令微调,使模型具备更多控制能力,如语速、情绪、语气等。 - 以情绪控制为例,训练了一个语音情绪识别模型(SER),并对四种主要情绪(愤怒、快乐、悲伤、惊讶)的生成语音进行评估。 - 结果显示,即使不提供情绪控制信号,Seed-TTS_SFT 也能根据文本推断出适当的情绪;提供控制信号后,情绪识别准确率显著提升。 --- ### 总结 该章节通过一系列实验验证了 Seed-TTS 在零样本上下文学习和语音微调设置下的强大性能。实验结果表明,Seed-TTS 生成的语音在语音相似性、自然度和可控性方面均表现优异,尤其在零样本设置下生成的语音质量接近真实语音,是当前 TTS 领域的重要进展。此外,通过语音微调和指令微调,Seed-TTS 还能够进一步提升模型的个性化能力与语义控制能力,为语音生成与理解的统一提供了新的可能性。 ### 3.3 Low-latency inference and streaming processing 本节讨论了 Seed-TTS 在实际部署中对**低延迟推理**和**流式处理**的优化方法。由于 Seed-TTS 模型规模较大,传统 TTS 部署中的延迟、首包延迟、计算与内存消耗等问题更加突出,因此从以下几个方面进行了优化: 1. **流式处理架构**:采用因果扩散架构,支持在扩散模块中进行流式处理,显著降低了处理延迟和首包延迟。 2. **计算成本优化**:通过一致性蒸馏(Consistency Distillation)和改进的流匹配算法(Flow Matching)来减少扩散模型的计算开销。 3. **语言模型侧的优化**:应用了多种主流方法降低计算与内存消耗,包括分组查询注意力(Grouped-Query Attention)、分页注意力(Paged Attention)、快速注意力(Flash Attention)以及模型量化(Model Quantization)等技术。 最终,优化后的部署模型在**主观和客观测试中**表现与离线模型相当,但在**延迟、计算时间和内存消耗方面有显著提升**。表 5 显示,部署模型的延迟仅为离线模型的 0.028 倍,实时因子(RTF)为 0.132 倍,同时在语音识别错误率(WER)和相似度(SIM)指标上保持一致,仅在语音质量评分(CMOS)上略有下降(-0.02),说明优化在不显著影响语音质量的前提下,大幅提升了模型的部署效率。 ## 4 Model extensions 本文第四章主要介绍了对 Seed-TTS 模型的两项扩展,旨在提升其性能和应用场景的广泛性: ### 4.1 通过自蒸馏实现语音因子化(Speech Factorization) 该部分提出了一种**自蒸馏方法**,用以实现语音中不同属性(如音色、韵律、内容)的**解耦(disentanglement)**。传统的解耦方法依赖特征工程、特定损失函数或网络结构调整,但这些方法难以直接应用于通用语音生成模型如 Seed-TTS。为此,作者提出使用**合成语音对**进行训练,其中一对语音具有相同的内容和韵律,但音色不同。通过在扩散模块中引入**说话人扰动**,生成这样的语音对,并利用这些对进行自蒸馏训练,使得模型能够学会忽略输入中嵌入的音色信息,仅依赖外部提供的音色参考进行生成,从而实现高质量的音色解耦。 实验方面,作者在**零样本语音转换(Zero-Shot Voice Conversion, VC)**任务上评估了该方法。结果表明,与现有先进方法(如 DiffVC 和 HierSpeech++)相比,自蒸馏方法在多个指标(如 SIM 和 WER)上表现更优,显著提升了音色转换的质量和生成的稳定性。 ### 4.2 通过强化学习实现偏好优化(Preference Biasing with RL) 该部分探讨了使用**强化学习(Reinforcement Learning, RL)**技术来优化 Seed-TTS 的生成质量。作者尝试了多种方法,包括使用外部奖励模型的 PPO 和 REINFORCE,以及无外部模型的 DPO。实验表明,RL 可以有效提升模型在多个方面的表现,包括**说话人相似度**、**生成的稳定性**和**情感控制能力**。 具体来说,作者基于原始的 Seed-TTS-ICL 模型,使用 REINFORCE 进行微调,分别以 SIM/WER 和情感识别模型准确率(SER accuracy)作为奖励目标,训练出两个版本(Seed-TTS-RL-SIM-WER 和 Seed-TTS-RL-SER)。实验结果显示: - RL 能有效降低 WER,提升说话人相似度(SIM); - 在情感控制任务中,RL 改进后的模型在多种情绪上的识别准确率显著高于基线模型; - 同时也构建了一个“困难”文本测试集,用于测试对复杂句子结构的生成能力,结果表明 RL 有助于提升模型在这些场景下的鲁棒性。 不过,作者也指出,**奖励黑客(reward hacking)**问题可能导致模型偏向生成不够自然的语音(如过于标准、缓慢),需通过仔细调参来平衡性能与自然度之间的权衡。 --- ### 总结: 本章提出了两个关键的模型扩展: 1. **自蒸馏方法**:实现语音属性解耦,特别是在音色控制方面表现出色,显著提升了零样本语音转换效果。 2. **强化学习优化**:通过引入外部奖励机制,增强模型在生成质量、稳定性、情感控制等方面的表现,但也需注意潜在的奖励偏移问题。 这些扩展使得 Seed-TTS 在语音生成任务中更具灵活性和泛化能力,提升了其在实际应用中的价值。 ### 4.3 Fully diffusion-based speech generation 本节内容主要探讨了一种**完全基于扩散模型的语音生成方法**(Fully diffusion-based speech generation),并基于 Seed-TTS 模型提出了一个新的变体 Seed-TTS_DiT。该变体在语音生成过程中完全依赖扩散模型,而非传统的语言模型与声学编码器的组合。 ### 核心内容总结: 1. **模型设计改进**: - Seed-TTS_DiT 去除了扩散模型与声学编码器之间的依赖关系,直接将高斯噪声转换为声码器的潜在表示,实现端到端的语音生成。 - 与现有方法不同,该模型不再依赖音素级别的时长预测模型,而是通过估计整个语音的总时长,并结合文本与音频的局部对齐机制,动态调整每个音素的时长,从而生成自然度更高的语音。 2. **训练方式**: - 模型在训练时接收音频提示、目标文本以及具有指定总时长的高斯噪声片段,并预测相应时长的语音潜在表示。 - 通过这种方式,模型能够灵活支持**语音内容编辑**和**语速调整**等任务。 3. **性能评估**: - 在零样本(zero-shot)TTS 任务中,Seed-TTS_DiT 在语音相似度(SIM)指标上优于其他方法,而在词错误率(WER)上表现与 Seed-TTS_ICL 类似,表明其具备强大的序列建模能力。 4. **语音编辑能力**: - **内容编辑**:模型能够通过遮蔽音频并根据提供的文本恢复语音,实验表明其在不同遮蔽比例下均表现稳健。 - **语速编辑**:模型可基于指定的总时长重新合成语音,自动在适当位置插入静音或拉伸音素,从而实现自然的语速变化,优于传统方法的统一速率调整方式。 5. **模型优势对比**: - 相较于语言模型,扩散模型 Seed-TTS_DiT 拥有**更简化的流程**,并天然支持非流式处理,适合语音编辑任务。 - 但语言模型在**流式处理**和与文本模型的集成方面具有优势。 ### 总结: 本节通过提出并评估 Seed-TTS_DiT 模型,展示了基于扩散模型的语音生成方法不仅在生成质量上具备竞争力,还具备更强的**语音编辑能力**和**语速控制能力**。其端到端的结构和对总时长的直接建模,使得语音生成更加自然、灵活,适用于多种语音生成与编辑任务。 ## 5 Model applications, limitations, and safety 本章总结了Seed-TTS模型的应用、局限性及安全保障措施。内容如下: 1. **模型应用**:Seed-TTS具备高度表现力和跨语言语音转换能力,可用于语音聊天、有声书、内容创作等多个领域。其高保真的上下文学习能力有助于打破语言障碍,提升可访问性,并可能为言语障碍患者提供解决方案。此外,它在语音理解和生成模型的统一与增强方面也具有潜力。 2. **模型局限性**:尽管Seed-TTS表现出一定的涌现行为,但在需要细腻情感和复杂语境理解的场景中仍存在不足。虽然训练数据量庞大,但在某些场景覆盖方面仍有改进空间,例如在唱歌、背景音乐或噪音环境中表现较差,常生成不一致的背景内容。 3. **安全保障**:考虑到模型可能被滥用带来的社会风险,相关产品中实施了多项安全措施。例如,采用多步骤验证方法确保注册音频仅包含授权用户的声音,并在生成内容中强制添加多层级水印(如视频背景水印和内容描述水印),以防止滥用。 总体而言,Seed-TTS在多个领域展现出巨大潜力,但其局限性和安全问题仍需持续关注与优化。 ## 6 Authors (alphabetical order) 这一章节列出了论文的作者名单,按照**字母顺序(alphabetical order)**排列。共包含 **70 位作者**,每位作者的姓名以中文拼音形式呈现。章节内容简洁明了,主要用于表明本论文是由多位作者共同合作完成,体现了团队协作和跨学科研究的特点。 ## 7 Acknowledgement 本章节为致谢部分,主要表达了对在项目成功过程中做出重要贡献的各个团队的感激之情。具体包括: - **音频理解团队**和**工程团队**,感谢他们在技术方面的卓越能力; - **数据团队**,感谢他们在数据收集、标注和处理方面的辛勤工作; - **项目运营团队**,感谢他们在项目指导上的无缝支持; - **评估团队**,感谢他们严格的测试和有价值的反馈。 作者强调了每个团队的独特贡献对于研究成功的重要性,并高度评价了团队协作所带来的巨大价值。