2407.04675_Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

文章《Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition》介绍了一种基于大语言模型(LLM)的语音识别系统 Seed-ASR。其核心目标是通过结合大语言模型的强大语义理解能力,提升语音识别系统在处理多样化语音和上下文时的性能。

文章指出,传统的语音识别系统主要依赖于声学模型和语言模型的分离架构,难以有效捕捉复杂的语境信息。而 Seed-ASR 则创新性地将 LLM 直接整合到语音识别流程中,使其能够在识别语音的同时理解上下文、语义和语言风格。

Seed-ASR 的主要贡献包括:

  1. 集成 LLM 的语音识别框架:通过端到端的方式,将大语言模型与语音识别模型结合,实现了语音与语义的联合建模。

  2. 上下文感知的语音理解:借助 LLM 的上下文建模能力,系统能够更好地处理语境相关的语音任务,如对话理解、多语言识别和嘈杂环境下的语音识别。

  3. 多样化的语音理解能力:Seed-ASR 能够适应不同语言、口音、语速和语境的语音输入,提升了语音识别的泛化能力和鲁棒性。

总结而言,Seed-ASR 是一种创新的语音识别方法,通过引入大语言模型,不仅提升了语音识别的准确性,还增强了系统对复杂语音和语境的理解能力,为未来智能语音系统的开发提供了新的方向。

Abstract

该研究摘要介绍了一种基于大语言模型(LLM)的新型语音识别模型 Seed-ASR。传统端到端(E2E)语音识别模型在数据匹配场景中表现良好,但在多样化的语音信号(如不同领域、语言、口音等)和复杂上下文场景下逐渐遇到瓶颈。Seed-ASR 基于音频条件化大语言模型(AcLLM)框架,通过将连续语音表示与上下文信息输入LLM,充分利用LLM的能力,增强了模型对上下文的理解和适应能力。通过分阶段的大规模训练,Seed-ASR 在多个语音识别任务中显著优于传统端到端模型,涵盖多种语言、方言和领域。此外,Seed-ASR 可灵活部署于多种应用场景,无需额外语言模型。与最新发布的大型ASR模型相比,Seed-ASR 在中英文公开测试集上的词(或汉字)错误率降低了10%-40%,展现出强大的性能。

1 Introduction

本文介绍了Seed-ASR,这是一种基于大语言模型(LLM)的大型自动语音识别(ASR)系统。Seed-ASR旨在通过结合音频信息和上下文信息,成为更“智能”的语音识别模型。该模型在音频条件化LLM(AcLLM)框架下构建,通过将连续语音表示与指令和上下文信息输入LLM,充分利用了LLM的强大能力。Seed-ASR具有以下五个主要特点:

  1. 高识别准确率:通过使用超过2000万小时的语音数据和近90万小时的配对ASR数据进行训练,Seed-ASR在中文多方言模型(Seed-ASR (CN))和多语言模型(Seed-ASR (ML))上均取得了优异的识别效果,尤其在公开数据集和内部评估集上表现突出。

  2. 大模型容量:Seed-ASR使用了将近20亿参数的音频编码器和数十亿参数的混合专家(MoE)LLM,基于ASR任务的规模定律实验支持了选择大模型的决策。

  3. 多语言支持:Seed-ASR (CN)支持普通话及13种方言的语音转录,而Seed-ASR (ML)支持英语和7种其他语言,并正在扩展至40多种语言。

  4. 上下文感知能力:模型能够利用历史对话、视频编辑记录、会议参与细节等多种上下文信息,从而显著提升关键词在不同场景下的识别召回率。

  5. 分阶段训练方法:Seed-ASR的训练过程分为四个阶段:音频编码器的自监督学习、监督微调、上下文微调和强化学习,各阶段互相衔接,逐步提升模型性能。

与现有LLM-based ASR模型不同,Seed-ASR在中文和英文等多种语言中实现了优于现有技术的语音识别性能。为了验证模型的广泛适用性,作者构建了包含多种语音输入(领域、口音/方言、语言、语音长度)的高质量评估集,并评估了模型在不同应用场景下的定制能力(如对话中的关键词准确性和一致性)。Seed-ASR通过大规模训练和上下文建模,在多维度评估集中展现出更强的模型能力。后续章节将详细介绍Seed-ASR的动机、方法、模型结构和评估结果。

2 Motivation

本章节“动机(Motivation)”主要探讨了自动语音识别(ASR)模型的发展现状及未来可能的改进方向,重点在于借鉴大规模语言模型(LLM)的技术优势。内容总结如下:

  1. ASR模型的发展:自2010年代以来,ASR模型从基于神经网络的混合框架逐渐过渡到端到端(E2E)框架,显著提升了语音识别的准确率(通过词错误率WER衡量)。然而,当前的E2E模型仍然缺乏“智能”,受限于模型容量和从头训练的方式,无法高效利用常识知识或进行上下文推理,因此仍需依赖复杂的语言模型融合策略。

  2. LLM技术的启发:随着LLM的快速发展,其在模型架构、规模扩展和训练流程方面的优势为ASR模型的升级提供了重要借鉴,具体包括:

    • 统一的模型框架:LLM采用基于下一个词预测的解码器架构,通过自注意力机制统一了文本理解和生成任务;

    • 规模扩展带来的能力提升:大规模参数使得LLM能够从多样数据中学习,如GPT-3相比GPT-2参数量大幅增加,表现出更强的泛化和涌现能力;

    • 全面的训练流程:包括预训练、监督微调(SFT)和人类反馈强化学习(RLHF),使得LLM具备广泛的知识、上下文推理能力以及与人类偏好对齐的行为能力。

  3. ASR与LLM的结合潜力:由于ASR的任务本质是语音到文本的转换,与LLM的文本生成过程一致,且LLM具备丰富的语义知识和推理能力,因此可以作为ASR的语义引导器。但核心挑战在于如何使LLM更好地“理解”语音这种与文本不同的模态。

3 Methods

Figure 3:The stage-wise training recipe for the development of Seed-ASR. SSL represents self-supervised learning, SFT represents supervised fine-tuning, RL represents reinforcement learning.

本章节介绍了 Seed-ASR 模型的方法细节,该模型基于音频条件化大语言模型(AcLLM)框架,旨在结合语音编码与大语言模型(LLM)的能力,提升语音识别的准确性和上下文理解能力。以下是章节内容的总结:


1. 框架与训练流程(Framework and Training Recipe)

Seed-ASR 采用音频编码器与 LLM 相结合的结构,通过输入语音编码表示、任务指令和上下文,生成语音对应的文本转录。为使 LLM 更好理解语音,采用大规模预训练方式训练音频编码器(LUISE),并进行以下三个训练阶段:

  • SSL(自监督学习):使用大量无标签语音数据训练音频编码器,提升其语音表示能力。

  • SFT(监督微调):基于语音-文本对数据,训练模型理解语音与文本之间的映射。

  • RL(强化学习):通过词错误率(WER)等指标构建奖励函数,进一步优化模型性能。


2. 音频编码器的 SSL 训练(SSL of Audio Encoder)

音频编码器 LUISE 是基于 Conformer 架构的大规模模型,采用类似 BERT 的掩码语言预测学习范式,训练流程包括:

  • 提取语音的 mel 滤波器特征并离散化为标签;

  • 使用随机投影和 K-means 聚类生成迭代性离散标签;

  • 在中间层进行监督微调,找到最佳语义表示层(如第 25 层);

  • 最终移除 softmax 层,仅保留编码器用于后续训练。


3. 监督微调(SFT)

为使 LLM 能更好理解语音中的语义内容,SFT 阶段引入:

  • 转换器模块(Converter Module):通过帧拼接和线性投影将语音表示转换为 LLM 可处理的输入;

  • 训练策略:保持 LLM 参数固定,仅训练音频编码器和转换器,以对齐语音信息与 LLM 的语义空间。


4. 上下文感知微调(Context SFT)

在上下文缺失的情况下,模型可能对歧义语音识别能力不足。为解决这一问题,引入:

  • 上下文生成训练:使用 LLM 生成与语音相关的自然语言上下文,构建 <context, speech, text> 三元数据,提升模型的上下文感知能力;

  • 联合束搜索(Joint Beam Search):通过结合语音信息与上下文信息进行解码,缓解模型幻觉(hallucination)问题。公式中引入超参数 α 来平衡两者的重要性,并结合剪枝策略提升解码效率。


5. 强化学习(RL)

为解决 SFT 和 Context SFT 阶段与评估指标(如 WER)的不匹配问题,引入 RL 阶段。主要方法包括:

  • 使用最小词错误率(MWER)和加权词错误率(WWER)作为奖励函数;

  • 通过 N-best 假设及归一化似然概率构建损失函数;

  • 使用远程服务提升训练效率,同时保留模型的上下文感知能力;

  • 实验表明,使用加权 WER 作为奖励函数在多个评估集上表现更优。


6. 观察与实验分析

通过多个训练阶段的实验与消融分析,验证了各模块的有效性。最终,Seed-ASR 在多个领域和复杂场景(如方言、同音词)中表现出色,尤其在引入上下文和 RL 训练后,性能显著提升。


总结:

本章节详细介绍了 Seed-ASR 的模型架构、训练流程及其关键模块(如 LUISE 编码器、Context SFT、RL 阶段等),通过多阶段的联合训练,充分利用了 LLM 的语言理解和推理能力,提升了语音识别模型在多样化语音和复杂上下文中的表现。

3.6.1 Scaling Law

本节主要探讨了基于大语言模型(LLM)框架的语音编码器在模型规模扩展规律长文本处理能力两个方面的研究发现,具体内容总结如下:


3.6.1 模型扩展规律(Scaling Law)

在大语言模型(LLM)领域,已有研究表明,模型规模越大,在更多数据上训练时损失值越小。作者在基于LLM框架的语音编码器(LUISE)中进行了扩展性实验,验证类似的规律是否适用。

  • 实验设置:选择了五组不同规模的模型(75M、0.2B、0.6B、2B、5B),使用770万小时的无监督语音数据进行训练,保持大部分训练配置一致,仅随着模型规模增加调整了模型宽度和深度、批量大小、权重衰减和学习率等参数。

  • 结论发现

    1. 模型规模与预训练损失:模型参数数量与预训练损失之间近似呈线性关系(图7a)。

    2. 模型规模与语音识别错误率(WER):在微调(SFT)后的语音识别任务中,WER也与模型参数数量呈近似线性关系(图7b)。

    3. 预训练损失与WER的关系:SFT后的WER与SSL阶段的预训练损失呈正相关(图7c)。

这些发现为模型选择提供了依据,有助于在性能与效率之间做出权衡


3.6.2 长文本处理能力(Long-form Ability)

由于Seed-ASR基于AcLLM框架,可自然利用大语言模型的语义知识和长上下文建模能力,因此作者探索了直接输入整段长语音进行识别的方法,以避免传统分段处理带来的问题。

  • 传统分段处理的缺点

    1. 分割可能导致边界信息丢失,降低识别准确率;

    2. 分割破坏了长语音中的全局上下文信息,影响识别的准确性和一致性。

  • 实验设置:构建了五个来源不同的长视频测试集,训练时将整段长语音完整输入模型,不进行分割。

  • 实验结果(见表2):

    • 相比于使用语音活动检测(VAD)对长语音进行分段处理的短文本训练模型,使用长文本训练的模型在WER上降低了约8.8%

    • 例如,短文本训练模型在平均WER为2.28,而使用长文本微调后,平均WER进一步降至2.08。

    • 最长视频时长可达5分钟,模型通过调度器实现了更长时长的扩展处理。


总结

本节通过实验验证了以下两个重要发现:

  1. 模型扩展规律:LUISE的预训练损失和语音识别表现均与模型参数规模呈近线性关系,为模型选择提供了理论依据。

  2. 长语音处理能力:直接输入长语音进行训练和识别,能够显著提升识别性能,避免了传统分段处理的问题,展示了基于LLM框架在长上下文建模方面的优势。

这些研究结果为构建高性能、高效的大规模语音识别系统提供了重要的指导和实践基础。

4 Model and Evaluation

本章节主要介绍了 Seed-ASR 系列模型的构建与评估,重点包括两个模型:Seed-ASR (CN)Seed-ASR (ML)。其中,Seed-ASR (CN) 专注于多语境下的中文及方言语音识别,而 Seed-ASR (ML) 则面向多语言语音识别。以下是对本章节的总结:


1. 模型结构与训练流程

  • Seed-ASR (CN) 采用统一的模型结构和训练流程,包括 SSL(自监督学习)、SFT(监督微调)、Context SFT(带上下文信息的微调)和 RL(强化学习)四个阶段。

  • 使用近 20 亿参数的 LUISE 编码器作为语音特征提取器,结合十亿级参数的 MoE(混合专家)语言模型,具备强大的语义理解能力。

  • 在 Context SFT 阶段引入对话历史等上下文信息,增强了模型在对话场景下的识别能力。


2. 评估方法与数据集

为全面评估 Seed-ASR (CN) 的性能,构建了多个评估集,覆盖了以下场景:

  • 多领域(multi-domain)

  • 多源视频

  • 多方言(Mandarin + 13 中国方言)

  • 多口音

  • 对话上下文

  • 主观可理解性


3. Seed-ASR (CN) 的评估结果

(1)在公开数据集上的表现

Table 3: The comparison of Seed-ASR (CN) and other released large ASR models on Chinese ASR benchmarks.

  • 在多个中文语音识别基准上(如 aishell-1、aishell-2、wenetspeech),Seed-ASR (CN) 显著优于 Paraformer-large、Qwen-Audio 等模型。

  • 平均 WER 降低了 24%–40%,达到当前最优。

(2)多领域与多源视频评估

  • 在多领域数据集上,Seed-ASR (CN) 的 WER 比强基线模型降低 47%。

  • 在包含 7 个子集的视频数据集上也表现出明显优势。

(3)多方言与多口音评估

  • 模型支持 13 种中国方言的识别,在 13 个方言数据集上的 WER 比基线模型降低 11.4%。

  • 在 11 个中国口音数据集上的 WER 比端到端模型降低 50% 以上,即使不使用专门的口音训练数据也表现优异。

(4)对话上下文评估

  • 通过引入对话历史信息,Seed-ASR (CN) 在关键词召回率上比使用 FST 偏置策略的模型提升 15% 以上。

  • 支持的上下文信息包括对话历史、智能助手描述、字幕历史等。

(5)主观评价

  • 在视频、直播、会议等复杂场景下,Seed-ASR (CN) 的主观可理解性评分甚至优于人类转录员。

  • 说明模型在专业术语和复杂语音环境下的识别质量接近或超越人类水平。

(6)阶段训练的消融研究

  • RL 阶段提升了多领域、多源视频、多方言等任务的性能。

  • Context SFT 显著提升了上下文相关任务的识别能力,特别是在关键词召回率方面。


4. 总结

Seed-ASR (CN) 模型在中文语音识别任务中展现出强大的性能和泛化能力,优于当前主流模型。其多阶段训练策略(SFT → Context SFT → RL)有效提升了模型在多领域、多语言、多语境下的表现。评估结果表明,Seed-ASR 不仅在客观指标上领先,也在主观评价中达到或超越人类水平,具备广泛的应用潜力。

4.2 Seed-ASR (ML)

这段内容主要介绍了Seed-ASR (ML),即多语言版本的Seed-ASR模型,及其在多种语言、多种口音和多种领域的表现。总结如下:

  1. 模型背景
    Seed-ASR (ML) 是在 Seed-ASR (CN) 的基础上扩展而来的多语言语音识别模型。它通过使用更广泛的多语言训练数据,实现了对多种语言的支持。

  2. 训练数据

    • SSL(自监督学习)阶段使用了包含数千万小时的多语言、多领域数据,基于LUISE架构。

    • SFT(监督微调)阶段则使用了覆盖9种语言(英语、中文、阿拉伯语、西班牙语、法语、印尼语、日语、韩语、葡萄牙语)的上十万小时数据。

  3. 评估设置与结果

    • 多领域与多口音评估:模型在英语和非英语语言(如阿拉伯语、西班牙语等)的表现均优于多个主流基线模型(如Google USM、Whisper Large v3等),在英语多领域和多口音数据上的词错误率(WER)分别下降了约42%和40%,在英语Hardcase任务中的F1得分也显著提高。

    • 公共数据集评估:在多个公开数据集(如Librispeech、MLS、Fleurs等)上,Seed-ASR (ML) 也取得了最优或接近最优的结果,显示出其在未见过领域上的泛化能力。

  4. 结论
    Seed-ASR (ML) 在多种语言、口音、领域下的表现远超现有模型,表现出强大的语音识别能力与泛化能力,适用于多样化、复杂的实际应用场景。

5 Conclusion

本章节总结了Seed-ASR模型的主要成果和优势。通过分阶段训练(包括SFT、上下文SFT和强化学习RL),Seed-ASR在多个语音和语义领域、不同口音、方言和语言以及长时语音任务中均表现出优于当前先进端到端模型的能力。大规模的LUISE预训练和SFT训练使模型具备理解多样化语音内容的能力。引入的上下文SFT阶段显著提升了模型在给定上下文时对关键词的召回能力,展示了其强大的定制化能力。强化学习阶段则进一步优化了模型生成文本与准确转录需求之间的对齐,特别是在语义关键部分的转录方面。总体而言,Seed-ASR在多语言、多方言、多场景和个性化需求的应用中表现优异。未来的研究方向包括扩展其多任务处理能力、增强长文本处理性能以及增加支持的语言种类。

Appendix A Appendix

总结

本附录详细介绍了 Seed-ASR 模型在多语言环境下的性能评估结果、测试集详情以及训练数据统计,具体内容如下:


A.1 Seed-ASR (ML) 的详细结果

Table 12: Language-wise performance of Seed-ASR (ML) on multilingual multi-domain evaluation sets.

  • 在多个非英语语言的多语言、多领域测试集上,Seed-ASR (ML) 相较于 Google USMWhisper Large-v3 表现出显著的性能提升。

  • 表 12 展示了不同语言的词错误率 (WER) 结果,例如:

    • 阿拉伯语 (AR) 相对 WER 减少 55.4%(从 35.21 降至 18.69)

    • 西班牙语 (ES) 相对 WER 减少 32.2%

    • 对于印尼语 (ID) 和阿拉伯语等资源较少但使用广泛的语言,Seed-ASR (ML) 也实现了超过 45% 的相对 WER 降低。


A.2 Seed-ASR (ML) 评估使用的英文和多语言公开测试集

  • Librispeech:报告了 test-cleantest-other 的 WER。

  • Tedlium 3:使用已分割的测试集。

  • CallHome、Switchboard、AMI IHM:保持与 Whisper v3 一致的数据来源。

  • Fleurs:对 8 种语言进行逆归一化处理后计算 WER。

  • MLS:评估了英语、西班牙语、法语和葡萄牙语的测试集。


A.3 训练数据统计

  • LUISE 的自监督学习 (SSL)

    • Seed-ASR (CN):使用 770 万小时语音数据,其中普通话占 74%,其余为中国方言。

    • Seed-ASR (ML):使用 1240 万小时语音数据,英语占 51.52%,还包含 20 多种其他语言。

  • Seed-ASR 的监督微调 (SFT)

    • Seed-ASR (CN):使用 56.2 万小时语音数据,普通话占 73.94%,其他为中国方言和英语。

    • Seed-ASR (ML):使用 31.4 万小时语音数据,英语占 39.84%,还包含部分全球广泛使用的语言。


总结要点

  • Seed-ASR (ML) 在多语言语音识别任务中表现出色,尤其在低资源语言上优势明显。

  • 评估使用了多种公开测试集,确保模型在不同语言和领域下的泛化能力。

  • 大规模自监督学习和监督微调使用了丰富的多语言数据,为模型的高性能奠定了基础。

整体而言,这些附录内容展示了 Seed-ASR 在多语言语音识别上的先进性能和数据支持的合理性。