2505.02707_Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play¶

https://arxiv.org/abs/2505.02707
组织: Maitrix.org, UC San Diego, MBZUAI
GitHub: https://github.com/maitrix-org/Voila

Abstract¶

Voila 是一个先进的语音 AI 系统，目标是像人类一样自然、主动、富有情感地与人互动。
它采用端到端架构，能实现快速（195 毫秒）且连续的双向语音对话，保留语调、节奏和情感。
Voila 结合了大语言模型的推理能力和强大的语音建模，支持用户通过文本定义说话人的风格，还支持超百万种预设声音和从10秒音频快速定制新声音。
它不仅用于对话，还能应用于语音识别、语音合成和多语种翻译。

1. Introduction¶

核心问题：现有 AI 系统的交互方式太“被动”¶

当前的 AI（如 Siri、ChatGPT）都是“用户问、AI答”，属于被动、回合式交互。
真正自主的 AI应该能主动感知环境、预测用户需求，在合适的时机主动发起或回应交流，例如：
- 主动提醒用户前方有危险
- 感知情绪变化，及时安慰或建议

语音是实现自然交互的关键方式¶

相比文字，语音更自然、即时，能传递丰富情绪和意图（语调、节奏、情感等）。
人类对话中常有打断、同时说话、反馈声（如“嗯”、“哦”），这些在语音中才真实。

从传统语音助手到端到端语音大模型¶

Figure 1:Different paradigms of voice conversation systems: (a) Traditional pipeline systems, such as Apple Siri, Amazon Alexa, and Google Assistant, launched in the 2010s; (b) Simplified pipeline systems using LLMs to handle text-based understanding and response generation; (c) End-to-end audio-in, audio-out systems that offer low latency and rich vocal nuances; (d) Autonomous systems that further enable dynamic, proactive interactions.

传统语音助手（如 Siri）：
- 模块化流水线，结构复杂，反应慢，理解能力弱。
使用 LLM 的语音助手：
- 使用 ASR + LLM + TTS，把语音转文字、处理再转语音。
- 好处：理解力更强。
- 问题：仍然有延迟大、丢失语音细节、只能被动回应等缺点。
端到端语音模型（audio-in, audio-out）：
- 不经过文字中间步骤，直接处理音频，保留语音细节、延迟更低。
- 但仍然是回合式，不够“主动”。

解决方案：Voila 模型家族¶

Voila-e2e：端到端语音对话模型，支持低延迟、丰富语音表达、定制化人物设定。
Voila-autonomous：进一步支持同时收听和说话（全双工），实现实时自主交互。

Voila 的技术亮点¶

融合语音与文本：
- 使用多层 Transformer，将语义和声音特征分开处理。
- 构建 Voila-Tokenizer，把语音编码为 token，并与文字一起训练。
海量可定制声音：
- 只需上传几秒到几小时的音频，Voila 即可学会模仿说话人。
- 可搭配文本设定人物性格，创建拟人化 AI。
统一模型多任务处理：
- 一个模型可处理语音识别（ASR）、语音合成（TTS）、语音翻译等多种任务。
- 支持六种语言：英语、中文、法语、德语、日语、韩语。

3. Voila: Voice-Language Foundation Models¶

Figure 2:Voila models: (a) Voila-e2e for end-to-end voice conversation, (b) Voila-autonomous for autonomous interaction. Both models allow easy customization of speaker characteristics and voice via text instructions and audio samples.

Voila 是一个支持“听说同步、自然互动”的语音-语言大模型系统，可以实现真人般的语音对话，还支持个性化声音定制。
模型结构：
- 采用 分层多尺度 Transformer 架构。
- 包括两个主要部分：
  - 语言模型主干（LLM）：处理语义（理解你在说什么）。
  - 音频 Transformer：根据语义生成音频 token。
- 最终通过 音频 tokenizer 把 token 解码为语音。

3.1 Voice Tokenizer¶

把连续语音转成离散 token 供 LLM 使用。
token 分两类：
- 语义 token：表达“说了什么”，但细节丢失（如情感、语气）。
- 声学 token：保留声音细节，但缺少语义。
Voila 结合二者优势，使用 4层 RVQ（残差向量量化）：
- 第一层用于语义，后三层用于声学特征。
- 训练用了 10 万小时的语音数据。

3.2 Text and Audio Alignment¶

Figure 3:Text and audio interleaved alignment.

支持多任务训练（ASR, TTS, 指令跟随）。
输入输出都采用统一格式 <human> 输入 <voila> 输出 <eos>。
提出了 文本-音频交错对齐策略：比如“Hello I am Voila”就按“

核心目标：

将文本和音频对齐，使模型能够在语音识别（ASR）、语音合成（TTS）和指令执行任务中统一处理两种模态。

Multi-task alignment¶

使用 Voila 的音频 tokenizer 将音频转成离散 token，并将这些 token 融入大模型的词表。

通过三类任务训练模型：

ASR：输入音频 token，输出文本。

格式: <human> audio input <voila> text output <eos>

audio input consists of discrete audio tokens and the model generates the corresponding transcript.

TTS：输入文本，输出音频 token。

格式: <human> text input <voila> audio output <eos>

指令执行：支持文本和音频任意组合输入输出，

如 Text→Text、Audio→Text 等共4种形式。

所有任务都采用对话格式训练，只在 <voila> 到 <eos> 之间的响应部分计算损失。

音频输出任务（如 TIAO、AIAO）会使用交错格式（text 和 audio token 交替）来增强模态对齐。

Text-audio interleaved alignment.¶

精细地将每个词与对应音频片段一一对应

如图 3 所示，给定语音输入 “Hello I am Voila”

输入序列被编码为 “

这种设计有助于实现细粒度对齐，并增强了模型生成富有表现力和同步性语音的能力

与之前方法（如 Spirit-LM、USDM）不同

它不只是交替，而是强制一对一绑定，从而提高表达能力和训练稳定性。

双向语音交互（图5）：

Voila 同时处理用户的音频输入和自己的音频输出，两个流独立嵌入后融合（平均）输入到 LLM，再生成语音响应。

Figure 4:Input embedding and output decoding in Voila.

图片理解

输入编码：

We use audio tokens produced by the four-layer RVQ tokenizer

文本 token 每个重复4次以匹配音频 token 的维度。

然后组成交错序列并转为 embedding。

模型处理：

用 backbone LLM 处理这些 embedding。

输出结果再输入 audio transformer 生成音频 token。

Figure 5:Voila-autonomous two-stream inputs, including user’s audio stream and Voila ’s own audio stream.

图片理解：Voila 同时处理用户的音频输入和自己的音频输出，两个流独立嵌入后融合（平均）输入到 LLM，再生成语音响应。

3.3 One Million Pre-built Voices and Customizing New Voices¶

Voila 是一个端到端的语音生成系统，支持用户自定义语音角色。它不同于传统需要额外 TTS 模块的做法，而是直接在模型中集成了语音定制功能。

主要做法是使用一个“可学习的特殊 token”来表示说话人的声音特征（如音色、语调、口音），这个特征由 Wespeaker 工具从音频中提取出来，并在生成语音时引导模型模仿目标声音。

在训练中，模型通过三个特殊 token 表示语音特征的起始、参考和结束段，分别用于 TTS 和聊天任务，避免混淆。

推理时，只需一段音频（几秒到几小时都行），系统就能生成匹配声音的语音响应。加上文字描述角色个性，还能创建高度拟人的语音角色。

Voila 已预构建了超过一百万种语音，用户也可以在使用时灵活定制新声音。

4. Experiments¶

4.1 Voila Benchmark¶

Voila Benchmark 是一个用来评估语音-语言模型（Voice-Language Models, VLMs）的测试集。

它从 5 个常用的文本评测数据集中抽样（包括 MMLU、MATH、HumanEval、NQ-Open 和 GSM8K），并用 TTS（文本转语音）技术转换为语音，从而覆盖多个领域。

总共包含 1580 个样本，涵盖 66 个主题。

因为原始文本中有些内容（如公式、代码）不适合直接转语音，研究者用 GPT-4o 先把这些文本改写成适合朗读的版本，再用 Google TTS 生成音频。

Table 1: Overall performance on Voila Benchmark

4.2 Evaluation on Voila Benchmark¶

语音理解（语音转文字）评估：

用 Whisper 把模型输出的语音转成文字，然后用 GPT-4o 比较转录结果和标准答案的相似度，评分范围 0-100。

对比模型：

与两个开源语音-语言模型 SpeechGPT 和 Moshi 进行了对比。Voila 在整体表现上更好，特别是在数学和代码领域表现明显更强，说明它的语音-文本对齐和推理能力更强。

4.3 Evaluation on ASR and TTS¶

Table 3: Results of ASR.

ASR（语音转文字）：

用 LibriSpeech 数据集评估，指标是词错误率（WER）。

Voila 在不使用训练数据的情况下 WER 为 4.8%，使用训练数据后可降到 2.7%，达到当前最佳水平。

Table 4: Results of TTS.

TTS（文字转语音）：

用 HuBERT 转录 Voila 生成的语音并计算 WER。

Voila 的 WER 为 3.2%（使用训练数据时是 2.8%），优于对比模型。

5. Conclusion¶

我们推出了 Voila，一种 voice-language 基础模型家族，能自主完成语音对话、语音识别（ASR）、语音合成（TTS）等任务。

通过创新的语音编码、层次化建模和音频-文本对齐技术，Voila 在性能上达到或超过当前最先进水平。

它采用多尺度 Transformer 架构，深度融合语音与语言，能细致处理语义和声音信息。

Voila 还支持高度定制，让用户打造多样化、有表现力的语音角色，提升交互体验。

整体上，Voila 向自主、具同理心的语音 AI 迈出了重要一步，并已开放模型和代码，推动进一步研究。

2505.02707_Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play¶

Abstract¶

1. Introduction¶

核心问题：现有 AI 系统的交互方式太“被动”¶

语音是实现自然交互的关键方式¶

从传统语音助手到端到端语音大模型¶

解决方案：Voila 模型家族¶

Voila 的技术亮点¶

2. Related Work¶

1. 传统流水线系统（Pipeline Systems）¶

2. 端到端模型（End-to-end Models）¶

3. 全双工模型（Full-duplex Models）¶

3. Voila: Voice-Language Foundation Models¶

3.1 Voice Tokenizer¶

3.2 Text and Audio Alignment¶

Multi-task alignment¶

Text-audio interleaved alignment.¶

3.3 One Million Pre-built Voices and Customizing New Voices¶

4. Experiments¶

4.1 Voila Benchmark¶

4.2 Evaluation on Voila Benchmark¶

4.3 Evaluation on ASR and TTS¶

5. Conclusion¶