2505.02707_Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Abstract

  • Voila 是一个先进的语音 AI 系统,目标是像人类一样自然、主动、富有情感地与人互动。

  • 它采用端到端架构,能实现快速(195 毫秒)且连续的双向语音对话,保留语调、节奏和情感。

  • Voila 结合了大语言模型的推理能力和强大的语音建模,支持用户通过文本定义说话人的风格,还支持超百万种预设声音和从10秒音频快速定制新声音。

  • 它不仅用于对话,还能应用于语音识别、语音合成和多语种翻译。

1. Introduction

核心问题:现有 AI 系统的交互方式太“被动”

  • 当前的 AI(如 Siri、ChatGPT)都是“用户问、AI答”,属于被动、回合式交互。

  • 真正自主的 AI应该能主动感知环境、预测用户需求,在合适的时机主动发起或回应交流,例如:

    • 主动提醒用户前方有危险

    • 感知情绪变化,及时安慰或建议

语音是实现自然交互的关键方式

  • 相比文字,语音更自然、即时,能传递丰富情绪和意图(语调、节奏、情感等)。

  • 人类对话中常有打断、同时说话、反馈声(如“嗯”、“哦”),这些在语音中才真实。

从传统语音助手到端到端语音大模型

Figure 1:Different paradigms of voice conversation systems: (a) Traditional pipeline systems, such as Apple Siri, Amazon Alexa, and Google Assistant, launched in the 2010s; (b) Simplified pipeline systems using LLMs to handle text-based understanding and response generation; (c) End-to-end audio-in, audio-out systems that offer low latency and rich vocal nuances; (d) Autonomous systems that further enable dynamic, proactive interactions.

  1. 传统语音助手(如 Siri)

    • 模块化流水线,结构复杂,反应慢,理解能力弱。

  2. 使用 LLM 的语音助手

    • 使用 ASR + LLM + TTS,把语音转文字、处理再转语音。

    • 好处:理解力更强。

    • 问题:仍然有延迟大、丢失语音细节、只能被动回应等缺点。

  3. 端到端语音模型(audio-in, audio-out)

    • 不经过文字中间步骤,直接处理音频,保留语音细节、延迟更低。

    • 但仍然是回合式,不够“主动”。

解决方案:Voila 模型家族

  • Voila-e2e:端到端语音对话模型,支持低延迟、丰富语音表达、定制化人物设定。

  • Voila-autonomous:进一步支持同时收听和说话(全双工),实现实时自主交互

Voila 的技术亮点

  1. 融合语音与文本

    • 使用多层 Transformer,将语义和声音特征分开处理。

    • 构建 Voila-Tokenizer,把语音编码为 token,并与文字一起训练。

  2. 海量可定制声音

    • 只需上传几秒到几小时的音频,Voila 即可学会模仿说话人。

    • 可搭配文本设定人物性格,创建拟人化 AI。

  3. 统一模型多任务处理

    • 一个模型可处理语音识别(ASR)、语音合成(TTS)、语音翻译等多种任务。

    • 支持六种语言:英语、中文、法语、德语、日语、韩语。

3. Voila: Voice-Language Foundation Models

Figure 2:Voila models: (a) Voila-e2e for end-to-end voice conversation, (b) Voila-autonomous for autonomous interaction. Both models allow easy customization of speaker characteristics and voice via text instructions and audio samples.

  • Voila 是一个支持“听说同步、自然互动”的语音-语言大模型系统,可以实现真人般的语音对话,还支持个性化声音定制。

  • 模型结构:

    • 采用 分层多尺度 Transformer 架构

    • 包括两个主要部分:

      • 语言模型主干(LLM):处理语义(理解你在说什么)。

      • 音频 Transformer:根据语义生成音频 token。

    • 最终通过 音频 tokenizer 把 token 解码为语音。

3.1 Voice Tokenizer

  • 把连续语音转成离散 token 供 LLM 使用。

  • token 分两类:

    • 语义 token:表达“说了什么”,但细节丢失(如情感、语气)。

    • 声学 token:保留声音细节,但缺少语义。

  • Voila 结合二者优势,使用 4层 RVQ(残差向量量化)

    • 第一层用于语义,后三层用于声学特征。

    • 训练用了 10 万小时的语音数据。

3.2 Text and Audio Alignment

Figure 3:Text and audio interleaved alignment.

  • 支持多任务训练(ASR, TTS, 指令跟随)。

  • 输入输出都采用统一格式 <human> 输入 <voila> 输出 <eos>

  • 提出了 文本-音频交错对齐策略:比如“Hello I am Voila”就按“

  • 核心目标:

    • 文本和音频对齐,使模型能够在语音识别(ASR)、语音合成(TTS)和指令执行任务中统一处理两种模态。

Multi-task alignment

  • 使用 Voila 的音频 tokenizer 将音频转成离散 token,并将这些 token 融入大模型的词表。

  • 通过三类任务训练模型:

    • ASR:输入音频 token,输出文本。

      • 格式: <human> audio input <voila> text output <eos>

      • audio input consists of discrete audio tokens and the model generates the corresponding transcript.

    • TTS:输入文本,输出音频 token。

      • 格式: <human> text input <voila> audio output <eos>

    • 指令执行:支持文本和音频任意组合输入输出,

      • 如 Text→Text、Audio→Text 等共4种形式。

  • 所有任务都采用对话格式训练,只在 <voila><eos> 之间的响应部分计算损失。

  • 音频输出任务(如 TIAO、AIAO)会使用交错格式(text 和 audio token 交替)来增强模态对齐。

Text-audio interleaved alignment.

  • 精细地将每个词与对应音频片段一一对应

    • 如图 3 所示,给定语音输入 “Hello I am Voila”

    • 输入序列被编码为 “

    • 这种设计有助于实现细粒度对齐,并增强了模型生成富有表现力和同步性语音的能力

  • 与之前方法(如 Spirit-LM、USDM)不同

    • 它不只是交替,而是强制一对一绑定,从而提高表达能力和训练稳定性。

  1. 双向语音交互(图5):

    • Voila 同时处理用户的音频输入和自己的音频输出,两个流独立嵌入后融合(平均)输入到 LLM,再生成语音响应。

Figure 4:Input embedding and output decoding in Voila.

  • 图片理解

    1. 输入编码

      • We use audio tokens produced by the four-layer RVQ tokenizer

      • 文本 token 每个重复4次以匹配音频 token 的维度。

      • 然后组成交错序列并转为 embedding。

    2. 模型处理

      • 用 backbone LLM 处理这些 embedding。

      • 输出结果再输入 audio transformer 生成音频 token。

Figure 5:Voila-autonomous two-stream inputs, including user’s audio stream and Voila ’s own audio stream.

  • 图片理解:Voila 同时处理用户的音频输入和自己的音频输出,两个流独立嵌入后融合(平均)输入到 LLM,再生成语音响应。

3.3 One Million Pre-built Voices and Customizing New Voices

  • Voila 是一个端到端的语音生成系统,支持用户自定义语音角色。它不同于传统需要额外 TTS 模块的做法,而是直接在模型中集成了语音定制功能。

  • 主要做法是使用一个“可学习的特殊 token”来表示说话人的声音特征(如音色、语调、口音),这个特征由 Wespeaker 工具从音频中提取出来,并在生成语音时引导模型模仿目标声音。

  • 在训练中,模型通过三个特殊 token 表示语音特征的起始、参考和结束段,分别用于 TTS 和聊天任务,避免混淆。

  • 推理时,只需一段音频(几秒到几小时都行),系统就能生成匹配声音的语音响应。加上文字描述角色个性,还能创建高度拟人的语音角色。

  • Voila 已预构建了超过一百万种语音,用户也可以在使用时灵活定制新声音。

4. Experiments

4.1 Voila Benchmark

  • Voila Benchmark 是一个用来评估语音-语言模型(Voice-Language Models, VLMs)的测试集。

  • 它从 5 个常用的文本评测数据集中抽样(包括 MMLU、MATH、HumanEval、NQ-Open 和 GSM8K),并用 TTS(文本转语音)技术转换为语音,从而覆盖多个领域。

  • 总共包含 1580 个样本,涵盖 66 个主题。

  • 因为原始文本中有些内容(如公式、代码)不适合直接转语音,研究者用 GPT-4o 先把这些文本改写成适合朗读的版本,再用 Google TTS 生成音频。

Table 1: Overall performance on Voila Benchmark

4.2 Evaluation on Voila Benchmark

  1. 语音理解(语音转文字)评估

    • 用 Whisper 把模型输出的语音转成文字,然后用 GPT-4o 比较转录结果和标准答案的相似度,评分范围 0-100。

  2. 对比模型

    • 与两个开源语音-语言模型 SpeechGPT 和 Moshi 进行了对比。Voila 在整体表现上更好,特别是在数学和代码领域表现明显更强,说明它的语音-文本对齐和推理能力更强。

4.3 Evaluation on ASR and TTS

Table 3: Results of ASR.

  • ASR(语音转文字)

    • 用 LibriSpeech 数据集评估,指标是词错误率(WER)。

    • Voila 在不使用训练数据的情况下 WER 为 4.8%,使用训练数据后可降到 2.7%,达到当前最佳水平。

Table 4: Results of TTS.

  • TTS(文字转语音)

    • 用 HuBERT 转录 Voila 生成的语音并计算 WER。

    • Voila 的 WER 为 3.2%(使用训练数据时是 2.8%),优于对比模型。

5. Conclusion

  • 我们推出了 Voila,一种 voice-language 基础模型家族,能自主完成语音对话、语音识别(ASR)、语音合成(TTS)等任务。

  • 通过创新的语音编码、层次化建模和音频-文本对齐技术,Voila 在性能上达到或超过当前最先进水平。

  • 它采用多尺度 Transformer 架构,深度融合语音与语言,能细致处理语义和声音信息。

  • Voila 还支持高度定制,让用户打造多样化、有表现力的语音角色,提升交互体验。

  • 整体上,Voila 向自主、具同理心的语音 AI 迈出了重要一步,并已开放模型和代码,推动进一步研究。