# 2505.02707_Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play * [https://arxiv.org/abs/2505.02707](https://arxiv.org/abs/2505.02707) * 组织: Maitrix.org, UC San Diego, MBZUAI * GitHub: [https://github.com/maitrix-org/Voila](https://github.com/maitrix-org/Voila) ## Abstract * Voila 是一个先进的语音 AI 系统,目标是像人类一样自然、主动、富有情感地与人互动。 * 它采用端到端架构,能实现快速(195 毫秒)且连续的双向语音对话,保留语调、节奏和情感。 * Voila 结合了大语言模型的推理能力和强大的语音建模,支持用户通过文本定义说话人的风格,还支持超百万种预设声音和从10秒音频快速定制新声音。 * 它不仅用于对话,还能应用于语音识别、语音合成和多语种翻译。 ## 1. Introduction ### 核心问题:现有 AI 系统的交互方式太“被动” * 当前的 AI(如 Siri、ChatGPT)都是“用户问、AI答”,属于被动、回合式交互。 * 真正**自主的 AI**应该能**主动感知环境、预测用户需求**,在合适的时机主动发起或回应交流,例如: * 主动提醒用户前方有危险 * 感知情绪变化,及时安慰或建议 ### 语音是实现自然交互的关键方式 * 相比文字,语音更自然、即时,能传递丰富情绪和意图(语调、节奏、情感等)。 * 人类对话中常有**打断、同时说话、反馈声(如“嗯”、“哦”)**,这些在语音中才真实。 ### 从传统语音助手到端到端语音大模型 ![](https://img.zhaoweiguo.com/uPic/2025/06/Ydupaq.png) Figure 1:Different paradigms of voice conversation systems: (a) Traditional pipeline systems, such as Apple Siri, Amazon Alexa, and Google Assistant, launched in the 2010s; (b) Simplified pipeline systems using LLMs to handle text-based understanding and response generation; (c) End-to-end audio-in, audio-out systems that offer low latency and rich vocal nuances; (d) Autonomous systems that further enable dynamic, proactive interactions. 1. **传统语音助手(如 Siri)**: * 模块化流水线,结构复杂,反应慢,理解能力弱。 2. **使用 LLM 的语音助手**: * 使用 ASR + LLM + TTS,把语音转文字、处理再转语音。 * 好处:理解力更强。 * 问题:仍然有**延迟大、丢失语音细节、只能被动回应**等缺点。 3. **端到端语音模型(audio-in, audio-out)**: * 不经过文字中间步骤,直接处理音频,保留语音细节、延迟更低。 * 但仍然是回合式,不够“主动”。 ### 解决方案:Voila 模型家族 * **Voila-e2e**:端到端语音对话模型,支持低延迟、丰富语音表达、定制化人物设定。 * **Voila-autonomous**:进一步支持**同时收听和说话(全双工)**,实现**实时自主交互**。 ### Voila 的技术亮点 1. **融合语音与文本**: * 使用多层 Transformer,将语义和声音特征分开处理。 * 构建 Voila-Tokenizer,把语音编码为 token,并与文字一起训练。 2. **海量可定制声音**: * 只需上传几秒到几小时的音频,Voila 即可学会模仿说话人。 * 可搭配文本设定人物性格,创建拟人化 AI。 3. **统一模型多任务处理**: * 一个模型可处理语音识别(ASR)、语音合成(TTS)、语音翻译等多种任务。 * 支持六种语言:英语、中文、法语、德语、日语、韩语。 ## 2. Related Work * 这段内容主要介绍了语音助手相关技术的演进,分为三类:**传统流水线系统、端到端模型、全双工模型**。 ### 1. **传统流水线系统(Pipeline Systems)** * 代表:Siri、Alexa、Google Assistant。 * 分为多个步骤:唤醒词识别 → 语音识别(ASR)→ 意图理解(NLU)→ 回复生成(NLG)→ 语音合成(TTS)。 * 缺点: * 模块多,处理慢,不适合实时场景; * 语音转文本会丢失情感、语调等信息。 ### 2. **端到端模型(End-to-end Models)** * 目标:简化流程,提高实时性,保留更多语音信息。 * 常见做法: * 用 Whipser 等模型将语音转为特征,然后送入 LLM。 * 缺点:Whisper等模型延迟大、不支持生成语音。 * **为支持语音生成:** * 把语音转为“离散音频 token”,加到 LLM 词表中,像生成文字一样生成语音。 * 例子:GSLM、SpeechGPT、VoxtLM、AudioLM、Spectron 等。 * 有的模型用声码器保留语音细节,有的直接预测声谱图(如 Spectron)。 * **跨模态训练(语音 + 文本)**: * 如 SpeechGPT、Spectron 先输出文字,再生成语音,推理能力强,但延迟高。 * 新方法(如 Spirit-LM)混合文本和语音 token,但训练困难,容易对不齐。 ### 3. **全双工模型(Full-duplex Models)** * 实现边说边听,更像人类对话。 * 代表:Moshi * 结合前述技术,用“内心独白”机制处理不同任务(对话、ASR、TTS); * 缺点:配置复杂,不易统一建模。 * 代表:Hertz-dev * 完全基于音频,不用文字预训练; * 结论:文字预训练对纯音频模型帮助不大。 * **Voila-autonomous:** * 支持语音对话、识别、合成等多任务统一建模; * 结合 LLM 的文本理解能力与语音能力; * 易于自定义、低延迟、支持插件式语音风格。 ## 3. Voila: Voice-Language Foundation Models ![](https://img.zhaoweiguo.com/uPic/2025/06/OGn0DI.png) Figure 2:Voila models: (a) Voila-e2e for end-to-end voice conversation, (b) Voila-autonomous for autonomous interaction. Both models allow easy customization of speaker characteristics and voice via text instructions and audio samples. * Voila 是一个支持“听说同步、自然互动”的语音-语言大模型系统,可以实现真人般的语音对话,还支持个性化声音定制。 * **模型结构:** * 采用 **分层多尺度 Transformer 架构**。 * 包括两个主要部分: * **语言模型主干(LLM)**:处理语义(理解你在说什么)。 * **音频 Transformer**:根据语义生成音频 token。 * 最终通过 **音频 tokenizer** 把 token 解码为语音。 ### 3.1 Voice Tokenizer * 把连续语音转成离散 token 供 LLM 使用。 * token 分两类: * **语义 token**:表达“说了什么”,但细节丢失(如情感、语气)。 * **声学 token**:保留声音细节,但缺少语义。 * Voila 结合二者优势,使用 **4层 RVQ(残差向量量化)**: * 第一层用于语义,后三层用于声学特征。 * 训练用了 10 万小时的语音数据。 ### 3.2 Text and Audio Alignment ![](https://img.zhaoweiguo.com/uPic/2025/06/NUp8mB.png) Figure 3:Text and audio interleaved alignment. * 支持多任务训练(ASR, TTS, 指令跟随)。 * 输入输出都采用统一格式 ` 输入 输出 `。 * 提出了 **文本-音频交错对齐策略**:比如“Hello I am Voila”就按“