# 2407.10759_Qwen2-Audio Technical Report * [https://arxiv.org/abs/2407.10759](https://arxiv.org/abs/2407.10759) * 组织: 阿里千问 * GitHub: [https://github.com/QwenLM/Qwen2-Audio](https://github.com/QwenLM/Qwen2-Audio) * Blog: [https://qwenlm.github.io/blog/qwen2-audio/](https://qwenlm.github.io/blog/qwen2-audio/) ## Abstract * Qwen2-Audio 是一个新一代的大型音频语言模型,能处理各种音频输入,并根据语音指令进行分析或直接回应。 * 它通过自然语言提示来训练,而不是复杂的标签体系,同时扩大了训练数据量。 * 模型支持两种模式: 1. **语音聊天模式**:用户可以纯语音与模型对话,无需输入文字。 2. **音频分析模式**:用户可以提供音频和文字指令,模型会进行分析。 * 无需特定提示词切换模式,模型能自动理解音频内容并正确回应,即使音频中混有多种声音或多说话人。 * 此外,通过 DPO 技术优化后,模型在事实性和行为控制方面表现更好,在 AIR-Bench 测试中超过了以往的领先模型如 Gemini-1.5-pro。 ## 1. Introduction * 音频是人与人、人与生物之间重要的交流媒介,包含丰富信息。要实现通用人工智能(AGI),理解各种音频信号是关键。 * 最近,大音频语言模型(LALM)有了重大进展,能理解各种语音、分析信号并进行复杂推理。 * 本报告提出了 **Qwen2-Audio**,一个能处理音频和文本输入、输出文本的大音频语言模型。 * 它比以往的模型使用了更多数据,并简化了预训练流程,直接用自然语言提示进行训练。 * 之后,通过指令微调和偏好优化,使模型输出更符合人类偏好。 * Qwen2-Audio 有两个模式: 1. **音频分析模式**:可分析语音、声音、音乐等各种音频,用户用语音或文字指令都可以,模型能自动识别其中的命令部分。 2. **语音对话模式**:像和聊天机器人交流一样进行语音对话,也可以随时切换为文字输入。 * 比如用户上传一个音频,前半段是打字声,后半段说“这是什么声音?”,模型能正确回答“这是键盘的声音”。 * 在多个任务上评估结果显示,**Qwen2-Audio 即使没有针对某个任务专门微调,也表现优于之前的模型**,在一些基准测试上达到了最优水平。 ## 2. Methodology ![](https://img.zhaoweiguo.com/uPic/2025/06/ro0XKm.png) Figure 2:The overview of three-stage training process of Qwen2-Audio. ### Model Architecture * Qwen2-Audio 包含一个音频编码器(基于 Whisper-large-v3)和一个大语言模型(Qwen-7B)。 * 训练目标是:根据音频内容和已有文本预测下一个文本 token。 * 音频处理流程是: * 将音频重采样为 16kHz; * 转换为 128 维 mel 频谱图(窗长 25ms,跳长 10ms); * 加入池化层(stride=2)降低序列长度; * 每帧表示约 40ms 音频。 ### Pre-training * 使用**自然语言提示(prompts)**代替传统的结构化标签,提高泛化和指令理解能力。 #### 3. 指令微调(SFT) * 在大规模高质量指令数据上微调,强化模型理解人类意图的能力。 * 支持两种交互模式: * **音频分析模式**:支持用户上传音频,进行离线分析; * **语音聊天模式**:与用户进行语音对话,适用于实时互动。 * 这两种模式**统一训练、无须手动切换**。 #### 4. DPO 优化 * 引入 **Direct Preference Optimization(DPO)** 方法,让模型更符合人类偏好: * 输入:音频 + 好/坏两个回答; * 优化:倾向选择人类标注的好回答。 ## 3. Experiments ### 1. 评估方法: ![](https://img.zhaoweiguo.com/uPic/2025/06/ST4Ie9.jpg) Table 1: Summary of Evaluation Benchmarks for Qwen2-Audio. * 以往的测试数据集太简单,不能真实反映模型在实际场景的表现。 * 本文主要用 **AIR-Bench** 来评估,因为它更贴近用户真实体验。 * 同时也在13个数据集上评估了模型在多个任务上的表现,包括: * 语音识别(ASR) * 语音翻译(S2TT) * 情感识别(SER) * 声音分类(VSC) * 所用评测数据都不包含在训练数据里,避免数据泄漏。 * 对比了多个开源模型和API模型(如 Gemini)。 ### 2. 主要结果: ![](https://img.zhaoweiguo.com/uPic/2025/06/XbDaGJ.jpg) Table 2: The results of Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Recognition (SER), Vocal Sound Classification (VSC), and AIR-Bench chat benchmark. Note that for Qwen2-Audio, the results for Fleurs are zero-shot, whereas the results for Common Voice are not zero-shot. * **语音识别方面**,Qwen2-Audio 表现超过以前的多任务模型: * LibriSpeech 测试集上,识别错误率(WER)为 1.6% 和 3.6%。 * **中文识别方面**,在 Fleurs 数据集上优于 Whisper-large-v3(两者都用零样本测试)。 * **语音翻译方面**,在 CoVoST2 数据集中,在7个翻译方向上都明显领先其他模型。 * **声音分类任务方面**(SER 和 VSC),Qwen2-Audio 也明显优于其他模型。 * **多模态聊天能力**方面,在 AIR-Bench 的聊天子集上表现优异,超越 Qwen-Audio 和其他多模态大模型(LALM)。 ## 5. Conclusion * 我们提出了 Qwen2-Audio,它在原有 Qwen-Audio 的基础上增强了语音交互能力。 * 通过扩展预训练数据、优化对齐训练(SFT)和使用 DPO 技术,模型在语音理解和对话方面表现更好。 * 实验证明它在音频理解和语音对话上都很优秀,实际案例也展示了它流畅灵活的语音交互能力。