2407.10759_Qwen2-Audio Technical Report¶

https://arxiv.org/abs/2407.10759
组织: 阿里千问
GitHub: https://github.com/QwenLM/Qwen2-Audio
Blog: https://qwenlm.github.io/blog/qwen2-audio/

Abstract¶

Qwen2-Audio 是一个新一代的大型音频语言模型，能处理各种音频输入，并根据语音指令进行分析或直接回应。
它通过自然语言提示来训练，而不是复杂的标签体系，同时扩大了训练数据量。
模型支持两种模式：
1. 语音聊天模式：用户可以纯语音与模型对话，无需输入文字。
2. 音频分析模式：用户可以提供音频和文字指令，模型会进行分析。
无需特定提示词切换模式，模型能自动理解音频内容并正确回应，即使音频中混有多种声音或多说话人。
此外，通过 DPO 技术优化后，模型在事实性和行为控制方面表现更好，在 AIR-Bench 测试中超过了以往的领先模型如 Gemini-1.5-pro。

1. Introduction¶

音频是人与人、人与生物之间重要的交流媒介，包含丰富信息。要实现通用人工智能（AGI），理解各种音频信号是关键。
最近，大音频语言模型（LALM）有了重大进展，能理解各种语音、分析信号并进行复杂推理。
本报告提出了 Qwen2-Audio，一个能处理音频和文本输入、输出文本的大音频语言模型。
- 它比以往的模型使用了更多数据，并简化了预训练流程，直接用自然语言提示进行训练。
- 之后，通过指令微调和偏好优化，使模型输出更符合人类偏好。
Qwen2-Audio 有两个模式：
1. 音频分析模式：可分析语音、声音、音乐等各种音频，用户用语音或文字指令都可以，模型能自动识别其中的命令部分。
2. 语音对话模式：像和聊天机器人交流一样进行语音对话，也可以随时切换为文字输入。
比如用户上传一个音频，前半段是打字声，后半段说“这是什么声音？”，模型能正确回答“这是键盘的声音”。
在多个任务上评估结果显示，Qwen2-Audio 即使没有针对某个任务专门微调，也表现优于之前的模型，在一些基准测试上达到了最优水平。

2. Methodology¶

Figure 2:The overview of three-stage training process of Qwen2-Audio.

Model Architecture¶

Qwen2-Audio 包含一个音频编码器（基于 Whisper-large-v3）和一个大语言模型（Qwen-7B）。
训练目标是：根据音频内容和已有文本预测下一个文本 token。
音频处理流程是：
- 将音频重采样为 16kHz；
- 转换为 128 维 mel 频谱图（窗长 25ms，跳长 10ms）；
- 加入池化层（stride=2）降低序列长度；
- 每帧表示约 40ms 音频。

Pre-training¶

使用**自然语言提示（prompts）**代替传统的结构化标签，提高泛化和指令理解能力。

3. 指令微调（SFT）¶

在大规模高质量指令数据上微调，强化模型理解人类意图的能力。
支持两种交互模式：
- 音频分析模式：支持用户上传音频，进行离线分析；
- 语音聊天模式：与用户进行语音对话，适用于实时互动。
这两种模式统一训练、无须手动切换。

4. DPO 优化¶

引入 Direct Preference Optimization（DPO） 方法，让模型更符合人类偏好：
- 输入：音频 + 好/坏两个回答；
- 优化：倾向选择人类标注的好回答。

3. Experiments¶

1. 评估方法：¶

Table 1: Summary of Evaluation Benchmarks for Qwen2-Audio.

以往的测试数据集太简单，不能真实反映模型在实际场景的表现。
本文主要用 AIR-Bench 来评估，因为它更贴近用户真实体验。
同时也在13个数据集上评估了模型在多个任务上的表现，包括：
- 语音识别（ASR）
- 语音翻译（S2TT）
- 情感识别（SER）
- 声音分类（VSC）
所用评测数据都不包含在训练数据里，避免数据泄漏。
对比了多个开源模型和API模型（如 Gemini）。

2. 主要结果：¶

Table 2: The results of Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Recognition (SER), Vocal Sound Classification (VSC), and AIR-Bench chat benchmark. Note that for Qwen2-Audio, the results for Fleurs are zero-shot, whereas the results for Common Voice are not zero-shot.

语音识别方面，Qwen2-Audio 表现超过以前的多任务模型：
- LibriSpeech 测试集上，识别错误率（WER）为 1.6% 和 3.6%。
中文识别方面，在 Fleurs 数据集上优于 Whisper-large-v3（两者都用零样本测试）。
语音翻译方面，在 CoVoST2 数据集中，在7个翻译方向上都明显领先其他模型。
声音分类任务方面（SER 和 VSC），Qwen2-Audio 也明显优于其他模型。
多模态聊天能力方面，在 AIR-Bench 的聊天子集上表现优异，超越 Qwen-Audio 和其他多模态大模型（LALM）。

5. Conclusion¶

我们提出了 Qwen2-Audio，它在原有 Qwen-Audio 的基础上增强了语音交互能力。
通过扩展预训练数据、优化对齐训练（SFT）和使用 DPO 技术，模型在语音理解和对话方面表现更好。
实验证明它在音频理解和语音对话上都很优秀，实际案例也展示了它流畅灵活的语音交互能力。