2407.10759_Qwen2-Audio Technical Report

Abstract

  • Qwen2-Audio 是一个新一代的大型音频语言模型,能处理各种音频输入,并根据语音指令进行分析或直接回应。

  • 它通过自然语言提示来训练,而不是复杂的标签体系,同时扩大了训练数据量。

  • 模型支持两种模式:

    1. 语音聊天模式:用户可以纯语音与模型对话,无需输入文字。

    2. 音频分析模式:用户可以提供音频和文字指令,模型会进行分析。

  • 无需特定提示词切换模式,模型能自动理解音频内容并正确回应,即使音频中混有多种声音或多说话人。

  • 此外,通过 DPO 技术优化后,模型在事实性和行为控制方面表现更好,在 AIR-Bench 测试中超过了以往的领先模型如 Gemini-1.5-pro。

1. Introduction

  • 音频是人与人、人与生物之间重要的交流媒介,包含丰富信息。要实现通用人工智能(AGI),理解各种音频信号是关键。

  • 最近,大音频语言模型(LALM)有了重大进展,能理解各种语音、分析信号并进行复杂推理。

  • 本报告提出了 Qwen2-Audio,一个能处理音频和文本输入、输出文本的大音频语言模型。

    • 它比以往的模型使用了更多数据,并简化了预训练流程,直接用自然语言提示进行训练。

    • 之后,通过指令微调和偏好优化,使模型输出更符合人类偏好。

  • Qwen2-Audio 有两个模式:

    1. 音频分析模式:可分析语音、声音、音乐等各种音频,用户用语音或文字指令都可以,模型能自动识别其中的命令部分。

    2. 语音对话模式:像和聊天机器人交流一样进行语音对话,也可以随时切换为文字输入。

  • 比如用户上传一个音频,前半段是打字声,后半段说“这是什么声音?”,模型能正确回答“这是键盘的声音”。

  • 在多个任务上评估结果显示,Qwen2-Audio 即使没有针对某个任务专门微调,也表现优于之前的模型,在一些基准测试上达到了最优水平。

2. Methodology

Figure 2:The overview of three-stage training process of Qwen2-Audio.

Model Architecture

  • Qwen2-Audio 包含一个音频编码器(基于 Whisper-large-v3)和一个大语言模型(Qwen-7B)。

  • 训练目标是:根据音频内容和已有文本预测下一个文本 token。

  • 音频处理流程是:

    • 将音频重采样为 16kHz;

    • 转换为 128 维 mel 频谱图(窗长 25ms,跳长 10ms);

    • 加入池化层(stride=2)降低序列长度;

    • 每帧表示约 40ms 音频。

Pre-training

  • 使用**自然语言提示(prompts)**代替传统的结构化标签,提高泛化和指令理解能力。

3. 指令微调(SFT)

  • 在大规模高质量指令数据上微调,强化模型理解人类意图的能力。

  • 支持两种交互模式:

    • 音频分析模式:支持用户上传音频,进行离线分析;

    • 语音聊天模式:与用户进行语音对话,适用于实时互动。

  • 这两种模式统一训练、无须手动切换

4. DPO 优化

  • 引入 Direct Preference Optimization(DPO) 方法,让模型更符合人类偏好:

    • 输入:音频 + 好/坏两个回答;

    • 优化:倾向选择人类标注的好回答。

3. Experiments

1. 评估方法:

Table 1: Summary of Evaluation Benchmarks for Qwen2-Audio.

  • 以往的测试数据集太简单,不能真实反映模型在实际场景的表现。

  • 本文主要用 AIR-Bench 来评估,因为它更贴近用户真实体验。

  • 同时也在13个数据集上评估了模型在多个任务上的表现,包括:

    • 语音识别(ASR)

    • 语音翻译(S2TT)

    • 情感识别(SER)

    • 声音分类(VSC)

  • 所用评测数据都不包含在训练数据里,避免数据泄漏。

  • 对比了多个开源模型和API模型(如 Gemini)。

2. 主要结果:

Table 2: The results of Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Recognition (SER), Vocal Sound Classification (VSC), and AIR-Bench chat benchmark. Note that for Qwen2-Audio, the results for Fleurs are zero-shot, whereas the results for Common Voice are not zero-shot.

  • 语音识别方面,Qwen2-Audio 表现超过以前的多任务模型:

    • LibriSpeech 测试集上,识别错误率(WER)为 1.6% 和 3.6%。

  • 中文识别方面,在 Fleurs 数据集上优于 Whisper-large-v3(两者都用零样本测试)。

  • 语音翻译方面,在 CoVoST2 数据集中,在7个翻译方向上都明显领先其他模型。

  • 声音分类任务方面(SER 和 VSC),Qwen2-Audio 也明显优于其他模型。

  • 多模态聊天能力方面,在 AIR-Bench 的聊天子集上表现优异,超越 Qwen-Audio 和其他多模态大模型(LALM)。

5. Conclusion

  • 我们提出了 Qwen2-Audio,它在原有 Qwen-Audio 的基础上增强了语音交互能力。

  • 通过扩展预训练数据、优化对齐训练(SFT)和使用 DPO 技术,模型在语音理解和对话方面表现更好。

  • 实验证明它在音频理解和语音对话上都很优秀,实际案例也展示了它流畅灵活的语音交互能力。