2506.13642_Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model¶

Abstract¶

该论文主要研究如何更高效、灵活地对齐多模态（文本、视觉和语音）信息，以支持更自然的多模态交互。传统方法通常通过在序列维度上拼接不同模态的信息，并将其输入大语言模型（LLM），但这种方法依赖大量数据来学习模态之间的对齐关系，效率较低。

为此，论文提出了 Stream-Omni，一个具备高效模态对齐能力的大型语言-视觉-语音模型，能够在各种模态组合下进行交互。Stream-Omni 采用 LLM 作为主干模型，根据模态之间的语义关系进行对齐：

对于与文本语义互补的视觉模态，使用序列维度拼接实现视觉-文本对齐。
对于与文本语义一致的语音模态，采用基于 CTC 的层维度映射实现语音-文本对齐。

这种设计使得 Stream-Omni 能够在较少数据（尤其是语音数据）的情况下实现高效的模态对齐，并能将文本能力迁移到其他模态上。实验表明，Stream-Omni 在视觉理解、语音交互以及基于视觉的语音交互任务中均表现出色。此外，由于使用了层维度映射，Stream-Omni 在语音交互过程中可以提供中间文本输出（如语音识别结果和模型响应），从而提升用户的多模态交互体验。

该模型的代码和模型权重已开源。

1 Introduction¶

该论文章节介绍了Stream-Omni，一种高效支持文本、视觉和语音三种模态交互的大模态模型（LMM）。以下是该章节内容的总结：

1. 背景与挑战¶

**多模态大模型（LMMs）**如 GPT-4o 展现出跨文本、视觉和语音模态的“全能能力”，在实际应用中具有广泛潜力。
当前大多数 LMMs 仅专注于视觉或语音模态，通过提取模态表示并输入到 LLM 的主干中。
尽管已有部分全模态 LMMs尝试统一处理三种模态，但它们通常采用序列维度拼接的方式将不同模态向量连接起来，这种方式：
- 依赖大量数据进行模态对齐；
- 缺乏灵活性，难以支持语音交互中实时生成中间文本（如语音转录）。

2. 提出的解决方案：Stream-Omni¶

核心思想：根据模态在多模态交互中的不同角色，采用不同的对齐机制：
- 视觉：作为对文本的语义补充，通过序列维度拼接与文本对齐；
- 语音：与文本具有更高语义一致性，采用层维度映射，通过连接主义时序分类（CTC）实现语音到文本的映射。
模型结构：
- 以 LLM 为核心；
- 引入底部和顶部语音层，实现语音-文本的映射；
- 支持语音模态的外部交互与文本模态的内部生成，实现语音交互时的实时文本生成（如语音指令和响应的转录）。

3. 优势与成果¶

数据效率高：通过语音-文本映射机制，Stream-Omni 能利用有限的语音数据（仅 23,000 小时）实现强大的语音能力；
灵活性强：支持多种模态组合的交互；
用户体验增强：在语音交互过程中提供“边听边看”的体验，提升多模态交互的全面性。

4. 评估¶

作者在多个基准测试中对 Stream-Omni 进行了评估，涵盖视觉理解、语音交互和视觉引导的语音交互任务。
实验结果表明，Stream-Omni 在这些任务中表现出优异性能，验证了其设计的有效性。

总结¶

Stream-Omni 是一种基于文本中心化多模态对齐策略的多模态大模型，通过为视觉和语音模态分别设计不同的对齐机制，实现了高效、灵活且数据友好的多模态交互。该模型支持语音交互中的文本实时生成，具有广泛的应用前景。

2 Related Work¶

本节对现有的大语言多模态模型（Large Multimodal Models, LMMs）进行了综述，并介绍了本文提出的方法Stream-Omni的主要设计思想。以下是章节内容的总结：

1. 现有模型分类与研究进展¶

现有的大语言多模态模型主要分为三类：

视觉导向（Vision-oriented）LMMs：
- 典型架构是 LLaVA，它通过 CLIP 编码器提取图像特征，与文本输入拼接后输入大语言模型（LLM）生成文本响应。
- 后续研究从训练数据优化、图像编码增强和视频理解扩展三个方面进行了改进。
语音导向（Speech-oriented）LMMs：
- 主要分为两类：基于连续语音表示和基于离散语音单元。
  - 连续语音表示（如 Mini-Omni、LLaMA-Omni、SLAM-Omni 等）使用语音编码器（如 Whisper）提取语音特征，并投影到 LLM 的嵌入空间，通常结合语音解码器生成语音输出。
  - 离散语音单元（如 SpeechGPT、Moshi、GLM-4-Voice）使用语音 tokenizer 将语音转换为离散单元，再由 LLM 直接处理并生成语音单元，最后通过语音解码器合成语音。
- 离散单元能够在 LLM 中与文本联合建模，但通常需要更多语音数据进行预训练。
全模态（Omni-modal）LMMs：
- 代表模型包括 VITA-1.5、MiniCPM2.6-o、Baichuan-Omni、Qwen2.5-Omni 等。
- 一般通过不同编码器提取多模态特征，拼接后输入 LLM 进行理解，最后通过语音解码器合成语音输出。
- 多数模型采用 拼接式架构，依赖数据驱动的方式对齐多模态信息。

2. 本文工作与创新点¶

目标：研究如何在有限的三模态（语言、视觉、语音）数据下，构建一个高效且灵活的大语言视觉语音模型，支持各种模态组合下的多模态交互。
核心创新：
- 提出 Stream-Omni 模型，采用分模态对齐策略：
  - 视觉-文本对齐：使用序列维度拼接（sequence-dimension concatenation）。
  - 语音-文本对齐：使用层维度映射（layer-dimension mapping）。
- 相比于传统仅依赖序列拼接的方法，Stream-Omni 的设计实现了更高效的模态对齐。
- 层维度映射的另一个优势是在语音交互过程中生成中间文本结果，提升了用户体验。

3. 架构概述（图2）¶

图2展示了 Stream-Omni 的整体架构和在不同模态组合下的交互方式。
模型结构强调了在不同模态之间的灵活处理能力，为多模态交互提供了更丰富的可能性。

结论¶

本节总结了当前大语言多模态模型的发展，指出了现有方法的优缺点，并提出了本文工作的目标与创新点。Stream-Omni 通过改进模态对齐策略，实现了更高的效率和灵活性，为多模态交互提供了新的解决方案。

3 Stream-Omni¶

本章介绍了 Stream-Omni，这是一个支持 语言-视觉-语音 三模态交互的大型语言模型（LMM），其核心特点是通过 文本为中心的模态对齐 实现多模态能力的融合与扩展。以下是对该章节内容的总结：

1. Stream-Omni 模型概述¶

Stream-Omni 的目标是构建一种高效、灵活的多模态语言模型，能够同时处理 文本、图像和语音 三种模态。其通过两种机制实现模态对齐：

视觉-文本对齐：通过 序列维度拼接，将视觉信息与文本信息在输入序列中合并，供 LLM 进一步处理。
语音-文本对齐：通过 层维度映射，在模型结构上设计语音专用的 Transformer 层，实现语音到文本的映射和生成。

2. 模型架构（Architecture）¶

2.1 视觉模态处理¶

引入视觉编码器（Vision Encoder）和投影层（Projection），提取图像特征。
将图像特征与文本 token 拼接，输入 LLM 进行联合建模，实现视觉语义理解。

2.2 语音模态处理¶

语音模态更具挑战性，因其表示变异性大、数据稀疏。
Stream-Omni 引入了 语音专用的 Transformer 层：
- 底层语音层（Bottom Speech Layers）：用于 语音到文本映射。
- 顶层语音层（Top Speech Layers）：用于 文本到语音生成。
语音处理包括以下关键步骤：
- 语音 Tokenizer：将原始语音编码为离散语音单元序列。
- 多模态词汇构建：将语音单元词汇与文本词汇合并，并引入 blank token，构建统一的词汇空间。
- CTC 模型：用于语音到文本的对齐与识别。
- 语音生成：在顶层语音层基础上，根据文本生成语音单元序列，并通过语音解码器合成语音波形。

2.3 模态融合与生成¶

语音表示与文本表示通过 CTC 建模实现语义对齐，语音模型可共享 LLM 的语言知识。
流式语音生成：通过 基于对齐的融合机制（Alignment-based Fusion），使用文本指导语音生成，实现低延迟的流式语音输出。
融合模块使用交叉注意力机制，结合窗口大小和等待策略（如 wait-k），提升生成效率与准确性。

3. 训练策略（Training）¶

由于三模态（文本-图像-语音）数据稀缺，Stream-Omni 通过 自动构建三模态语料库 来提供训练数据。
采用 三阶段训练策略：
1. 逐步对齐文本与视觉。
2. 对齐文本与语音。
3. 联合训练所有模态，实现多模态能力的融合。

4. 核心贡献与优势¶

高效模态对齐：通过文本为中心的对齐机制，简化多模态建模。
灵活生成能力：支持文本、语音、图像的交互，具备流式语音生成能力。
数据效率：在数据稀缺的情况下，通过自动构建语料和三阶段训练策略，实现有效训练。
语音交互优势：结合语音 Tokenizer、CTC 模型和融合机制，实现语音输入识别与语音输出生成的统一。

总结¶

Stream-Omni 是一个面向多模态交互的 LLM，通过创新的视觉和语音与文本的对齐方式，实现了高效的多模态信息处理和生成。其设计具备良好的灵活性与扩展性，适用于语音识别、文本生成、图像理解等多种任务的集成。

3.2.1 Data Construction¶

这段内容主要介绍了 Stream-Omni 模型的 数据构建、训练阶段和推理流程，旨在支持 视觉-文本-语音多模态交互。以下是对每个部分的总结：

一、数据构建（Data Construction）¶

Stream-Omni 使用多模态数据进行训练，包括 文本-视觉、文本-语音、文本-视觉-语音 数据，支持多模态之间的交互。

Stage 1: Vision-Text Alignment（视觉-文本对齐）
- 任务：将视觉和文本映射到文本。
- 模块：投影层和语言大模型（LLM）。
- 数据集：LLaVA、LLaVA-OV、LLaVA-zh（过滤掉数学、代码等不适合语音交互的内容）。
Stage 2: Speech-Text Alignment（语音-文本对齐）
- 任务：语音识别（ASR）及语音生成。
- 模块：底部语音层和顶部语音层。
- 数据集：LibriSpeech、WenetSpeech、UltraChat、Wiki、LLaVA 等语音文本对齐数据，其中部分数据是通过 文本到语音合成（TTS） 构建的合成语音交互数据集 InstructOmni（共使用了 23,000 小时语音）。
Stage 3: Text-Vision-Speech Alignment（文本-视觉-语音对齐）
- 任务：多模态任务，如 Vision+Text→Text、Vision+Speech→Text、Vision+Speech→Speech。
- 模块：LLM 主干。
- 数据集：LLaVA、LLaVA-zh 等多模态数据。

二、三阶段训练（3-Stage Training）¶

Stream-Omni 采用三阶段训练策略，逐步对齐不同模态：

Stage 1: Vision-Text Alignment
- 使用 LLaVA 的标准训练方法。
- 目标是让模型理解视觉内容并生成相关文本。
Stage 2: Speech-Text Alignment
- 使用 CTC 损失和交叉熵损失对齐语音和文本。
- 顶部语音层使用真实文本（非模型生成）来避免文本-语音不一致。
Stage 3: Text-Vision-Speech Alignment
- 多任务学习，处理多种模态组合的任务（如 Vision+Speech→Speech）。
- 目标是使模型能够灵活处理多种多模态交互。

三、推理过程（Inference）¶

Stream-Omni 在推理时支持 视觉支撑的语音交互，具体流程如下：

输入：视觉输入 V 和语音输入 S。
提取特征：
- 从视觉中提取视觉表示。
- 从语音中提取语音单元（speech units）。
自回归生成文本：模型逐步生成文本 token。
语音合成：
- 根据生成的文本，自回归生成语音单元。
- 通过 CTC 解码器判断是否生成完整语音。
- 完成后继续生成下一个文本 token。
输出：生成的语音输出。

此外，Stream-Omni 支持多种多模态交互场景，如文本-语音、文本-视觉、文本-视觉-语音等，具有很高的灵活性。

总结¶

Stream-Omni 是一个支持 同时多模态交互 的大型语言-视觉-语音模型，采用三阶段训练，逐步对齐多模态数据，并通过灵活的架构支持多种交互任务。推理过程中，模型可同时生成文本和语音，确保多模态输出的一致性和实时性。

4 Experiments¶

总结：第4章实验（Experiments）¶

本章对 Stream-Omni 模型在多模态交互能力上的表现进行了系统评估，涵盖视觉、语音及跨模态任务。主要内容总结如下：

4.1 基准测试（Benchmarks）¶

视觉任务：在11个视觉问答（VQA）基准上评估Stream-Omni，包括 VQA-v2、GQA、VizWiz、ScienceQA、TextVQA 等，确保与 LLaVA 等主流视觉模型的可比性。
语音任务：在 Llama Questions 和 Web Questions 上测试语音问答性能，采用准确率作为评估指标。
跨模态任务（Vision-Grounded Speech）：提出一个新的真实世界视觉-语音交互基准 SpokenVisIT，基于 VisIT 构建。采用 GPT-4o 对语音回答进行评分（1-5分），并进一步划分为 语音到文本（S→T） 和 语音到语音（S→S） 两种设置。
语音生成结果通过 Whisper-large-v3 转换为文本进行评估。

4.2 基线模型（Baselines）¶

视觉导向模型：如 BLIP-2、InstructBLIP、Qwen-VL 等，与 LLaVA 规模相当。
语音导向模型：如 TWIST、SpeechGPT、Moshi、GLM-4-Voice 等。
全模态模型（Omni-modal）：如 VITA-1.5、AnyGPT、EMOVA、OpenOmni 等。特别强调 VITA-1.5 与 Stream-Omni 数据量相似，便于公平比较。
注意：多数模型使用专有数据训练，与 Stream-Omni 的开源训练方式不同。

4.3 模型配置（Configuration）¶

基础模型：基于 LLaMA-3.1-8B-Instruct，共 32 层 Transformer。
视觉编码器：使用 SigLIP-so400m-patch14-384。
语音模块：
- 分为底部（3层）和顶部（5层）Transformer，结构与 LLM 相同。
- 使用 CosyVoice-300M-25Hz 的语音编码器和解码器。
词汇表：包含 128K 文本词符、4096 个语音单元 + 1 个空白标记。
训练与测试：在 8 张 H800 GPU 上训练，在 1 张 A100 GPU 上测试。

关键结论（通过实验数据总结）¶

Stream-Omni 在多个视觉问答基准上表现良好，如 VQA-v2（79.7%）、GQA（68.3%）、ScienceQA（93.4%） 等，优于大多数视觉导向和全模态模型。
在语音相关任务中，Stream-Omni 也表现出竞争力，尤其是在 SpokenVisIT 上的跨模态交互能力。
与 VITA-1.5 等全模态模型相比，Stream-Omni 在多个任务上略有优势，如 MME（1752.7 vs 1687.7）和 MMB（82.4 vs 76.7）。

小结¶

本章通过多个视觉、语音及跨模态任务全面评估了 Stream-Omni 的多模态能力，表明其在多种模态任务中均具有良好的表现，并与现有模型具有可比性甚至在部分任务上超越。

5 Results and Analyses¶

本文的“5 Results and Analyses”章节主要评估和分析了 Stream-Omni 在多模态交互（视觉、语音、文本）中的性能和优势。总结如下：

1. Visual Understanding（视觉理解）¶

Stream-Omni 在多种视觉任务中表现出色，尽管它是一个统一的多模态模型，能够同时处理视觉、语音和文本，其视觉表现已接近专门的视觉模型（如 VLLMs 和 VITA-1.5）。
这表明 Stream-Omni 能够有效缓解多模态之间的干扰。

2. Speech Interaction（语音交互）¶

在 SpokenQA 基准测试 中，Stream-Omni 在语音到文本（S→T）和语音到语音（S→S）任务中均表现优异。
相较于其他语音模型（如 SpeechGPT、Moshi、GLM-4-Voice），Stream-Omni 使用较少的语音数据（23K 小时）便实现了更好的知识型语音交互。
优势来源于其基于 CTC 的语音-文本映射机制，能高效地将语言模型的知识迁移至语音模态。

3. Vision-grounded Speech Interaction（视觉引导的语音交互）¶

Stream-Omni 在 SpokenVisIT 基准测试中表现优于 VITA-1.5，尤其在真实世界场景中显示出更强的视觉理解能力。
它支持语音生成，进一步增强了其在多模态交互中的潜力。
附录提供了具体案例研究，验证了其语音-文本映射在跨模态一致性上的优势。

4. Quality of Speech-Text Mapping（语音-文本映射质量）¶

Stream-Omni 引入了辅助 ASR 任务来训练其底层语音模块和 CTC 解码器，从而学习高质量的语音-文本映射。
在 LibriSpeech 基准测试中，Stream-Omni 在 WER（词错误率） 和 推理时间 上均优于其他模型（如 Whisper、SpeechGPT、GLM-4-Voice）。
优势在于其 底层语音模块非自回归生成 ASR 结果，降低了推理时间，并支持中间 ASR 结果的实时输出。

5. Effect of Alignment-based Fusion（对齐融合效果）¶

Stream-Omni 使用 对齐融合 实现文本到语音的流式生成。通过消融实验评估了不同融合方式和窗口大小的效果。
融合方式：基于注意力的融合优于简单的输入或每一层的加法方式，因为它能更广泛地关注上下文信息。
融合窗口：实验表明中等大小的窗口（如 5 个 token）效果最佳，原因是语音生成具有单调性和局部性。
对比现有方法，Stream-Omni 通过 层维度对齐融合 实现更高质量的语音生成和语音-文本一致性。

总结¶

Stream-Omni 作为一个统一的多模态模型，能够高效处理视觉、语音和文本任务。它在多个基准测试中表现优异，特别是在语音交互和映射质量方面具有显著优势。其创新点包括：

少量语音数据下的强大语音交互能力；
高效的语音-文本映射机制；
基于对齐融合的流式语音生成方法；
支持跨模态一致性与实时交互体验。

这表明 Stream-Omni 在多模态模型设计与应用方面具有广阔的前景。

6 Conclusion¶

本章总结了论文提出的关键贡献：Stream-Omni 是一个能够同时支持多种多模态交互的大型多模态模型（LMM）。其主要创新点包括通过序列维度拼接实现视觉模态的高效对齐，以及通过层维度映射处理语音模态。此外，Stream-Omni 通过在语音交互中实时输出中间文本结果，显著提升了多模态交互的用户体验。

Limitations¶

该章节“Limitations”总结了Stream-Omni模型的局限性。尽管Stream-Omni是一个支持文本、视觉和语音的大型多模态模型，并针对公共三模态数据稀缺的问题，提出了更高效灵活的模态对齐方法，但作者指出，高质量的多模态交互还依赖于其他因素，如语音的表现力和拟人性程度。这些方面虽然重要，但并非本文的重点，因此被留作未来的研究方向。

Appendix A Construction of InstructOmni¶

这段文字的总结如下：

总结：

为了解决当前公开可用的文本和视觉指令数据充足，但语音指令数据及文本-视觉-语音三模态数据稀缺的问题，作者提出了 InstructOmni 数据集。该数据集通过文本到语音（TTS）合成方法自动构建，基于现有的文本和视觉语言指令数据生成对应的语音指令，从而生成语音指令数据和三模态指令数据，用于多模态模型的训练。

具体而言，InstructOmni 从 LLaVA、UltraChat 和部分维基百科数据中获取文本指令和响应，并使用 CosyVoice TTS 模型 将其转换为语音。为了更真实地模拟现实中的语音输入多样性，作者从 LibriSpeech 和 AISHELL 中随机抽取说话人嵌入，使用语音克隆技术生成具有不同说话人特征的语音，从而提升语音数据的多样性和真实性。

在训练过程中，Stream-Omni 仅使用了 23,000 小时的语音数据，远少于以往方法所需的大量语音数据（如 TWIST、SpeechGPT、Moshi 等），显示出该方法在数据效率方面的显著优势。

该方法通过自动化生成和多样化增强，有效缓解了多模态训练数据不足的问题，尤其适用于语音和三模态数据。

Appendix B Construction of SpokenVisIT¶

这篇附录（Appendix B）详细介绍了 SpokenVisIT 数据集的构建过程，旨在评估大语言-视觉-语音模型（omni-modal LMMs）在基于视觉的语音交互任务中的能力。以下是主要内容总结：

1. 构建背景与目标¶

SpokenVisIT 是基于 VisIT-Bench 构建的，用于评估模型在真实世界视觉-语音交互场景中的表现。
VisIT-Bench 包含 574 张图像和 70 类指令，覆盖了物体识别、视觉推理、创意写作等多种任务。
与传统视觉评估基准不同，VisIT 使用开放式生成（open-ended generation）格式，更贴近现实场景。
VisIT 的指令采用日常口语化风格，非常适合语音交互场景。

2. 数据集构建过程¶

使用 文本转语音合成技术（TTS）将文本指令转化为语音输入，构建了 SpokenVisIT 数据集。
去除了 8 个不适合语音交互的数学相关指令。
数据集形式为：输入是语音指令（已转为文本），输出是模型生成的语音响应（也转为文本），并提供图像和图像描述辅助理解。

3. 评估方法¶

评估方法借鉴了 Fang 等人的开放式的语音交互评估协议。
使用 ChatGPT（gpt-4o 版本） 对模型的响应质量进行评分（1-5 分）。
评估提示中包含以下信息：
- 图像描述（Image Caption）
- 用户指令（Instruction，语音转文本）
- 模型回应（Response，语音转文本）
评估维度包括：帮助性（helpfulness）、响应性（responsiveness）、共情性（empathy）和真实多模态交互的适应性。
评分结果以 JSON 格式输出，无需提供解释。

4. 总体目标¶

SpokenVisIT 的构建旨在提供一个更贴近现实世界应用场景的测试基准，推动多模态模型在视觉-语音交互任务中的发展与评估。

这篇附录为研究者提供了构建和评估基于视觉的语音交互系统的标准方法和工具，具有较强的实用性和参考价值。

Appendix C Case Study¶

总结：Appendix C Case Study¶

本附录通过两个案例研究展示了 Stream-Omni 在多模态交互方面的强大能力，具体如下：

研究背景和目的：
- 这两个案例旨在直观展示 Stream-Omni 在视觉、语言和语音三种模态上的交互能力。
- 所有输入数据（视觉和语音）均来自构建的 SpokenVisIT 基准测试集。
案例一：视觉细节理解（Figure 4）：
- 该案例对比了 Stream-Omni 和 VITA-1.5 在面对文本和语音两种不同模态输入时的表现。
- VITA-1.5 在不同模态下给出了矛盾的输出，例如对同一任务，分别输出“不允许前往二楼”和“可直接通往二楼”，这源于其在多模态对齐中未进行严格的语义对齐。
- Stream-Omni 通过引入语音到文本的映射机制，实现了语音与文本之间更精确的语义对齐，从而在不同输入模态下保持了输出的一致性。
案例二：长语音生成（Figure 5）：
- 该案例展示了 Stream-Omni 在生成高质量、长达30秒的语音输出方面的能力。
- 生成的语音内容与对应的文本输出高度一致，验证了其基于对齐的融合模块的有效性。
- 这种能力使得 Stream-Omni 能够支持高质量、视觉驱动的语音交互，满足多模态交互的多样化需求。
总体结论：
- Stream-Omni 在视觉理解、语音生成和多模态融合方面表现出色，优于现有的多模态模型（如 VITA-1.5 和 GPT-4V）。
- 其核心优势在于：精确的语音-文本语义对齐、稳定的多模态输出一致性以及高质量的语音生成。

关键词总结：¶

Stream-Omni
多模态交互
视觉理解
语音生成
语义对齐
SpokenVisIT
VITA-1.5
GPT-4V
对比实验
长语音输出