# 2410.13848_Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation * 首页: [https://arxiv.org/abs/2410.13848](https://arxiv.org/abs/2410.13848) * PDF: [https://arxiv.org/pdf/2410.13848](https://arxiv.org/pdf/2410.13848) * 引用: 152(2025-07-23) * 组织: * 1DeepSeek-AI * 2The University of Hong Kong * 3Peking University * GitHub: ## 总结 * 核心贡献 * 采用 双路径视觉编码器(dual-path visual encoder),将视觉信息解耦为两个部分 * 低级视觉特征(low-level features) * 保留丰富的视觉细节,适用于需要精细理解的任务(如图像描述生成) * 视觉生成:需要低维、细节层面的表示(如局部纹理、全局一致性)。 * 高级语义特征(high-level semantic features) * 提取与语言任务更相关的抽象语义信息,适用于需要推理和理解的任务(如视觉问答) * 视觉理解:需要高维、语义层面的表示(如对象类别、属性) * 特点 * 通过将视觉编码解耦为独立路径,解决了因任务所需信息粒度不同而导致的性能问题 * 使用两个独立的视觉编码路径:一个用于理解,一个用于生成 * 两个路径共享统一的Transformer架构,实现跨任务的协调 * 统一的多模态理解和生成能力 * 不仅能够处理多模态理解任务(如视觉问答、图像分类) * 还能处理生成任务(如图像描述生成、图像到文本的生成) * 通过共享的语言模型(如 BERT 或 GPT)将视觉信息与语言信息融合 ## LLM总结 该论文《Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation》提出了一种名为 **Janus** 的统一多模态理解和生成模型。其核心思想是通过 **解耦视觉编码(decoupling visual encoding)** 来提升模型在处理视觉与语言任务时的灵活性和性能。 **主要内容总结如下:** 1. **问题背景**: - 现有多模态模型通常将视觉特征直接与语言模型结合,缺乏对视觉信息的精细处理,限制了模型在多样化任务上的表现。 - 不同任务(如图像描述、问答、视觉推理)需要对视觉信息进行不同的处理方式,现有方法难以统一处理这些任务。 2. **核心贡献 - Janus 模型结构**: - 提出 Janus 模型,采用 **双路径视觉编码器(dual-path visual encoder)**,将视觉信息解耦为两个部分: - **低级视觉特征(low-level features)**:保留丰富的视觉细节,适用于需要精细理解的任务(如图像描述生成)。 - **高级语义特征(high-level semantic features)**:提取与语言任务更相关的抽象语义信息,适用于需要推理和理解的任务(如视觉问答)。 - 通过这种解耦结构,Janus 能够根据任务需求选择性地使用视觉信息的不同层面,从而实现对多种多模态任务的统一建模。 3. **统一的多模态理解和生成能力**: - Janus 不仅能够处理多模态理解任务(如视觉问答、图像分类),还能处理生成任务(如图像描述生成、图像到文本的生成)。 - 模型通过共享的语言模型(如 BERT 或 GPT)将视觉信息与语言信息融合,实现端到端的训练和推理。 4. **实验结果**: - 在多个视觉-语言任务上(如 VQA、Image Captioning、RefCOCO)进行了实验,结果显示 Janus 相比现有模型具有优越的性能。 - 该模型在不同任务之间展示了良好的泛化能力,验证了其解耦视觉编码设计的有效性。 5. **意义与应用**: - 提出的解耦视觉编码方法为多模态模型的设计提供了新的思路,有助于实现更灵活、强大的视觉-语言统一建模。 - Janus 模型可以应用于各种需要同时理解与生成的多模态任务,如智能助手、人机交互、内容生成等。 **总结**: Janus 通过引入双路径视觉编码器,将视觉信息解耦为低级和高级特征,实现了对多模态理解和生成任务的统一建模。该模型在多个视觉-语言任务中表现出色,展示了其在多模态学习领域的潜力和实用性。 ## Abstract 这篇文章介绍了Janus,一个统一多模态理解和生成的自回归框架。与以往依赖单一视觉编码器处理两种任务的方法(如Chameleon)不同,Janus通过将视觉编码解耦为独立路径,解决了因任务所需信息粒度不同而导致的性能问题。这种设计不仅减少了视觉编码器在理解和生成任务中的冲突,还增强了框架的灵活性,使两个任务组件可以独立选择最适合的编码方式。实验表明,Janus在性能上超越了先前的统一模型,并达到或超过了任务专用模型的水平。整体而言,Janus因其简洁、灵活和高效,成为下一代统一多模态模型的有力候选。 ## 1 Introduction 本章是论文《Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation》的引言部分,主要介绍了多模态大模型在视觉理解和生成任务中的研究背景与挑战,并提出了本文的解决方案与创新点。内容总结如下: --- ### **研究背景** - 多模态大模型近年来在**视觉理解**和**视觉生成**领域取得了显著进展。 - **视觉理解**方面,通常通过视觉编码器连接大语言模型(LLM),如LLaVA。 - **视觉生成**方面,扩散模型和自回归方法都取得了不错的效果。 - 为了构建更强大、更通用的多模态模型,研究者尝试将理解与生成任务统一。 - 一些方法使用预训练的扩散模型处理生成任务(如Emu),但这类方法并非真正的统一模型,因为生成任务依赖外部模型。 - 另一些方法尝试用**单个Transformer**统一处理两个任务,如UniViT、InternVideo等,提高了指令跟随能力,但容易因任务间表示冲突而影响性能。 --- ### **问题与挑战** - 理解和生成任务对视觉表示的需求存在显著差异: - **视觉理解**:需要高维、语义层面的表示(如对象类别、属性)。 - **视觉生成**:需要低维、细节层面的表示(如局部纹理、全局一致性)。 - 这些差异会导致统一表示空间中的冲突和妥协,从而影响模型在两个任务上的表现。 --- ### **本文贡献** - 提出了一个名为 **Janus** 的统一多模态框架,通过**解耦视觉编码**解决上述问题。 - Janus 的核心设计是: - 使用**两个独立的视觉编码路径**:一个用于理解,一个用于生成。 - 两个路径共享**统一的Transformer架构**,实现跨任务的协调。 - 该设计带来两个主要优势: 1. **避免任务间表示冲突**,无需在任务中取舍。 2. **灵活可扩展**:每个任务可使用该领域最先进的编码方法,并支持未来扩展(如点云、脑电、音频等)。 --- ### **实验与结果** - Janus 在多个**视觉理解**和**视觉生成**基准测试中取得**SOTA(最先进)**表现。 - 例如: - 在 MMBench、SEED-Bench 和 POPE 上,Janus(1.3B)超越了 7B 参数的 LLaVA 和 Qwen-VL-Chat。 - 在 MSCOCO-30K 和 GenEval 上,Janus 的 FID 得分和准确率优于 DALL-E 2 和 SDXL 等图像生成模型。 - 实验结果验证了解耦视觉编码的有效性,并展示了 Janus 在性能、灵活性和扩展性上的优势。 --- ### **总结** Janus 通过解耦视觉编码,解决了多模态理解和生成任务之间表示冲突的问题,为下一代统一多模态模型提供了新的思路。本章为全文奠定了基础,明确了本文的研究动机、方法创新与实验成果。 ## 2 Related Work 本章节综述了与视觉生成、多模态理解和统一多模态理解与生成相关的研究工作,总结如下: 1. **视觉生成** 视觉生成领域快速发展,结合自然语言处理和Transformer架构。主要方法包括: - **自回归模型**:借鉴语言模型(如GPT),通过预测离散的视觉标记(codebook ID)生成图像。 - **掩码预测模型**:类似BERT,通过预测被掩码的部分提升生成效率,也可用于视频生成。 - **连续扩散模型**:从概率角度生成视觉内容,与离散方法互补,效果显著。 2. **多模态理解** 多模态大语言模型(MLLM)结合文本与图像信息,利用预训练语言模型实现多模态处理。近期研究尝试将MLLM与预训练扩散模型结合,以实现图像生成。但这类方法通常依赖外部扩散模型,导致整体生成能力受限,表现不如直接使用扩散模型。 3. **统一多模态理解与生成** 统一模型旨在实现跨模态的无缝理解和生成。传统方法通常使用单一视觉表示处理理解和生成任务,无论基于自回归模型还是扩散模型。例如,Chameleon 使用 VQ 编码器处理图像。然而,这种统一编码方式可能因任务需求不同而导致性能下降。本文提出的 **Janus** 模型通过**显式解耦**理解与生成的视觉表示,解决了这一问题,适应不同任务的信息需求。 ## 3 Janus: A Simple, Unified and Flexible Multimodal Framework 本文介绍了 **Janus**,一个用于多模态理解和生成的统一、灵活且简洁的框架。其核心思想是通过**解耦视觉理解和视觉生成的编码器**,从而提升模型在不同任务上的表现和适应性。 ### 3.1 架构设计 ![](https://img.zhaoweiguo.com/uPic/2025/07/kcD0N5.png) Figure 2: Architecture of our Janus. * 图片说明 * Und. Encoder: Understanding Encoder * Gen. Encoder: Generation Encoder Janus 的架构如图 2 所示。模型针对纯文本、多模态文本图像理解和图像生成任务,采用不同的编码方式: - **文本理解**:使用大语言模型(LLM)的内置 tokenizer 将文本转换为 ID 序列。 - **多模态理解**:使用 SigLIP 编码器提取图像的高维语义特征,并通过一个“理解适配器”映射到 LLM 的输入空间。 - **图像生成**:使用 VQ tokenizer 将图像转换为离散 ID,再通过“生成适配器”映射到 LLM 的输入空间。 - 所有特征序列拼接后输入同一个 LLM,LLM 使用内置预测头处理文本预测,图像生成则使用随机初始化的预测头。 - 整个模型采用自回归结构,无需特殊设计的注意力掩码。 ### 3.2 训练流程 ![](https://img.zhaoweiguo.com/uPic/2025/07/eqtI02.png) Figure 3: Our Janus adopts a three-stage training procedure. We use flame symbols/snowflake symbols in the diagram to indicate the module updates/does not update its parameters. Janus 的训练分为三个阶段(见图 3): 1. **适配器与图像头训练(Stage I)**:冻结视觉编码器和 LLM,仅训练适配器和图像预测头,以建立图像与语言表征的初步联系。 2. **统一预训练(Stage II)**:解冻 LLM,使用纯文本、多模态和图像生成数据进行统一预训练。先使用 ImageNet 进行基础图像生成训练,再加入开放领域图文对数据。 3. **监督微调(Stage III)**:使用指令数据微调模型,提高其对话和指令跟随能力。微调时不冻结生成编码器,但聚焦于答案生成,掩码掉用户和系统提示。 ### 3.3 训练目标 Janus 是一个自回归模型,训练时使用交叉熵损失: $$ \mathcal{L} = -\sum_{i=1} \log P_\theta(x_i | x_{