2212.06817_RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE
#####################################################################

* https://arxiv.org/abs/2212.06817
* GoogleScholar(star: 1063)
* 组织: ∗Robotics at Google, †Everyday Robots, ‡Google Research, Brain Team


ABSTRACT
========

* By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance.  
* 通过从大量、多样化、与具体任务无关的数据集中迁移知识，现代的机器学习模型可以在零样本（zero-shot）或只使用少量特定任务数据的情况下，完成具体的下游任务，并达到很高的性能水平。  
* 🧠 解释： 这句话说的是“大模型迁移能力强”，它们可以不依赖大量特定任务的数据，就完成各种任务，比如视觉识别、翻译、语音识别等。

---

* While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data.  
* 虽然这种能力已经在计算机视觉、自然语言处理、语音识别等领域得到了验证，但在机器人领域还尚未完全实现。而在机器人领域中，模型的泛化能力尤为重要，因为收集真实机器人的数据非常困难。  
* 🤖 解释： 机器人不同于图像、文本，它很难收集大规模真实数据。要让机器人“一通百通”，泛化性比别的领域还关键。

---

* We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data.  
* 我们认为，要实现这种通用机器人的成功，关键在于：  
    ① 开放式、任务无关的训练方式，以及  
    ② 具备强大容量的模型架构，能“吸收”各种类型的机器人数据。  
* 🔑 解释： 你需要让模型见多识广（多样化数据）、而且要足够“大”才能记住这些信息。

---

* In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties.  
* 在本文中，我们提出了一种新的模型类别，称为Robotics Transformer（机器人变换器），它展现出很好的可扩展性。  
* 📦 解释： 就像“Vision Transformer”在视觉领域成功一样，他们现在搞了个适用于机器人的大模型架构。

---

* We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks.  
* 我们通过一个研究验证了我们的结论：考察了不同模型类别在数据量、模型大小、数据多样性这几个维度上的泛化能力。这些研究基于真实机器人执行实际任务的大规模数据集进行。  
* 📊 解释： 他们不是纸上谈兵，而是真让机器人干活，采集数据，然后实测大模型效果。

---

* The project’s website and videos can be found at <robotics-transformer1.github.io>  
* 项目的网址和视频可以在 [robotics-transformer1.github.io](http://robotics-transformer1.github.io) 找到。  
* 🌐 说明： 提供了额外资源可以看 demo 或进一步了解项目。

---

* 总结
    - 作者提出了一种叫做Robotics Transformer的大模型架构，目标是像 ChatGPT 在文本领域那样实现机器人任务的通用能力，通过在真实机器人大规模多任务数据上训练，验证了模型在数据量、模型大小和数据多样性上的泛化能力。


1. Introduction
===============

* 研究背景：机器人学习 vs. 其他AI领域的差异
    - 传统的端到端机器人学习（无论是模仿学习还是强化学习）都需要为每一个任务单独收集数据。
    - 这种方式就像以前的视觉或NLP任务，需要采集、标注、训练、部署，每个任务一套流程，彼此之间没啥联系。
    🚩 问题：
        - 这种方式效率低、不通用、扩展差，每新来一个任务就得“重新来过”。

* 灵感来源：预训练大模型的成功经验
    - 近几年，视觉、语言、语音领域都逐渐转向大模型 + 大数据预训练的路线。例如 GPT、CLIP 等。
    - 这类模型就像“经验海绵”，先学会大量通用规律，再用于具体任务时只需要很少的样本就能表现很好。
    🪄 对机器人的启示：
        - 如果机器人也能这么干，那不仅可以减少昂贵的数据收集成本（比如人工演示），还可能让机器人具备泛化能力，应对未知任务和环境。

* 目标与挑战：构建通用机器人大模型 RT-1
    🎯 研究目标：
        - 像 GPT 那样，为机器人也训练一个能做很多任务的“大脑”，让它能泛化到新任务、新环境、新物体
    ⚠️ 面临两个主要挑战：
        1. 数据集挑战：要够 大，还要够 广
            - 机器人数据采集非常难，要么靠人工示范，要么搞自动采集，工程成本高。
            - 数据必须包含足够多的任务、多种环境和场景，同时任务之间又要有一定结构联系，才能让模型发现模式、迁移学习。
            - 作者团队用了 13 台机器人、17 个月时间，采集了约 13 万个训练示范，涵盖 700 多个任务。
        2. 模型挑战：要够 强，还要跑得 快
            - Transformer 模型虽然强大（尤其适合处理语言 + 图像的联合输入），但计算量大，不容易实时运行在机器人上。
            - 作者提出新架构 RT-1（Robotics Transformer 1），把图像、语言、动作都编码成 Token，用 Transformer 高效推理，保持 3Hz 的实时控制性能。

🧪 实验与成果：
    - RT-1 在 700 多个任务上训练，平均 成功率 97%。
    - 在新任务、新干扰项、新背景下，分别比其他模型提升 25%、36%、18%。
    - 可以处理长达 50 步的复杂任务（如 SayCan 框架）。
    - 能融合来自仿真或其他机器人平台的数据，保持原任务性能的同时还能提升泛化能力。

.. figure:: https://img.zhaoweiguo.com/uPic/2025/04/wVvhZQ.png

    Figure 1: A high-level overview of RT-1’s architecture, dataset, and evaluation.


* 【总结】这篇论文提出了 RT-1 模型，一种能处理多任务真实世界控制的机器人大模型，通过大规模多样化数据训练，实现了类似 GPT 在语言领域的零样本泛化能力，为构建通用智能机器人迈出关键一步。


2. Related Work
===============


* Transformer + 语言指令是主流方向
    - 越来越多的研究使用Transformer来做机器人控制策略（policy）。
    - 通常，这些研究都是用语言指令来控制机器人，让Transformer来理解并执行不同任务。
    - RT-1 进一步提出：可以把整个“从语言和图像到动作的映射过程”当作一个序列建模任务（sequence modeling problem），这和NLP里语言建模的方式类似。
    - 灵感来自游戏智能体（如强化学习中的Transformer智能体）和仿真环境中的机器人任务，如导航、操控、行走等。
    👉 总结：RT-1 和已有方法类似也用语言+视觉输入，但它的创新点是将整个机器人控制任务用Transformer进行端到端的序列建模。
* 已有多任务模型不够“真实世界化”
    - 虽然也有其他工作提出了大规模、多任务的Transformer模型（如Gato、Behavior Transformer），但这些工作要么任务种类太少，要么没在真实机器人中做广泛实验。
    - 举例：
        - Gato 虽然是通用模型，但在真实世界中只做了一个任务（比如堆彩色方块），没有泛化到新任务。
    - 技术层面，RT-1 关注的是：既要模型强大（泛化能力好），又要计算高效（能实时运行）。
    👉 总结：RT-1 与之前的方法不同，重点是在真实环境下执行大量任务，并确保泛化和实时性。

* RT-1 的研究是建立在丰富传统工作的基础上的
    - 过去就有很多和机器人抓取（grasping）相关的研究，目标是让机器人能抓取各种新物体。
    - 早期语言理解都是“流水线式”的（先语言理解，再做视觉、再控制机器人），但后面开始尝试端到端训练。
    - 多任务学习也有很多探索，比如学习到达目标位置、完成某类任务等等。
    - 很多工作也致力于构建包含多种任务示范数据集，但都不如RT-1这次用的规模大、种类多、实用性强。
    👉 总结：RT-1不是凭空出现的，是在以往多任务学习、语言控制、数据集建设、Transformer策略建模等研究成果的基础上进一步拓展的，重点是扩大规模、增强泛化能力并保持运行效率。

* 总结
    1. 已有方法普遍采用Transformer + 语言输入进行任务控制，但大多数：
        - 是在仿真环境；
        - 任务种类少；
        - 缺乏对现实复杂环境的泛化测试；
        - 或不能实时运行。
    2. RT-1 的创新在于：
        - 把视觉、语言到动作的映射当成一个序列建模问题；
        - 在真实环境中大规模训练和评估（130k demonstrations, 700+ tasks）；
        - 构建了一个高效、强大的Transformer架构；
        - 推进了多任务、语言条件控制在真实机器人的大规模应用。


3. Preliminaries
================

* Robot Learning（机器人学习）
    - 目标：训练一个机器人策略（policy）来执行由语言指令定义的任务，基于视觉观察（即图像）。  
    - 过程是一个序列决策问题，可以简单理解为：
        1. 在时间步 ``t=0``，给定语言指令 ``i`` 和一张图像 ``x₀``
        2. 策略 π 会基于 ``i`` 和 ``x₀`` 生成一个动作 ``a₀``
        3. 动作执行后，机器人观察到新的图像 ``x₁``，继续生成 ``a₁``，如此循环
        4. 直到某个终止条件被满足，这个交互称为一个“episode（回合）”
    - 回报（reward）：每个 episode 结束后会返回一个二值奖励 ``r ∈ {0, 1}``，表示机器人是否正确完成了指令 ``i``
    - 目标是学到一个策略 π，使得在面对不同的任务指令和初始状态时，能够最大化成功率（平均奖励）

* Transformers（变换器模型）
    - Transformer 是一种序列建模器（sequence model），原本用于自然语言任务。输入是一个序列 ``{ξ₀, ξ₁, ..., ξ_H}``，输出也是一个序列 ``{y₀, y₁, ..., y_K}``
    - 核心技术是自注意力机制（self-attention）和前馈神经网络
    - 虽然最初用于文本，如今它也被扩展到了图像、声音等其他模态（modalities）
    - RT-1 模型用 Transformer 来建立从「语言指令 + 图像序列」到「机器人动作」的映射关系
        - 把输入 ``i``（语言）和 ``{x₀, x₁, ..., x_t}``（图像）编码成一个输入序列 ``{ξ_h}``
        - 把动作输出 ``a_t`` 编码成一个目标序列 ``{y_k}``
        - 使用 Transformer 学习输入到输出的映射，即：``{ξ_h} → {y_k}``

* Imitation Learning（模仿学习）
    - 模仿学习的目标是让机器人模仿人类/专家的示范。
    - 给定一个数据集 ``𝒟``，其中每个样本都包括：
        - 一条语言指令 ``i⁽ⁿ⁾``；
        - 一个成功执行的动作序列 ``{(xₜ⁽ⁿ⁾, aₜ⁽ⁿ⁾)}``。
    - 所有示例都完成了任务（奖励为1），这表示模型是从「成功案例」中学习的。
    - 使用的是行为克隆（Behavioral Cloning）方法：
        - 目标是最大化策略 π 生成正确动作的概率；
        - 换句话说，就是让 π 模拟数据中每一步动作的“最大似然”。
        - 形式上是最小化预测动作和示范动作之间的负对数似然（negative log-likelihood）损失。

* 【总结】这部分是 RT-1 模型设计的基础，它把机器人学习任务形式化为“语言+图像 → 动作”的序列预测问题，用 Transformer 处理这个映射，并通过模仿成功示范来训练策略。


4. System Overview
==================

* 本章主要是论文中对整个系统架构（System Overview）的说明，主要包括硬件平台、实验环境、数据采集方式、以及核心模型 RT-1 的设计与功能。
🎯 系统目标：
    - 目标是构建一个通用的机器人学习系统，能够吸收大量数据，并具备良好的泛化能力（generalize effectively）
    - 也就是说，在没有见过的场景和任务中也能表现良好。
🤖 使用的机器人平台：
    - 他们使用的是 Everyday Robots 提供的移动机械臂，配置包括：
        - 一个7自由度机械臂
        - 一个双指夹爪
        - 一个可移动底座
🧪 实验环境设置：
    - 使用了三个厨房场景进行训练与测试：
        1. 训练环境（图2(a)）：这是一个模拟厨房，用于大规模数据采集；
        2. 两个真实的办公室厨房（图2(b) 和图2(c)）：用于评估模型在现实条件下的泛化能力，包含不同的照明、背景和厨房布局差异（如有的有水槽，有的有橱柜）。

.. figure:: https://img.zhaoweiguo.com/uPic/2025/04/bQeJEv.png

    Figure 2: (a) Robot classroom where we collect data at scale; (b) a real office kitchen, one of the two realistic environments used for evaluation (named Kitchen1 in the rest of the paper); (c) a different office kitchen used for evaluation (named Kitchen2 in the rest of the paper); (d) mobile manipulator used throughout the paper; (e) a set of objects used for most of the skills to expand skill diversity; (f) a more diverse set of objects used mostly to expand object diversity of the picking skill.


📊 数据采集与结构：
    - 数据来源是人类演示（human demonstrations），每一段演示都被标注了一个自然语言指令（例如“打开抽屉”、“捡起苹果”）。
    - 指令一般由动词（verbs）和名词（nouns）组成，比如：
        - 动作类：pick、open、place upright
        - 目标类：coke can、apple、drawer
    - 将这些动作和物体划分成不同的“技能”和“目标对象”方便管理和训练。
    - 他们总共采集了超过 13万条演示数据，覆盖了 700多种任务指令，对象种类丰富（见图2(f)）。

🧠 模型架构 - RT-1：
    - RT-1 是这套系统的核心神经网络结构，具备以下特点：
        - 能处理大规模数据
        - 有较好的泛化能力
        - 能够实时输出控制指令
    - 输入输出结构：
        - 输入：一个图像序列（来自机器人摄像头） + 一段自然语言指令
        - 输出：当前时间步的机器人控制动作
    - 架构细节：
        - 图像由 ImageNet 预训练卷积神经网络处理；
        - 指令文本通过 FiLM（Feature-wise Linear Modulation）嵌入进图像特征中，达到图文融合；
        - 然后用 Token Learner 将图像压缩成少量有代表性的“token”；
        - 最后通过 Transformer 处理这些 token，输出动作。
    - 动作空间（action space）：
        - 机械臂：7维（位置 x/y/z + 姿态 roll/pitch/yaw + 夹爪开合）
        - 底座：3维（x/y 移动 + yaw 旋转）
        - 模式切换维度：用于在“控制机械臂”、“移动底座”、“终止操作”三种模式间切换
    - RT-1 是一个闭环控制系统，以 3Hz 频率实时发出动作指令，直到机器人完成任务或超时。


5. RT-1: ROBOTICS TRANSFORMER
=============================


* 本章主要介绍 Google DeepMind 提出的 RT-1：Robotics Transformer 模型的一部分，它是一个用于现实世界机器人控制的 Transformer 模型。它可以根据自然语言指令直接控制机器人执行复杂任务。


整体架构
--------

* RT-1 是一个 端到端的 Transformer 模型，输入是图像历史和任务描述（自然语言指令），输出是 动作 token（用于控制机器人）。
* 其核心结构如下：
    1. 指令编码：使用 Universal Sentence Encoder (USE) 对语言指令编码。
    2. 视觉特征提取：6 张图片输入一个预训练的 EfficientNet-B3（在 ImageNet 上训练），输出 9x9x512 的特征图。
    3. FiLM 模块调控图像编码器：USE 的语言向量作为条件，调节 EfficientNet 的中间层（用的是 FiLM 技术），让视觉特征提取更关注任务相关信息。
    4. TokenLearner：将提取出的 81 个图像 token 压缩成 8 个 token，提升后续 Transformer 的运行速度。
    5. Transformer 解码器：将所有图像+指令的 token 输入 decoder-only Transformer（只有解码器的架构），输出 tokenized 动作。


.. figure:: https://img.zhaoweiguo.com/uPic/2025/04/BNUYeb.png

    Figure 3: The architecture diagram of RT-1. The instruction is transformed into a USE embedding and used to condition a pre-trained EfficientNet via FiLM layers. The resulting vision-language tokens are reduced by the TokenLearner and fed into a decoder-only Transformer, which outputs tokenized actions.


Tokenization
------------

* 图像 token 化：
    - 输入是 6 张 300x300 的图像。
    - 用 EfficientNet-B3 提取特征图（9x9x512）。
    - 展平成 81 个图像 token。
    - 使用 FiLM 模块，把指令向量融入视觉特征提取过程（语言影响图像处理）。

* 压缩（TokenLearner）：
    - 81 个 token 进一步压缩为 8 个代表性 token。
    - 用的是 TokenLearner 模块，它可以 “挑选” 最有用的 token。

* 动作 token 化：
    - 每个动作维度（例如机械臂的 x、y、z、roll、pitch、yaw、夹爪开合）都被 离散化为 256 个桶（bin）。
    - 总共有：
        - 7 个机械臂相关维度
        - 3 个底座移动维度
        - 1 个控制模式变量（控制手臂、底座、还是结束）
    - 所有动作都被表示成多个离散 token（便于 Transformer 输出）。

模型结构与参数规模
------------------

- EfficientNet-B3 + FiLM： 总共 16M 参数，26 层 MBConv 模块 + FiLM 层，输出 81 个视觉语言融合 token。
- Transformer 解码器：8 层 self-attention，19M 参数，输入 48 个 token（6 张图像 x 8 token），输出动作 token。

推理速度优化-Inference Speed
----------------------------

* 由于机器人需要 实时控制，RT-1 必须在每次动作 < 100ms 内完成推理。
* 优化方法：
    1. 使用 TokenLearner 降低 token 数量：加快推理速度（加速约 2.4 倍）。
    2. 缓存图像 token：多个时刻之间复用图像编码结果（加速约 1.7 倍）。
* 目标是达到 ≥ 33Hz 控制频率，即每秒 33 次推理。

数据与任务能力
--------------

* 数据规模：
    - 收集了 约 13 万条机器人演示数据，用 13 台机器人在 17 个月内完成。
    - 环境设置为多个办公厨房（robot classrooms）。

* 技能（Skills）：
    - RT-1 可执行 744 条自然语言指令，覆盖 10 类基本技能
    - 技能分类基于动词，比如 “pick”、“place”、“open”等，便于系统扩展和评估。

.. figure:: https://img.zhaoweiguo.com/uPic/2025/04/8JhfIV.png

    Table 1: The list of skills collected for RT-1 together with their descriptions and example instructions.

总结
----

* RT-1 是一个将图像和语言指令结合，通过 Transformer 输出离散动作序列的机器人控制模型。
* 它强调 高效 token 化、实时推理能力、数据多样性 和 任务泛化能力，能在现实环境下（如办公室厨房）完成多种语言控制的任务。


6. EXPERIMENTS
==============

* 主要是对 RT-1 模型在多个维度上的能力进行了系统评估，核心聚焦点是模型的泛化性、多源数据融合、任务分解能力、模型架构选择，以及数据多样性如何影响性能。
* 实验目的总览
    - RT-1 的一系列实验设计，是为了回答以下关键问题：
        1. 泛化性（Zero-shot Generalization）如何？
        2. 长任务序列是否能处理？
        3. 异构机器人数据融合训练是否有效？
        4. 数据多样性对性能有多大影响？
        5. RT-1 模型架构选择是否合理？

6.1 EXPERIMENTAL SETUP
----------------------

* 实验环境设置
    - RT-1模型使用了Everyday Robots的移动操控机器人，在三个环境中进行了评估：两个真实的办公室厨房和一个训练环境（该环境模仿了这些真实厨房）。
        - 训练环境：包含部分的厨房台面，主要用于训练。
        - 真实环境：两个厨房与训练环境相似，但在照明、背景和整体厨房布局上有所不同（例如可能有一个橱柜代替抽屉，或者有一个水槽）。
    - 评估模型的任务包括：训练任务的表现、对新任务的泛化能力、对未见环境的鲁棒性，以及在长时任务中的表现。

评估模型的任务::

    Seen task performance.
    Unseen tasks generalization.
    Robustness
    Long-horizon scenarios


* 已见任务性能（Seen Task Performance）
    - 已见任务指的是训练集中的任务。
    - 为了评估模型在已见任务上的表现，RT-1会对200多个任务进行评估，包括：物体拾取、推倒物体、将物体放立、物体移动、开关抽屉等。
    - 这些任务的设置是动态的，包括物体位置、机器人位置、时间等变化，因此模型需要具备一定的环境泛化能力，即能够应对环境中的变化。

* 未见任务泛化（Unseen Task Generalization）
    - 未见任务泛化评估模型在未见任务上的表现。
    - 这些任务是在训练集中没有完全出现过的指令，目的是测试模型是否能将已知的技能和物体组合起来应对新任务。
    - 例如，如果训练集中有“捡起苹果”的任务，但没有“捡起苹果”这个指令，RT-1仍然需要能够根据已知的物体（苹果）和技能（捡起）组合生成新任务的执行策略。
    - 共测试了21个新的指令，涉及不同的技能和物体，以此检验模型的泛化能力。

* 鲁棒性评估（Robustness Evaluation）
    - 干扰物鲁棒性：评估RT-1在面对不同的干扰物时的表现。具体而言，使用了30个任务，其中包括从容易到困难的干扰场景。
    - 背景鲁棒性：评估模型在不同背景下（例如新的厨房环境、不同的桌布等）执行任务时的表现。进行的评估任务有22个，涵盖了不同的环境变化。

* 长时任务评估（Long-Horizon Scenarios）
    - 长时任务要求模型执行一个包含多个步骤的复杂任务。
    - 与常规任务不同，长时任务需要执行一系列技能，通常由约10个步骤组成，每个步骤的范围与训练任务类似。
    - 这些任务是通过高层次指令自动生成的，比如“如何把桌上的所有物品扔掉？”这种任务要求模型在长时间内持续执行多个技能，而不仅仅是单一的操作。
    - 为了评估这种长期任务的能力，使用了15个长时任务，在两个真实的厨房环境中进行，评估模型如何应对长时序列的任务执行。

* 总结
    - 这些评估任务覆盖了RT-1在多个方面的表现，包括它在已见任务和未见任务中的表现、对干扰物和背景变化的鲁棒性，以及它在长时任务中的能力。
    - 通过这些设置，RT-1的多任务学习能力、泛化能力以及对现实环境变化的适应能力得到了全面检验。


6.2 can rt-1 learn to perform a large number of instructions, and to generalize to new tasks, objects and environments?
-----------------------------------------------------------------------------------------------------------------------

* 本章探讨了RT-1模型在多任务学习、泛化能力以及在不同环境中的鲁棒性，特别是它是否能够执行大量指令并在新任务、物体和环境中进行泛化。

* RT-1与其他模型的比较
   - 比较模型：文中将RT-1与Gato（Reed et al., 2022）和BC-Z（Jang et al., 2021）进行比较，还包括了BC-Z的更大版本BC-Z XL。
   - 所有模型都在相同的数据集上进行训练，评估的重点是模型架构，而不是任务集、数据集或整体机器人系统。
   - RT-1的优势：RT-1在多个方面超越了这些基准模型，尤其是在任务性能、泛化能力和鲁棒性方面。

* 性能评估
    - 已见任务：RT-1在已见任务上的表现非常出色，成功执行了超过200个指令中的97%，比BC-Z高出25%，比Gato高出32%。
    - 未见任务的泛化能力：RT-1展示了强大的泛化能力，成功完成了76%的未见指令，比其他基准模型高出24%。尽管其他基准模型也通过自然语言来进行条件化，但RT-1的更高泛化能力可能与其对先前任务和概念的更好理解有关。
    - 鲁棒性：RT-1在干扰物和背景变化方面也表现出色：
        - 干扰物鲁棒性：RT-1成功完成了83%的干扰物任务，比其他模型高出36%。
        - 背景鲁棒性：RT-1成功执行了59%的背景鲁棒性任务，比其他模型高出18%。

* 在现实厨房环境中的泛化
    - 现实场景测试：为了评估RT-1在真实厨房中的泛化能力，作者设计了一些任务序列，例如让机器人在厨房中完成重填零食、整理倒翻的调料瓶、准备橙子和餐巾的零食、找回丢失的太阳镜等。
    - 泛化水平：这些任务根据环境的变化（如新物体、新任务组合、背景变化等）被分为三个泛化级别：
        - L1：适应新的厨房布局和照明条件。
        - L2：适应新增的干扰物。
        - L3：适应更为复杂的任务设置，如任务中的新物体或在新位置（如水槽旁）的物体。
    - 评估结果：表格3总结了不同模型在这些现实场景下的表现。RT-1在所有泛化级别上均表现最好，尤其在L1（适应新的布局和照明）和L3（适应新的任务设置或环境）上均显著优于其他模型。

* 总结
   - RT-1的优势：RT-1表现出色，能够在多个任务和环境中执行大规模指令，并且在面临新任务、新物体和环境变化时展示了出色的泛化能力和鲁棒性。
   - 这种强大的能力得益于RT-1能够有效利用自然语言指导任务执行，使其在面对复杂、变化的现实世界任务时表现尤为突出。


6.3 can we push the resulting model further by incorporating heterogeneous data sources such as simulation or data from different robots?
-----------------------------------------------------------------------------------------------------------------------------------------

* 本章主要探讨了RT-1模型在使用不同数据源（如仿真数据和来自不同机器人数据）时的表现，特别是它如何通过吸收这些异构数据来提高性能，且不损失原有任务的表现。
* 吸收仿真数据
    - 实验目标：测试RT-1如何将仿真数据和真实数据结合，并在真实环境中验证模型的表现。实验涉及将机器人从仿真环境中学到的技能应用到真实世界中。
    - 结果：
        - 添加仿真数据不会影响RT-1在现实物体上的表现。
        - RT-1在未曾见过的仿真物体上的表现有显著提升（从23%提升到87%），显示出强大的领域转移能力。
        - 在从未见过的任务上，性能也有所提升（从7%到33%），表明RT-1能够通过仿真数据学到新的技能并将其应用到现实世界中。
    - 表格分析：显示了在现实物体和仿真物体（这些物体仅在仿真中见过）上的表现，证明了RT-1能高效地吸收新的数据，并且仿真数据的加入对性能是有益的。

* 吸收来自不同机器人的数据
    - 实验目标：探索RT-1能否从不同类型的机器人（如Kuka IIWA和Everyday Robots）收集的数据中学习并进行跨机器人迁移。
    - 实验设置：将来自Kuka IIWA机器人的数据（用于不同的抓取任务）与来自Everyday Robots的数据（用于不同的操作任务）结合。
    - 结果：
        - 将Kuka IIWA数据与RT-1的原始数据结合时，标准任务（Classroom eval）的表现几乎没有下降（仅下降2%）。
        - 在与Kuka相关的“Bin-picking eval”任务中，结合数据的RT-1表现显著提升，达到了39%的成功率，相比之下仅使用RT-1数据的模型只有22%的成功率。
        - 这表明RT-1能够有效地利用来自不同机器人的经验，通过跨机器人的数据学习来提高能力。
        - 当只使用Kuka数据训练模型时，针对Everyday Robots进行Bin-picking任务时，性能为0，说明不同机器人形态之间的行为迁移较难，但当结合了两者的数据后，RT-1能够推断出适合Everyday Robots的动作。

* 总结：
    - RT-1在吸收仿真数据和不同机器人数据时表现出了显著的迁移学习能力，能够在不损失已有性能的情况下提升其在新任务、不同物体和机器人上的表现。
    - 这为多机器人数据集的结合与增强机器人能力提供了有力的支持，并为未来机器人领域的跨机器人学习与协同工作提供了新的思路。


6.4 how do various methods generalize long-horizon robotic scenarios?
---------------------------------------------------------------------

* 本章探讨了RT-1模型在长时间任务和不同数据量与多样性条件下的表现
* 这段内容讨论了RT-1模型在“长时间任务”中的泛化能力，特别是在厨房场景中的表现。实验中使用了SayCan框架（一个将低级指令组合成高级指令的系统），并在两个不同的真实厨房环境中执行任务。

- 长时间任务：这些任务需要机器人执行多步操作，任务越长，成功率通常越低。RT-1的表现尤其重要，因为它能够执行需要导航和操作的任务，这要求机器人能够应对不同位置的基础控制。
- 结果：
    - 在Kitchen1厨房，RT-1的执行成功率为67%，明显优于其他方法，如SayCan with Gato（成功率为0%）和SayCan with BC-Z（成功率为13%）。
    - 在Kitchen2厨房，虽然环境更加复杂，RT-1仍保持67%的执行成功率，这说明它具有良好的泛化能力，能够在新的环境中操作并完成任务。
    - 这些结果表明，RT-1能够有效地处理长时间的任务，且不会因为新的厨房环境而显著降低执行表现。


6.5 how do generalization metrics change with varying amounts of data quantity and data diversity?
--------------------------------------------------------------------------------------------------

* 这一段分析了数据量和数据多样性对RT-1模型泛化能力的影响，尤其是在机器人学习中，数据收集成本较高，因此需要理解哪些数据能够提升模型的表现和泛化能力。
* 核心问题：数据量 vs 数据多样性，哪个更重要？
    - 过去的工作表明，Transformer 的表现可以随着模型参数的增加而提升。
    - 但在机器人领域，模型大小受到运行延迟的限制（机器人实时执行任务不能太慢），所以 RT-1 不能靠扩大模型体积来提升性能。

* 因此，这项研究不去关注“更大模型”，而是研究两个核心变量：
    1. 数据量（dataset size）
    2. 数据多样性（dataset diversity）

💡 动机：  
    - 现实中收集机器人数据成本极高，所以我们必须搞清楚：为了提升泛化能力，我们到底是应该收更多的数据，还是收更“多样化”的数据（更多任务、更丰富场景）？
* 实验设计核心：
    - 控制变量法：单独改变“数据量”或“多样性”，看哪个对模型影响更大。
    - 数据量实验：通过对每个任务限制最多多少条数据来减少整体数据量。
        - 比如最多200条 = 51%，100条 = 37%，50条 = 22.5%
    - 多样性实验：通过减少任务种类（保留数据最多的任务，去掉任务少的），来制造“高数据量、低多样性”的数据集。
        - 结果：虽然保留了97%的数据，但任务种类只剩75%。
* 实验结果和发现
    - 减少数据量，会让性能下降，但影响还算温和。
    - 一旦减少任务种类（降低数据多样性），性能下降就非常明显，尤其是泛化能力。
    - 甚至：只减少25%任务（保留97%数据），其泛化能力就跟数据量砍掉一半（减少49%）一样差！

.. note:: 📌 核心结论：> 数据多样性比数据数量更关键。适当的任务多样性能够显著提高模型的泛化能力，而减少任务的多样性可能对表现和泛化能力产生更大的负面影响。


7. CONCLUSIONS, LIMITATIONS AND FUTURE WORK
===========================================

* 重点是探讨：> “模型的泛化能力到底更依赖数据的数量，还是数据的多样性？”


✅ 成果：
    - 130k 场景数据、13台机器人，支持700+ 指令，97% 成功率。
    - 能够泛化到新任务、新物体、新环境。
    - 成功融合异构机器人/仿真数据。
    - 可完成多达 50 步的复杂长任务。

⚠️ 局限：
    - 仍是模仿学习方法，不能超越示范者。
    - 泛化仅限于“已学概念的组合”，不能应对完全新动作。
    - 操作任务不够精细灵巧（dexterous manipulation 有待加强）。

🚀 未来方向：
    - 让非专家用户也能通过“引导示范”或“提示”方式训练机器人。
    - 增加环境多样性，提高模型鲁棒性。
    - 改进 attention 和 memory 模块，提升模型响应速度与上下文保持能力。


B. MODEL CARD
=============

.. figure:: https://img.zhaoweiguo.com/uPic/2025/04/3WQ7Yg.png

    Figure 7: Model Card for RT-1.


C. MODEL AND DATA
=================

C.1 MODEL INFERENCE
-------------------

- 推理延迟控制：为了保证动作输出频率一致，采用定时等待机制，即：在状态被捕获后等待固定时间（最大观察延迟 280ms）再输出动作，避免 jitter（抖动）。


C.2 DATA COLLECTION AT SCALE.
-----------------------------

- 自动化场景配置：每台机器人会自动来到站位，并告诉操作员该执行哪个指令、如何随机化场景。
- 遥操作采集方式：使用虚拟现实手柄（VR controllers）进行遥操作，把手柄的空间位置变化映射为机器人工具的6D位移。
- 统一动作空间：VR动作被映射到统一策略空间，以保证一致的转移动力学。


C.3 MODEL SELECTION AT SCALE
----------------------------

- 问题背景：多任务学习下，评估变得困难，需要选择最优的模型checkpoint。
- 解决方案：使用真实训练 + 仿真评估（Real-to-Sim）的方法。
    - 所有数据都来自真实世界，仿真只用于评估。
    - 扩展了Lee等人提出的仿真环境，覆盖551个任务。
    - 利用RetinaGAN将仿真图像视觉风格转换为逼近真实，从而减少视觉偏差。
- 核心发现：虽然仿真效果不如真实场景，但高质量真实策略在仿真中的表现也好于低质量策略——即排序具有预测意义。


D. EXPERIMENTS
==============

D.1 EVALUATION DETAILS
----------------------

- 已见任务 (Seen tasks)：评估了744个已见任务，这些任务在训练数据集中已有。通过技能加权平均来报告评估指标。
- 未见任务 (Unseen tasks)：评估了53个未见任务，这些任务在训练中没有出现，但其中某些技能和物体的组合已在训练集中有过使用。
- 干扰物的鲁棒性 (Distractor robustness)：测试了干扰物对任务完成的影响，设置了不同的干扰物数量（从0到9个不等），并评估了模型在这些设置下的表现。
- 背景的鲁棒性 (Background robustness)：测试了不同背景（如桌布、厨房环境等）对任务完成的影响，考察了模型在不同背景下的泛化能力。
- 真实世界指令的鲁棒性 (Realistic instructions)：提出了更接近实际场景的任务，考察了RT-1在变化环境（如办公室厨房）下的表现，并测试了不同难度的指令组合。


A full list of these unseen tasks(Table 8: List of Unseen Instructions in Sec. 6.2. For the “Unseen Tasks” evaluation, we exclude a total of 53 tasks during training. While these exact instructions were not present in the training set, the objects and skills contained in these instructions were still present in the training set.)::

    pick coke can from top drawer and place on counter
    pick green can from top drawer and place on counter
    pick green rice chip bag from middle drawer and place on counter
    pick redbull can from top drawer and place on counter
    place 7up can into bottom drawer
    place brown chip bag into top drawer
    place green can into middle drawer
    move 7up can near redbull can
    move apple near green rice chip bag
    move apple near paper bowl
    move apple near redbull can
    move blue chip bag near blue plastic bottle
    move blue chip bag near pepsi can
    move blue chip bag near sponge
    move brown chip bag near apple
    move brown chip bag near green rice chip bag
    move brown chip bag near redbull can
    move coke can near green jalapeno chip bag
    move coke can near water bottle
    move green can near 7up can
    move green can near apple
    move green can near coke can
    move green jalapeno chip bag near blue chip bag
    move green rice chip bag near orange
    move green rice chip bag near orange can
    move green rice chip bag near paper bowl
    move orange can near brown chip bag
    move pepsi can near orange can
    move redbull can near coke can
    move rxbar blueberry near blue plastic bottle
    move rxbar blueberry near orange can
    move rxbar chocolate near paper bowl
    move rxbar chocolate near rxbar blueberry
    move sponge near apple
    move water bottle near 7up can
    move water bottle near sponge
    move white bowl near orange can
    pick blue plastic bottle
    pick green rice chip bag
    pick orange
    pick rxbar chocolate
    pick sponge
    place pepsi can upright
    knock orange can over
    pick blue plastic bottle from paper bowl and place on counter
    pick brown chip bag from white bowl and place on counter
    pick green can from paper bowl and place on counter
    pick green jalapeno chip bag from white bowl and place on counter
    pick orange can from white bowl and place on counter
    pick redbull can from white bowl and place on counter
    place blue plastic bottle into paper bowl
    place coke can into paper bowl
    place orange can into paper bowl


D.2 HETEROGENEOUS DATA
----------------------

- 吸收仿真数据 (Absorbing simulation data)：
    - RT-1能够吸收并学习真实数据与仿真数据的混合数据集，并在不同任务之间保持较好的性能，不会因加入仿真数据而降低原有任务的表现。
- 来自不同机器人的数据吸收 (Absorbing data from different robots)：
    - 将来自不同机器人（如Kuka和Everyday Robots）的数据合并，测试RT-1是否能在这些数据中迁移学习，提升在新的机器人平台上的任务表现。
    - 结果表明：RT-1能够通过观察来自不同机器人经验的数据，成功迁移技能，尤其是在面对来自不同机器人形态的数据时，依然能有效学习新任务。


D.3 LONG-HORIZON EVALUATION DETAILS
-----------------------------------

- 评估了RT-1在长时间、多步骤的任务中的表现。通过SayCan框架（结合多步操作完成任务），测试了RT-1在厨房环境中处理复杂长任务的能力。
- 结果表明，RT-1在复杂任务的长时间跨度执行中具有更强的鲁棒性和泛化能力。
- 总结
    - RT-1在长时间跨度的任务中，不仅能够在多个步骤中保持高效的执行，还能够在新的环境中进行成功的任务迁移。即使面对新厨房的挑战，RT-1依然能够完成复杂的多步骤操作，展示了其在多任务和复杂环境中的强大能力。
    - 通过结合SayCan框架和RT-1的能力，机器人能够有效地执行超长时间跨度的任务，且在面对新的、未知的环境时，依然能够保持较高的任务执行成功率。

Table 12: List of SayCan instructions evaluated in Sec. 6.4::

    How would you put an energy bar and water bottle on the table
    How would you bring me a lime soda and a bag of chips
    Can you throw away the apple and bring me a coke
    How would you bring me a 7up can and a tea?
    How would throw away all the items on the table?
    How would you move an multigrain chips to the table and an apple to the far counter?
    How would you move the lime soda, the sponge, and the water bottle to the table?
    How would you bring me two sodas?
    How would you move three cokes to the trash can?
    How would you throw away two cokes?
    How would you bring me two different sodas?
    How would you bring me an apple, a coke, and water bottle?
    I spilled my coke on the table, how would you throw it away and then bring me something
    to help clean?
    I just worked out, can you bring me a drink and a snack to recover?
    How would you bring me a fruit, a soda, and a bag of chips for lunch


D.4 MODEL ABLATIONS
-------------------


- 为了分析RT-1设计决策的影响，进行了多种消融实验。测试了不同模型规模、架构（如Transformer移除）、动作空间的表示方法、预训练的影响等因素，评估了这些设计决策对模型表现的影响。
- 实验结果
    - 性能下降：例如，去除ImageNet预训练后，未见任务的表现下降了33%。使用连续动作空间时，性能下降最为显著，尤其是在泛化任务上，且表现远不如离散动作表示。
    - Transformer组件：移除Transformer对模型的影响是小的，但在所有任务上表现均有所下降，显示出Transformer在模型中的重要性。
    - 推理速度：RT-1相比Gato模型推理速度快得多（约10倍），但比基于ResNet的BC-Z慢。某些消融操作（如使用自回归动作）会导致推理速度明显下降（约2倍）。
- 结论
    - 每个设计决策都重要，但它们对性能的影响程度不同。例如，去掉ImageNet预训练、使用连续动作表示等对性能有较大影响，而去掉Transformer和历史信息的影响较小。
    - 自回归动作表示在提升性能上没有显著贡献，反而拖慢了推理速度，因此最终RT-1没有使用这种方法。

总结
----

* 总体来说，这些实验详细展示了RT-1在处理不同任务、在多种环境和数据条件下的表现，并验证了其在面对新的任务和环境时的泛化能力和鲁棒性。通过这些实验，RT-1证明了在多种挑战性的实际场景中执行复杂任务的潜力。
* RT-1的设计体现了几个重要原则：
    - 通过预训练模型提升泛化能力，特别是利用像ImageNet这样的多样化数据集。
    - 使用离散化动作表示，能够更好地捕捉复杂的动作分布。
    - 数据的多样性比单纯的数据量更为重要。
    - 通过早期语言和图像的融合，以及有效的注意力机制，RT-1能够更好地集中于与任务相关的特征，提高在现实世界任务中的表现。