回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
High-Level Planning · Plate Nº 78

PaLM-E: An Embodied Multimodal Language Model

20 min read · 6964 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI 和机器人"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

教 ChatGPT 长出眼睛和手脚:你说一句话 + 让它瞄一眼现场,它直接列出机器人该做的几步。

所以这一节是想说:这篇论文让一个本来只会聊天的超大 AI,长出眼睛 + 长出手脚,能给真机器人下达多步指令。


这是个什么场景

周末早上你赖在沙发上,咖啡杯一倾,洒了一桌。你懒得动,扭头对着家里的机器人喊:

"我把饮料洒了,能帮我擦一下吗?"

你心里其实不是想听它说"好的主人",而是希望它真的能:

  1. 抬眼瞥一下桌面,知道现在乱成啥样
  2. 反应过来"擦水要先找海绵"
  3. 找到海绵 → 拿起来 → 走过来 → 擦干净 → 放回去

这就跟你叫一个刚来的实习生帮你订外卖一样——他得听懂你说的话看得见菜单上有什么、还得自己拆出"打开 app → 选店 → 下单"几步。三件事缺一样都不行。

放到机器人身上,需要两种能力同时在线:

  • 会看 + 会想:看懂厨房,知道海绵在哪、桌上还有什么。
  • 会拆任务:把"擦水"拆成 5-6 个具体动作,一步一步走,中间出岔子还能纠错。

2023 年初市面上的方案就两条路,都不太顺:

  • 路线 A:聊天 AI 出主意 + 另一个机器人模型动手。 像甲方和外包——甲方写英文需求,外包只看中文,中间得有个翻译来回传话。
  • 路线 B:让机器人模型自己学会动手 + 看世界。 但这种模型脑容量小,长程规划基本不行。

PaLM-E 想做的事,就是把"超大聊天 AI 的脑子"+"能看图的眼睛"+"机器人的手脚"焊成一个端到端的整体——你说一句话 + 给它看一眼现场,它直接吐一串机器人能照做的步骤。

所以这一节是想说:PaLM-E 要造的是"一个大脑同时管说话、看图、做计划"的机器人控制器。


PaLM-E — 场景示意:这论文要解决的现实问题
Plate Nº IPaLM-E — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:SayCan(2022)—— 聊天 AI 出主意,但看不见图 类比:把任务交给一个被关在小黑屋里的聪明顾问,他只能听描述。SayCan 用 LLM 列出可能的动作清单,再用一个外部"评分模型"挑选哪一步最靠谱。但 LLM 自己根本看不到现场,所以遇到"几何位置很重要"的任务(比如三块积木叠哪一块在前)就抓瞎。

  • 方案 B:通用 VLM(PaLI、Flamingo 等)—— 会看图,但不懂机器人 类比:博物馆讲解员,看到图能滔滔不绝,但你叫他"先收餐桌再倒垃圾"他就没思路了。论文实验里 PaLI 对机器人任务零分。

  • 方案 C:Gato(2022)—— 多模态万能 agent,但没有正向迁移 Gato 试过把多种任务塞一个模型,但**没观察到"做 A 任务能帮 B 任务变好"**这种现象。说明它只是"会很多事",不是"互相借力"。

  • 方案 D:VIMA(2022)—— 多模态 prompt,但不会规划长程任务 VIMA 用图文混排的指令,但语言只是"任务说明书",不是规划工具。

  • 核心难题:机器人数据特别少——拍一段真机器人擦桌子的视频,比拍一张猫狗图贵 1000 倍。所以单纯堆机器人数据训练不动大模型。

所以这一节是想说:以前要么"会看不会规划"、要么"会规划看不见",没人能把这两件事在一个端到端的大模型里搞定。


这篇论文的新想法

别再让聊天 AI 和机器人模型互相翻译了——直接把图片、机器人状态都翻译成"假装是单词"的向量,和真单词一起塞给一个超大 LLM,让它一句话里既能看图又能输出动作步骤。

听起来朴素,但工程上的关键是:LLM 的输入序列不再分"文字位"和"图位",每个位置都可以是文字、是图、是关节角度、是 3D 物体表征——位置完全自由。

所以这一节是想说:核心创新是"多模态句子"——把视觉、状态都伪装成单词向量,塞进 LLM 的输入序列任意位置。


它分几步做的(方法)

把它想成做一道家常菜——整本菜谱拆开就 4 步:先把食材备好(多模态句子)、挑顺手的刀(眼睛)、决定要不要重新换灶台(冻不冻 LLM)、最后用一大锅杂烩一起炖(共训)。下面一步步来。

1. 多模态句子:把图、状态都翻译成"假装是单词"的向量

类比

想象你在微信群发消息。你打字打到一半,想插一张照片——传统做法是先打完字、再单独发一张图,两条消息分开

PaLM-E 的做法更猛:

把照片压缩成几个特殊符号(比如 <img1><img2>),直接塞在文字中间——就像 emoji 那样。读消息的人扫过去,眼睛一边读字一边"看到"那张图,根本分不出哪是字哪是图。

LLM 内部其实就是一连串向量。每个单词被查表查成一个固定维度的向量(比如 PaLM 用的是 18432 维)。PaLM-E 做的事就是:

  • 图片:通过 ViT(一个图片识别模型)压成一串相同维度的向量。
  • 机器人状态(关节角度、物体位置等):通过一个小 MLP 也压成相同维度的向量。
  • 3D 场景:通过 OSRT(一个 3D 物体表征模型)压成一组向量,每个向量代表一个物体。

向量:一串数字,比如 (0.3, -0.5, 0.8, ...)。AI 内部到处用向量表示词、图、状态。维度越高表达能力越强。

MLP(多层感知机):一种简单的神经网络,几张数字表格串起来,输入一组数字、输出一组数字。这里负责把状态向量"翻译"成 LLM 认识的格式。

多模态句子(Multi-modal sentence):在传统纯文字句子的任意位置插入图片/状态的向量。比如 Q: 抓蓝色方块前要先做什么? <状态向量> <图> A: 这样的输入。

它在干什么

  1. 用户说:"Human: 把饮料洒了,帮我擦一下"。
  2. 机器人摄像头拍一张图。
  3. PaLM-E 把这条消息编码成 Human: 把饮料洒了... I see <img>. Robot:
  4. <img> 这个位置不再是文字,而是 ViT 输出的一组向量。
  5. LLM 看着这一长串混合向量,像续写小说一样吐出 1. Find a sponge. 2. Pick up the sponge. 3. ...

关键公式翻译成人话

原文写:x_i = γ(w_i) if w_i 是文字 else φ_j(O_j)_i if 是观测

人话:"第 i 个位置的向量,要么是从单词查表得来,要么是从图/状态编码器算出来。"——一句话:每个位置随便插。

为什么这步有用

  • 位置自由:不像 Flamingo 那种"图必须在固定位置",PaLM-E 能在一句话里插好几张图、好几个状态。
  • 复用 LLM 已有的位置编码:LLM 本来就会处理"第 1 个词、第 2 个词..."的相对位置,多模态向量直接搭便车,不需要重新学。
  • 天然支持多图 / 多状态 / 多机器人:训练时只要混进去就行。

所以这一节是想说:把图和状态伪装成"假装是单词的向量",让 LLM 的输入序列变成可以自由穿插多种模态的"鸡尾酒"。


2. 三种"眼睛":从扁平 ViT 到 3D 物体感知

类比

不同任务对"看世界的方式"要求不同:

  • 拍鸟需要长焦镜头。
  • 拍全家福用广角。
  • 拍微距用微距镜头。

PaLM-E 也准备了好几种"镜头",不同机器人任务挑不同的来用。

它在干什么

论文比较了三类编码器:

  1. 状态向量(State):最简单。直接把机器人测得的关节角、物体姿态当输入。一个小 MLP 就能搞定。仅在仿真里好用——真机器人哪有完美状态信息。

  2. ViT(Vision Transformer):标准做法。把图切成 16×16 个小方块,每块输出一个向量。论文用了两个版本:4B 参数的 ViT-4B(来自 PaLI)和 22B 参数的 ViT-22B(当时最大)。

  3. OSRT(Object Scene Representation Transformer):3D 物体感知。这是 PaLM-E 引以为傲的创新——它从多视角图片里自己学会把场景拆成"一个一个物体",每个物体用几个向量表示,自带 3D 几何感。不需要外部物体框标注。

ViT:一种把图当"视觉文字"处理的模型。把 224×224 的图切成 14×14=196 个 patch,每个 patch 当成一个"视觉单词"。

OSRT:从多视角图自学物体分割的模型。给它几张同一场景不同角度的照片,它能把场景分成 N 个"物体槽(slot)",每个槽自动对应一个物体。

Object slot(物体槽):OSRT 的核心概念。可以理解为一个"装一个物体的容器",里面存着这个物体的颜色、形状、3D 位置等综合信息。

Entity referrals(实体引用):当场景里有多个相同颜色的物体时,光说"红色那个"指代不清,PaLM-E 会在 prompt 里写 Object 1 is <obj1>. Object 2 is <obj2>. ...,让 LLM 学会用 <obj1> 这种特殊标记唯一指代某个物体。

为什么这步有用

  • 实验数据(Tab. 1):在 TAMP 任务(积木堆叠规划)里,用 1% 训练数据,OSRT 拿到 82.5% 的成功率,普通 ViT-4B 只有 30.6%。3D 物体感知比扁平像素强 2.5 倍
  • ViT 把图当一张"马赛克",没有"物体"概念——这对涉及"先抓 A 再放到 B 上"的多步规划是硬伤。OSRT 直接把物体当成 LLM 的"名词"。
  • 但 OSRT 训练数据要求高(要多视角合成数据),所以真实机器人任务更多还是 ViT-4B + 全量数据混训。

所以这一节是想说:不同任务用不同的眼睛——OSRT 在精细规划上吊打 ViT,但 ViT 加海量数据更通用。


3. 冻还是不冻 LLM:两条路都能走通

类比

教一个清华博士做菜,有两种做法:

  • 冻结派:博士的脑子不动,只让他读菜谱。你想办法把菜谱写得他一看就懂——博士保留所有原本的学识,但要做菜的话你得反复修菜谱。
  • 解冻派:让博士边做菜边调整自己的脑子。结果他做菜越来越好,但可能慢慢忘了量子物理

冻结(freeze):训练时不更新这部分参数。LLM 保持原样。

解冻 / 微调(finetune):训练时更新这部分参数。LLM 跟着学,但有遗忘风险。

灾难性遗忘(catastrophic forgetting):模型学新东西时把旧能力忘了。比如学完做菜,连原本会的英语单词都忘了一半。

软提示(soft prompt):把"提示词"做成可学习的向量,而不是固定文字。冻 LLM 时,编码器输出的向量其实就是"动态生成的软提示"。

它在干什么

PaLM-E 把这两条路都试了:

  • 路线 1:冻 LLM,只训练编码器(ViT、OSRT、MLP)

    • 好处:LLM 完整保留语言能力,0% 遗忘
    • 坏处:编码器要"翻译得很好"才能让冻住的 LLM 听懂,机器人任务上有时拉胯。
  • 路线 2:全模型解冻,全部一起训

    • 好处:机器人任务表现最好。
    • 坏处:会遗忘语言能力——但论文发现一个反直觉的现象:

模型越大,遗忘越少。

具体数字(Fig. 6):

  • PaLM-E-12B 训完后,自然语言生成(NLG)能力下降 87.3%。几乎全废
  • PaLM-E-84B 下降 61.6%。
  • PaLM-E-562B 下降仅 3.9%。基本没遗忘

为什么这步有用

  • 给后续工作指了两条路:要嘛冻 LLM 当软提示用、要嘛把模型做大让它"装得下"机器人 + 语言两套技能。
  • 562B 是当时最大的 VLM。这个尺度下"机器人技能"和"语言能力"可以共存——这是 PaLM-E 给整个领域的最大启示之一。

所以这一节是想说:冻 LLM 是稳妥路线(保语言)、解冻 + 大模型是激进路线(保机器人);模型够大时两者可兼得。


4. 一锅杂烩共训:让"做 VQA"帮"做机器人"变好

类比

教小孩学钢琴,光练钢琴谱很死板。如果同时学乐理 + 视唱 + 听音 + 节奏游戏,每样虽然没单练那么深,但互相借力整体反而更强。这叫"正向迁移"。

正向迁移(positive transfer):训 A 任务能让 B 任务也变好。反义词:负向迁移(学 A 反而搞坏 B)。

co-training / 联合训练:把多种任务的数据混在一起一起训练。

full mixture(全量混合):PaLM-E 用的训练配方——大量通用 VLM 数据 + 一点点机器人数据混在一起。

它在干什么

PaLM-E 的训练数据配比(Tab. 6):

  • 通用 VLM 数据:91% 左右
    • WebLI(Google 的图文对数据集)52.4%
    • VQ²A、VQG、CC3M、COCO 等总共 ~38%
  • 机器人数据:8.9%
    • Mobile Manipulator 真机 3.1%
    • Language-Table 仿真 + 真机 4.2%
    • TAMP 仿真 1.6%

关键观察:机器人数据量这么小,按理说应该被淹没在 VLM 数据里。但实验显示——正是因为 VLM 数据多,机器人任务才学得好

实验对照(Tab. 1,1% TAMP 数据):

  • 只用 TAMP 数据训:ViT-4B 单机器人成功率 30.6%
  • 用全量混合训:ViT-4B 成功率 74.1%——翻了 1.5 倍

类似的趋势在 Language-Table(Tab. 2)和移动操作(Tab. 4)都成立。

为什么这步有用

  • 机器人数据稀缺,没法靠堆数据解决
  • 通用 VLM 数据里有大量"理解物体+位置+关系"的隐性知识,刚好是机器人规划需要的基本功。
  • 这个"杂烩共训"思路被 RT-2 等后续工作继承——少量机器人数据 + 大量网络数据变成了标准配方。

所以这一节是想说:与其只用稀缺的机器人数据死磕,不如用海量 VLM 数据当背景,机器人任务自然受益。


PaLM-E — 方法示意:核心 pipeline
Plate Nº IIPaLM-E — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你什么"设计选择"才是关键。

数字 1:PaLM-E-562B = 540B PaLM + 22B ViT

  • 怎么算的:把 PaLM-540B(当时 Google 最大的语言模型)和 ViT-22B(当时最大视觉模型)拼一起。
  • 对比:当时最大 VLM PaLI 只有 17B(13B 语言 + 4B 视觉)。PaLM-E 是它的 33 倍
  • 生活语言:相当于把"全世界最大的脑子"和"全世界最大的眼睛"焊在一起。代价是训练它要 Google 内部好几百块 TPU——普通研究机构基本不可能复现。

数字 2:TAMP 1% 数据下 OSRT 拿 82.5% 成功率

  • 怎么算的:只用 320 条积木堆叠数据,比较不同编码器。
  • 对比:ViT-4B 只用 TAMP 数据 30.6%;ViT-4B 加全量混合 74.1%;OSRT 82.5%
  • 生活语言:3D 物体感知 + 实体引用让模型在"超少数据"下也能搞定多步规划。证明架构选对了,数据少也能赢

数字 3:移动操作(kitchen)affordance F1 = 0.91

  • 怎么算的:在真厨房环境里问"现在能不能执行 X 动作",PaLM-E 判断对错的 F1 分数。
  • 对比:PaLI 零样本 0.62;CLIP 微调版 0.65;PaLM-E 0.91
  • 生活语言:判断"这个动作现在做得了吗"是闭环规划的命脉——错判会导致机器人撞墙。PaLM-E 比专门为这个任务设计的方法还强。

数字 4:OK-VQA 上 SOTA(无任务专属微调)

  • 怎么算的:OK-VQA 是个考"图 + 外部知识"的题库,比如"图里这种鸟主要分布在哪个洲?"。
  • 对比:PaLI(专门微调)82.0;Flamingo(专门微调)82.1;PaLM-E-562B 通用模型 66.1——但它是单一通才模型,不像别人针对每个任务专门微调。
  • 生活语言:意思是 PaLM-E 这一个模型既能开机器人又能在通用 VQA 任务上打到第一。"通才打过专才"在 2023 年是大新闻。

数字 5:562B 模型语言遗忘率仅 3.9%

  • 怎么算的:在 21 个标准语言基准上,对比 PaLM-540B 和 PaLM-E-562B。
  • 对比:12B 模型遗忘 87.3%;84B 遗忘 61.6%;562B 仅 3.9%
  • 生活语言:模型够大就能"双修"——既学会做机器人,又不丢掉原本的语言能力。这是后续 RT-2、Gemini-Robotics 的关键依据。

数字 6:单图训练 → 零样本能处理多图

  • 怎么算的:训练数据里只有单张图,但测试时 PaLM-E 能处理 Photo 1: <img1>. Photo 2: <img2>. Q: 哪张里有墨镜? 这种多图问题。
  • 对比:之前的 VLM 只能处理训练时见过的输入格式。
  • 生活语言:多模态句子的"位置自由"带来的副产物——你只训了"插一张图",但模型能泛化到"插两张图"。架构本身就有泛化能力,不靠堆数据。

所以这一节是想说:大尺度 + 多模态句子 + 杂烩共训这三件事凑齐,迁移效应、数据效率、零样本能力都跟着出现。


你应该懂的几个新词

Embodied AI(具身 AI):把 AI 装进机器人或 agent 里,让它真的能"动"。区别于只在屏幕里聊天的 AI。

Grounding(定锚):让 AI 的语言能跟现实世界的视觉、物体、动作对应起来。一个会聊"苹果"但分不清桌上苹果在哪的 AI 就是 ungrounded。

Multi-modal sentence(多模态句子):PaLM-E 的核心数据格式——文字、图、状态向量混在同一个序列里输入 LLM。

Decoder-only LLM(解码器-only 语言模型):像 GPT 那样从左往右"接龙"生成文字的模型。PaLM 就是这种。

ViT(Vision Transformer):把图切成网格小方块当"视觉单词"处理的模型。PaLM-E 用了 4B 和 22B 两种规模。

OSRT(Object Scene Representation Transformer):从多视角图片里自学物体分割的 3D 感知模型。能把场景分成 N 个"物体槽"。

TAMP(Task and Motion Planning):任务与运动规划——机器人领域里"先抓 A 放到 B 上,再抓 C..."这类多步组合规划任务。

Affordance(可供性):某个动作在当前环境能不能执行。比如"抓住门把手"的 affordance = 1(可以),"飞过去"的 affordance = 0(不能)。

Catastrophic forgetting(灾难性遗忘):模型学新任务时把旧任务能力一并忘掉。是大模型微调的老大难问题。

Positive transfer(正向迁移):训练 A 任务时让 B 任务也变好。PaLM-E 在多种机器人 + VQA 任务上都观察到这个现象。

SayCan:2022 年 Google 的前作。让 LLM 列出动作选项,再用一个外部"价值函数"评分。PaLM-E 最直接的对手。

Closed-loop control(闭环控制):机器人执行一步后看看结果,再决定下一步。能纠错。和"开环"(一次性输出全部计划)相对。

所以这一节是想说:上面这十几个词以后看任何具身 AI 论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

PaLM-E 也有几个明显短板:

  • 巨型模型搞不动:562B 模型加载就要几百 GB 显存,只能在 Google 内部 TPU 集群跑。开源世界基本无法复现完整版,只能玩小一点的 84B 或 12B。
  • 真机器人数据仍然贵:虽然训练数据 91% 是网络 VLM,但那 9% 机器人数据采集成本极高(真机操作 + 人工标签)。换个新机器人还得重采。
  • 低阶动作还是依赖外部 policy:PaLM-E 输出的是"语言子目标"(比如 "pick up the sponge"),真正怎么把手伸过去还是要 RT-1 这类底层策略。它是"高级管理",不是"全栈工程师"
  • OSRT 假设过强:3D 物体感知好用,但需要多视角合成数据,真机环境很难拿到。论文里 OSRT 主要用在仿真 TAMP 上。
  • 超长推理链条仍会断:极长的多步任务(比如 20 步以上)失败率明显上升,闭环纠错能救一部分,但不是无敌。

所以这一节是想说:PaLM-E 是"用大模型暴力刷分"的代表作,门槛极高,且它只解决"高层规划",底层动作另开篇章。


它和别的论文是什么关系

  • 直接前传:LLaVA(2023.4) —— 但其实 PaLM-E(2023.3)比 LLaVA 还早一个月。两者都是"用 LLM + 视觉编码器做 VLM"的早期代表,但 LLaVA 走开源 + 极简路线(练习题为王),PaLM-E 走闭源 + 极大模型路线(参数量为王)。LLaVA 证明几百万练习题 + 13B 模型也能打,PaLM-E 证明562B 大模型自带涌现能力
  • 同期对手:SayCan(2022) —— PaLM-E 替代了 SayCan 的"LLM + affordance"两段式设计。在所有机器人实验里 PaLM-E 都吊打 SayCan,因为后者 LLM 看不到图。
  • 架构灵感:Frozen(2021)、PaLI(2022) —— 给 PaLM-E 的"冻结 LLM + 训编码器"路线提供了原型。PaLM-E 把它扩展到了多模态 + 多机器人。
  • 直接续作:RT-2(2023.7) —— 同一组人。RT-2 把 PaLM-E 的"输出文字步骤"换成"直接输出动作 token"——LLM 不再只规划,连机械臂角度都自己生成。这条线后续通向 OpenVLA、π₀ 等真正的 VLA(Vision-Language-Action)模型。
  • 集合关系:可以把"具身 AI 大模型"想成一棵树——PaLM-E 是树根之一(多模态规划),RT-2 是分支(端到端动作),LLaVA 是另一根(开源 VLM 基础设施)。

所以这一节是想说:PaLM-E 是 2023 年具身 AI 的一个分水岭——之前大家在拼凑各种小模型,之后大家都开始用大 LLM 当大脑。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1 和 Figure 2(5 分钟):Figure 1 是架构总览,Figure 2 是 562B 模型的"杂技表演"集锦——多图问答、视觉笑话、零样本数学题、机器人规划。先建立"它能干什么"的直观感受
  2. 读 Section 3(架构)(15 分钟):核心是"多模态句子"——理解 LLM 的输入序列任意位置都能塞图/状态向量。公式 (3) 是全文最重要的式子,记住人话翻译就够。
  3. 跳到 Section 4(编码器)(10 分钟):扫一眼三类编码器(State / ViT / OSRT),理解 OSRT 为什么对机器人任务这么强。
  4. 重点读 Section 5(训练配方)(10 分钟):搞清楚"冻 vs 解冻 LLM"的两条路,以及"杂烩共训"为什么能让机器人任务受益。
  5. 扫消融表 Tab. 1、Tab. 2、Tab. 4(10 分钟):看哪些设计决定贡献最大——你会发现是"全量混合数据"和"OSRT",不是模型参数。
  6. 跳过附录(除非你想自己实现):附录主要是任务细节和具体数字,原理读完前面 5 步就够了。

读完这 6 步大约 50-70 分钟,已经能在和别人讨论具身 AI 时报出 PaLM-E 的核心思路。

所以这一节是想说:这篇精华全在"多模态句子 + 杂烩共训",模型参数和工程细节可以略读,节省时间。


一些好奇心问答(FAQ)

Q1:562B 我自己能跑吗?

跑不动。562B 模型推理就要 8 张以上 80GB 的 H100,训练更得几百块 TPU。论文里的小版本 PaLM-E-12B 倒是消费级显卡能勉强加载,但官方没开源权重。真要玩,去 Hugging Face 找开源 VLA 模型(OpenVLA、SpatialVLA),思路一脉相承但能跑。

Q2:PaLM-E 能直接控制机器人吗?还是还要别的模型?

不能直接控。PaLM-E 输出的是语言子目标(比如 "Pick up the sponge"),真正怎么把机械臂动起来还是要靠 RT-1 这类底层 policy。可以理解成 PaLM-E 是"项目经理",RT-1 是"工程师"。

Q3:为什么不直接让 PaLM-E 输出关节角度?

那是 RT-2 干的事。PaLM-E 的设计哲学是"高层规划 + 复用现有底层",把动作生成留给已经训练好的 RT-1。RT-2 把 PaLM-E 的思路再往前推了一步——直接输出动作 token。

Q4:OSRT 这么强为什么后来不流行?

主要是数据要求高。OSRT 需要"同场景多视角合成数据"才能学好物体分割,真机环境很难拿。后来的 VLA 模型大多回归 ViT,靠堆数据弥补 3D 感知的不足。但 OSRT 的"物体槽"思路被很多 3D 视觉模型继承。

Q5:Multi-modal sentence 和 Flamingo 的"图+文"格式有啥区别?

Flamingo 把图固定插在文本前面(用 cross-attention),位置不灵活。PaLM-E 把图当成"普通 token"直接嵌入序列任意位置,完全复用 LLM 的位置编码——这是它能零样本支持多图、能在一句话里多次插图的根本原因。

Q6:训练这么大的模型会不会过拟合机器人数据?

会,但作者用"杂烩共训"绕开了——91% 是网络 VLM 数据,9% 才是机器人数据。机器人数据被海量通用数据"稀释",反而避免了对窄分布的过拟合。

Q7:如果机器人摔了一跤,PaLM-E 能纠错吗?

能,这就是闭环控制。PaLM-E 每执行一步后会重新看图、重新规划。论文里有个演示:实验员故意把机器人刚抓起的方块再抢走,PaLM-E 重新看图发现"咦方块没了",重新规划"再去抓一次"。

Q8:PaLM-E 之后该看什么?

最直接的下一步是 RT-2(2023.7)——同一组人的"动作版"。再下一步看 OpenVLA(2024)——开源、可复现、跑得动。如果对 3D 感知感兴趣,看 3D-LLM 系列。

所以这一节是想说:实操问题(多大、多贵、能不能跑、和别的模型怎么接)作者大多想到了,但门槛比 LLaVA 高很多——它就不是给小团队复现用的。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:SayCan(2022) —— LLM + affordance 的双段式做法。读完 PaLM-E 再读 SayCan,能清楚看到"两个模型互相翻译"vs"一个模型端到端"的取舍。
  2. 前传:Frozen(2021) —— "冻结 LLM + 训视觉编码器"思路的鼻祖。PaLM-E 在它的基础上扩到了多模态 + 多机器人。
  3. 续作:RT-2(2023.7) —— 真要看具身 AI 必读。把 PaLM-E 的"输出文字步骤"升级成"输出动作 token",从规划器变成了动作生成器。
  4. 续作:OpenVLA(2024) —— 开源版的 VLA 模型。如果你想动手训一个,从这个开始。
  5. 衍生:Gemini Robotics(2024) —— Google 把 PaLM-E 思路融进 Gemini 的工业版本。代表"具身大模型"工业化的最新进展。

所以这一节是想说:把 PaLM-E + RT-2 + OpenVLA 这三篇连起来读,就能看到 2023-2024 年具身大模型从"高层规划"到"端到端动作"的完整演化。


最后一个画面

想象你站在厨房里说:"我把饮料洒了。"

机器人听见这句话,扫了一眼桌面,然后自言自语般地报出:

"好的。1. 找海绵。2. 走到水槽。3. 拿起海绵。4. 走回桌子。5. 擦水。6. 放回海绵。7. 完成。"

每报一步,它真的就去做。中途你恶作剧把它刚拿起的海绵抢走,它愣了一下,看了看周围,重新说:"1. 找海绵..."继续来。

这一刻,"会聊天的 AI"和"会动的机器人"第一次合体成同一个东西。PaLM-E 没解决所有问题,但它第一次让人觉得"具身 AI"不是科幻——而是一组超大模型 + 一些工程胶水 + 大量数据共训就能做出来的东西。

所以最后一节是想说:PaLM-E 不只是技术上跑通了,更是从概念上把"机器人 + 大模型"这条路凿了出来——之后所有 VLA 模型都是踩着它的脚印往前走。

引用本笔记 / Cite this note
BibTeX
@online{eai_palm_e_2026,
  title       = {(readable note) PaLM-E: An Embodied Multimodal Language Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/palm-e/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim