High-Level Planning · Plate Nº 3

SayCan: Do As I Can, Not As I Say

14 min read · 4946 字 · ⭐⭐ · auto 摘要

#language #RL

这是给"完全没碰过 AI / 编程"的读者写的版本。下面所有"专业词"第一次出现都会用一两句话讲清，并尽量用初高中常识打比方。

一句话讲什么（TL;DR）

让"见多识广但出不了门的 AI"出主意，让机器人自己摸口袋说"这事我现在能做"，两边都点头才动手。

所以这一节是想说：AI 出嘴，机器人出手，两个分一起算。

这是个什么场景

想象你周末瘫在沙发上刷手机，可乐一不小心洒了一桌子，你顺嘴对家里的机器人喊：

"我刚把可乐洒桌上了，能帮帮我吗？"

你脑子里的画面很简单：它走过去、拿块海绵、回来擦干净。

但站在机器人那一头，事情完全不是这么回事：

它听得懂"洒了"、"帮帮我"是中文里的常用词，但不知道对应自己身上要做哪几个动作。
它知道自己有几条机械臂、几根手指头，但不知道"擦桌子"在自己这套动作清单里叫什么。

打几个生活里的比方就是：

你妈让你"把屋子收拾一下"，你新养的宠物狗听懂了"屋子"和"一下"，但完全不会"收拾"——能听不能做。
一个只看过武侠小说的人让你"练一下凌波微步"——他知道这招听起来厉害，但你根本不知道脚要怎么迈。
你跟外国朋友点菜，他用菜单上没有的菜名报菜——服务员一脸懵，因为店里压根没这道菜。

这篇论文想修的，就是这条裂缝：人嘴里说的话，和机器人手能做的动作，对不上号。

所以这一节是想说：人说的话和机器人能做的事，中间隔着一条沟，论文就是想架桥。

之前的人怎么做的，为什么不够好

研究者之前主要试了两条路：

路 A：只让"AI 大脑"出主意
- 做法：把句子丢给一个会说话的 AI（比如 ChatGPT 那种），让它写出"步骤 1、步骤 2"。
- 问题：AI 像一个只读过书没出过门的学霸——它可能让你"用吸尘器"，但你家厨房根本没吸尘器。它不知道你家有什么。
路 B：只让"机器人手"自己学
- 做法：机器人在房间里反复试错，学会"抓"、"放"、"走"等小动作。
- 问题：你跟它说"帮我恢复一下体力"，它完全懵——这种抽象指令它根本听不懂。
路 C：两个简单地接起来
- 做法：让 AI 写句子，然后用"找最像的小动作"硬匹配。
- 问题：AI 一旦写出个不存在的动作（比如"用吸尘器"），匹配就强行配到最像的那个，结果错得离谱。
共同毛病：要么"会说不会做"，要么"会做不会想"。

指令（instruction）：用户用一句自然语言说出的任��，比如"帮我擦桌子"。

所以这一节是想说：以前要么只让脑子工作，要么只让手工作，没人把两个绑一起。

这篇论文的新想法

一句话点睛：

让 AI 提名候选动作并打"想不想做"的分（Say），让机器人自己打"做不做得到"的分（Can），两个分相乘，谁高听谁的。

所以这一节是想说：选下一步 = "应该做" × "能做"，缺一不可。

它分几步做的（方法）

整套方法的名字直接说明结构：Say（说） + Can（能）。

1. 先准备一份"动作菜单"

类比：点外卖 App 上不会让你自由写"我想吃个不太辣的、温温的、有蛋白质的东西"，它给你一份菜单，让你从里面选。

它在干什么：机器人事先训好了一堆小动作，每个动作都配一句英文描述，比如：

"pick up the sponge"（拿起海绵）
"go to the table"（走到桌子那儿）
"place on counter"（放到台面上）

把这些英文短句列成一张大菜单（论文里有 551 道菜），后面所有打分都从这张菜单里选。

技能（skill）：机器人已经学会的一个小动作，比如"拿起海绵"。论文一共准备了 551 个。

为什么这步有用：把"自由作文"变成"选择题"，AI 就不会说出机器人做不到的事。

所以这一节是想说：一切从一张固定的菜单开始，AI 不能瞎点。

2. Say —— 让 AI 给菜单上每道菜打分

类比：考试时老师不让你自由写"下一步该干啥"的作文，而是给你一张选项 A/B/C/D，让你对每个选项给一个百分比："我觉得这个对的可能性是多少"。

它在干什么：

写一段开头话术，比如：

"Human: 我刚把可乐洒桌上了，能帮帮我吗？ Robot: 1. ..."
把菜单上每道菜的描述（"pick up the sponge"）一个一个接到 "Robot: 1. " 后面。
让 AI 算"在这段话后面接这道菜，听起来有多顺"——分数越高，说明这道菜越像"应该做的下一步"。

关键术语：

大语言模型（Large Language Model, LLM）：一个读了海量文字的 AI，擅长接龙下一句。把它当成一个见多识广但没出过门的朋友。

概率分布（probability distribution）：每个选项一个 0~1 之间的数，加起来等于 1，表示"我相信每个选项的程度"。和高中概率题里的分布意思一样。

打分模式（scoring mode）：不让 AI 自由写句子，而是给候选答案让它打分。和选择题打勾、不让作文，是一个道理。

为什么这步有用：

AI 不会说出菜单外的东西。
不需要再做"匹配"这种容易出错的中间步骤。
给每道菜一个连续的分数，方便后面跟另一边的分相乘。

所以这一节是想说：AI 不写作文，只对菜单打分——这样它的每个回答都"合法"。

3. Can —— 让机器人自己说"我现在做得到吗"

类比：朋友推荐你去某餐厅吃饭，你伸手摸一圈口袋发现没钱包——这步当下做不了。"摸口袋"就是机器人在做的事。

它在干什么：

每个动作都配了一个"小裁判"。
这个小裁判看一眼机器人头上摄像头拍到的画面，再听一下要做的动作叫什么名字，然后输出一个 0~1 之间的数。
这个数的意思是："在当前这个画面下，做这个动作能成功的概率"。

举几个例子，让你直观理解：

海绵就在镜头正前方 → "拿起海绵"得分接近 1。
海绵被一堆杂物挡住 → "拿起海绵"得分接近 0。
你站在客厅 → "走到桌子那儿"得分中等（要走过去）。
你已经在桌子前 → "走到桌子那儿"得分接近 0（没必要走了）。

可供性（affordance）：环境给某个动作"提供"的可能性。比如门把手对你"招手"说"我可以被转动"。在这篇论文里就是"现在做这个动作，成不成"的分。

价值函数（value function）：本来是强化学习里的术语，可以先粗暴理解为"在当前局势下，做这个动作能赢的概率"。游戏里每个位置上方飘着的"通关概率预测"就是这个东西。

这个小裁判怎么训出来的（先记结论，看不懂可以跳）：

让仿真里的机器人反复试一个动作。
成功了奖励 1 分，失败了 0 分。
让小裁判学会"看一眼画面就能猜出来这次能不能成"。

强化学习（reinforcement learning, RL）：让 AI 通过反复试错、拿奖惩来学。和你打游戏死了重来、慢慢知道哪个套路能过关，是一回事。

为什么这步有用：把"环境到底允不允许这步"这个物理事实塞进了决策里。AI 想再多，物理上做不到也得 0 分。

所以这一节是想说：机器人摸一摸口袋，告诉你这事儿现在干不干得了。

4. 合体 —— 两个分相乘

类比：你周末选餐厅会同时看两件事：

朋友推荐分（Say）
餐厅有没有营业（Can）

两个都高才动身；只有一项高（朋友吹爆但今天闭店），还是去不了。

它在干什么：

对菜单上每个动作算两个分：AI 的"应不应该做"分 + 小裁判的"现在能不能做"分。
把两个分相乘，得到一个最终分。
选最终分最高的那个动作去做。
做完之后，把刚才做的写进开头话术里，再问一遍："好，下一步呢？"
一直循环，直到 AI 说 "done"（完成了）就停。

人话翻译版的核心公式：

最终分 = AI 觉得这步合理的程度  ×  机器人觉得这步现在做得到的程度
        = p(动作描述 | 指令)     ×  p(成功 | 当前画面, 动作描述)

argmax：从一堆候选里挑分数最大的那个。和你考试结束选"我哪门考得最好"一样。

为什么这步有用：

只看 AI：会推荐根本没有的物体。
只看机器人：根本听不懂任务在说啥。
一相乘，两边都得满意才能赢。

所以这一节是想说：AI 和机器人投票，谁都不能独裁，必须两个分都高。

5. 一些工程上的"脏活"

类比：高考完发布会上看着光鲜的状元，背后其实是一桌子卷子、一抽屉错题本——理想很丰满，幕后全是反复手工修补。SayCan 也一样。

理想很丰满，但现实里有几个细节得手动调：

小裁判的分数要"拉直"：训练完小裁判输出的分可能挤在 0.2~~0.5 之间，得手动把它拉到 0~~1 才像"概率"。
每个新厨房都得重调：换个房间、换个光线，分数就偏了，工程师得重新调一遍。
抓海绵和走过去用了不同的算法各自训一套：一套负责"真的去做"，一套负责"打分"。这两件事 AI 圈到现在还没完全合一。

行为克隆（Behavioral Cloning, BC）：让 AI 看人类演示，每一步都照抄。徒弟跟师傅做菜每刀都模仿，就是这个意思。论文里用 BC 训"真的执行"。

遥操作（teleoperation）：人戴着 VR 头盔、拿着摇杆，操控机器人做动作，给 AI 当教材。论文里 10 台机器人收了 11 个月数据。

所以这一节是想说：好看的公式背后，还有很多手工调参的脏活。

关键数字（What works）

实验在两个地方做：

仿厨房（专门搭的练习场，机器人在这练过）
真办公室厨房（机器人没在这练过，搬过去试）

一共 101 条指令、7 个家族，例如：单步任务、抽象名词任务、长程任务等。

下面 6 个数字最关键：

仿厨房：规划 84%、执行 74%
- 含义：100 次里有 84 次能选对正确的步骤序列；74 次真的把任务做完了。
- 对比：当时 AI + 真机器人组合的第一个像样数字。
- 意味着：第一次证明了"AI 和机器人可以严肃合作"。
真办公室厨房：规划 81%、执行 60%
- 对比：规划只掉 3 个点，执行掉了 14 个点。
- 意味着：AI 这边换环境影响小（它读过书，知道厨房长啥样）；但机器人的手严重依赖练过的画面，一换就抖。
去掉机器人那半（只听 AI 的）：规划 67%
- 对比：比完整版低 17 个百分点。
- 意味着：相当于"光听朋友推荐不看营业时间"——AI 会推荐场景里根本不存在的东西。
让 AI 自由生成 + 硬匹配菜单：规划 74%
- 对比：比"打分相乘"低 10 个百分点。
- 意味着："给候选打分"比"自由生成再硬找最像"更稳。
换个更小的 AI（参数少很多）：规划掉到 38%
- 对比：原版用了一个超大模型。
- 意味着：AI 越聪明，机器人越能干——这是这篇论文最有冲击力的发现。
多语言（中文 / 法语 / 西语）：12 条非英语指令，11 条规划完美。
- 意味着：AI 读过多语言，机器人就免费会多语言。这是个意外收获。

规划成功率（plan success rate）：100 次里能"想对"步骤顺序的次数比例。

执行成功率（execution success rate）：100 次里"想对又做对"的次数比例。当然 ≤ 规划成功率。

所以这一节是想说：方法是有效的，而且 AI 越强，效果越好。

你应该懂的几个新词

指令（instruction）：用户说出的一句话任务。

技能（skill）：机器人事先学会的一个小动作。

大语言模型（LLM）：读了海量文字、擅长接龙的 AI。

概率分布（probability distribution）：给每个选项分配 0~1 的"相信程度"，加起来等于 1。

打分模式（scoring mode）：让 AI 给候选答案打分，而不是让它自由写。

可供性（affordance）：环境对某动作"现在做不做得到"的支持度。门把手在向你"招手"说"我可以被转"。

价值函数（value function）：粗略理解为"在当前局势做这个动作能赢的概率"。

强化学习（RL）：通过反复试错、拿奖惩学习。打游戏死了重来就是这个套路。

行为克隆（BC）：照抄人类演示动作。

提示工程（prompt engineering）：给 AI 的开头话术里塞几个示范，让它模仿格式。

闭环 vs 开环：闭环 = 做一步看一眼、再决定下一步；开环 = 一口气把计划列完不管中间。SayCan 是"每一步开始时看一眼"，没看做完一步成不成功。

仿真到真实（sim-to-real）：先让机器人在电脑里的虚拟环境练，再搬到现实——像考前模拟卷再上真考场。

所以这一节是想说：上面这些词以后再看到不用慌，你都见过了。

它有什么搞不定的

下面这些是用户实际会撞上的坑：

菜单外的事一概不会
- 你说"帮我打开微波炉"，但菜单里没有"open microwave"——它直接放弃，不会临时拼凑。
做到一半失败它不知道
- 抓海绵手滑掉了，它继续走去桌子假装擦——表演完整流程，桌子还是脏的。
- 因为它只在每一步开始时看一眼，不在动作中途回头确认。
手工调参是软肋
- 换个新厨房，工程师得重调阈值，否则分数全偏移。
"不要 X"这种否定容易出错
- 你说"给我点不含咖啡因的"，它可能直接给你咖啡——因为 AI 在打分时反而把"咖啡"那项的分推高了（因为整句里出现了"咖啡因"三个字）。
- 论文用了一个补丁叫"思维链"（让 AI 先解释再打分）来缓解。
长程任务容易提前 done
- 让它带饮料和零食，它带完饮料就觉得任务完成、输出 done。65% 的失败属于这一类。

思维链（Chain-of-Thought, CoT）：让 AI 在给出答案前先写一段"为什么"的推理。和数学题写过程不只写答案，是一回事。

所以这一节是想说：方法不是万能的，菜单、闭环、调参、否定、长程都是它的软肋。

它和别的几篇是什么关系

可以画成一条时间线：

2022.1   Huang et al. "Language Models as Zero-Shot Planners"  ← 前传，没加 affordance
2022.4   SayCan（本篇）                                          ← 加了 affordance 乘法
2022.7   Inner Monologue                                       ← 续作 v1.5：加闭环反馈
2022.9   Code as Policies                                      ← 表亲：让 AI 输出代码
2023.3   PaLM-E                                                ← 表亲：把图像直接喂进 AI
2023.7   RT-2                                                  ← 反命题：端到端，省掉 SayCan 的两段式

用集合的画法：

会"想"但不一定会"做"：路 A 的 AI 规划，包括 Huang 2022。
会"做"但不会"想"：路 B 的纯机器人控制。
想 ∩ 做 = SayCan + 后续所有作品所在的圈子。

端到端（end-to-end）：一个大模型直接吃图 + 文字，吐出动作；中间没有"先 plan 再做"。SayCan 不是端到端，RT-2 是。

所以这一节是想说：SayCan 是"想 + 做"路线的开山作，后面的论文都是它的衍生。

我建议这样读这篇

时间不多的话，按这条 5 步路线读，大约 90 分钟：

30 秒：先看摘要 + 第 1 页那张"洒了可乐"的图，理解要解决什么。
5 分钟：跳到 Algorithm 1（伪代码）和 Figure 3（流程图）——核心就是个 while 循环 + 概率乘法，看完已经懂 70%。
15 分钟：回头读第 3 节"SayCan"主体，重点是公式 Say × Can，不要被符号吓退。
15 分钟：跳到第 5.1 节看实验数字，确认"去掉 Can 掉 17%、换弱 AI 掉 14%"这两个对比。
可跳过：第 2 节 RL 数学背景、第 4 节网络架构细节、附录全部（除非你要复现）。

如果你只有 30 分钟：摘要 → Algorithm 1 → 实验表格，就够你跟人对话了。

所以这一节是想说：核心就一个公式 + 一个 while 循环，剩下的是工程细节。

一些好奇心问答（FAQ）

Q1：这个 AI 模型多大？我家电脑跑得动吗？

论文里用了一个超大 AI（参数极多，闭源，普通人用不到）。
但作者也证明：换小一点的 AI，效果会下降到 38%，还能用。
想自己玩，可以用网上免费的中型 AI 替代，普通游戏显卡就能跑。

Q2：训练数据从哪来？

人戴 VR 头盔、拿摇杆，遥控 10 台机器人收了 11 个月，共 68000 条演示。
这部分没有公开——普通团队没钱复现。
论文同时给了一个简化的桌面玩具版本，能在网页上跑。

Q3：代码开源吗？

完整版没开源。
项目主页 say-can.github.io 上有个简化的网页 Demo，截至 2024 年还能跑。

Q4：跑一次多久？

每一步都得给菜单上 551 道菜各打一次分——长程任务（10 步左右）一次决策可能要十几秒到分钟级。
这是一个性能瓶颈，后续的 RT-2 200 毫秒就能动。

Q5：为什么不直接让 AI 看图说话？

这就是后来的 PaLM-E 和 RT-2 在做的事——把视觉直接接进 AI。
SayCan 当时还没这种"多模态 AI"，所以采用了"AI 出嘴 + 单独视觉打分"的折中方案。

Q6：为什么 Say 和 Can 要相乘，不是相加？

相乘的物理含义是"两个独立条件同时成立的概率"。
类比：你周末出门 = "天气好" × "有空"。两个都得真，缺一不可。相加就变成"两个加权打分"，会出现一边特别低也能压住。

Q7：如果菜单上没有合适的动作，会发生什么？

所有动作得分都低，但最高分还是会被选上——所以可能选了个不太对的动作硬上。
论文没有"放弃 / 求助人类"机制；后续的 Inner Monologue 加上了。

Q8：这论文影响有多大？

它是"AI + 机器人"领域的拐点之一。
论文出来 18 个月后，谷歌就推出了 RT-2、PaLM-E。
你今天刷到的"端到端机器人 demo 视频"，思想上都能追到这篇。

所以这一节是想说：方法不是即插即用，但思想已经渗透进整个领域。

如果你想再深入

前传：Huang et al. 2022 "Language Models as Zero-Shot Planners"
- 看 SayCan 为什么必须加"Can"——没加之前长啥样。
续作 v1.5：Inner Monologue
- 在 SayCan 上加"做完一步看一眼"的闭环反馈，思路清晰，是理解"如何修补 SayCan"的最佳样本。
反命题：RT-2
- 同组人 18 个月后做的端到端版本，把 SayCan 的两段式合成一个大模型。读完两篇能看清整个领域的路线之争。
变体：Code as Policies
- 让 AI 输出 Python 代码而不是自然语言步骤——理解"输出格式选择"对 AI-当-规划者多重要。
升级：PaLM-E
- 把图像直接喂进 AI，省掉 SayCan 那种单独训打分模型的步骤。

读顺序建议：

SayCan（你在这）  →  Huang 2022（前传）  →  Inner Monologue（闭环）
                                       ↘
                                         Code as Policies / PaLM-E（变体）
                                                     ↘
                                                       RT-2（端到端反命题）

所以这一节是想说：SayCan 是入门的最佳起点，后面的几篇是它的不同变奏。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_saycan_2026,
  title       = {(readable note) SayCan: Do As I Can, Not As I Say},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/saycan/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)