High-Level Planning · Plate Nº 80

ChatGPT for Robotics

6 min read · 2194 字 · ⭐⭐ · 短摘要

#language #RL #imitation #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

教 ChatGPT 当机器人的"代写助理"：先告诉它机器人会做哪些事，再让它把人话翻成代码，人盯着改。

这是个什么场景 — 日常类比

想象你周末请了个家政阿姨，她做饭手艺不错，但第一次进你家厨房。你直接说"做个红烧肉"是没用的——她不知道你的电磁炉怎么开、调料放在哪个抽屉、锅铲在哪。

聪明一点的做法：

先在冰箱上贴一张小纸条："开火按这个钮、调料在第二格抽屉、深锅在最下面"
然后再说一句人话："今晚红烧肉，米饭电饭煲已经按好了"
她照着纸条做，你尝一口咸了就提醒她"下次少放半勺酱油"
她下次就知道了

ChatGPT 接进机器人，差不多就是这个剧本。机器人有自己的"厨房"（电机、传感器、抓取接口），ChatGPT 这个聪明助手没碰过；论文做的事，就是把"那张小纸条该怎么写、出错了怎么提醒"的经验总结成原则——给所有想让 ChatGPT 写机器人代码的人一份说明书。

Plate Nº IChatGPT for Robotics — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

手写控制代码：工程师自己写每个任务的状态机和控制逻辑，新任务=重写，慢
传统强化学习（RL）：让机器人在仿真里试错学策略，需要 reward function、需要大量训练，泛化差
模仿学习（imitation learning）：人遥操作示教，机器人学动作；要求大量示教数据
早期 LLM + 机器人（如 SayCan, Code as Policies）：已经在尝试用语言模型规划/写代码，但缺一套工程层面的提示原则——什么该写在 prompt 里、什么不该写、人怎么介入纠错
ChatGPT for Robotics 的位置：不是新算法，而是把"怎么用对 ChatGPT"这件事写明白

这篇论文的关键想法

三件事合起来：

先把"积木"摆好（高层函数库 / high-level function library）：像妈妈炒菜前先把葱姜蒜切好摆碟一样，工程师先把机器人能做的低层动作（移动、看、抓）封装成一个个语义清晰的函数。ChatGPT 不去碰电机，它只挑积木拼。
递任务+使用说明给它（结构化提示）：你用人话说任务，但 prompt 里顺便塞进函数清单、约束条件、想要的输出格式——好比点外卖时不只说"我要吃辣的"，还附上口味偏好和忌口。
人在边上把关（human-in-the-loop / 人在回路）：ChatGPT 写完代码，人在仿真或真机里跑一遍，错了用对话指出来，让它再改。

等等，先慢一拍——"high-level API"是啥？想象家里的智能音箱：你说"打开客厅灯"，它内部其实做了一堆事（连 Wi-Fi、查设备 ID、发指令、收回执），但你只用记一句话。高层 API 就是给机器人也准备这种"一句话能用"的接口。

精髓：LLM 不是来抢工程师饭碗的，它是放大器。工程师从"写每行控制代码"变成"设计好接口 + 写好提示 + 把好关"。

Plate Nº IIChatGPT for Robotics — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

第一步：构建函数库。作者强调，这是最关键的一步。函数命名要清晰（move_arm_to_position 比 m1 好），文档要完整，颗粒度要合适——太细 ChatGPT 写出来代码冗长，太粗灵活性不够。这一步是人类的设计活，不是 ChatGPT 干的。

第二步：设计 prompt。论文给了几个原则：清楚说明任务类型（操作 / 导航 / 多步规划）、给出函数签名和示例用法、明确输出格式（直接给代码，不要废话）、必要时给少量示例（few-shot）。复杂任务可以分解成子任务再让 ChatGPT 组合。

第三步：评估和迭代。ChatGPT 写完代码，人在仿真（如 Microsoft AirSim）或真机里跑，看效果。出错了就回到对话："这一步抓不到，因为传感器返回的是包围盒中心，不是抓取点"，让 ChatGPT 改。论文展示了在多个场景（机械臂抓取、无人机导航、家居场景任务规划）的演示。

第四步：抽象化经验。作者把上面流程总结成一份提示工程指南，包含该做的（清晰 API、结构化 prompt、人验收）和不该做的（让 ChatGPT 直接控制底层、给模糊指令、跳过验证）。

实验在做什么

论文的"实验"更像**一系列演示（demo）**而不是定量基准。覆盖的场景大致包括：

机械臂操作：堆叠木块、推动物体、简单装配
无人机/空中机器人：环境探索、目标搜索（Microsoft AirSim 仿真）
家居/服务场景：根据自然语言指令做多步任务规划
复杂任务：让 ChatGPT 综合调用多个 API 完成需要推理的任务

没有 SOTA 跑分对比——这不是它的目的。它的"指标"是：人写多少代码就能让机器人完成新任务，以及ChatGPT 出错时纠错需要几轮对话。具体的成功率数字、任务列表细节需读原文。

你应该懂的几个新词 — 4-6 个

Prompt engineering（提示工程）：通过设计输入文本来"调教"大模型输出的工程实践。不改模型权重，只改你说话的方式。
High-level API / function library：把底层动作（电机控制、IK 求解）封装成"机器人能做的事"这种语义化函数。LLM 调它们，不直接碰电机。
Human-in-the-loop（人在回路）：机器学习/自动化系统中保留人工判断和纠错环节的范式，与"全自动"对应。
Few-shot prompting：在 prompt 里塞几个"输入-输出"例子，让 LLM 照葫芦画瓢，不需要重新训练。
Code as Policies：Google 2022 的一篇相关论文，思路相似——让 LLM 直接生成机器人控制代码作为"策略"。
Microsoft AirSim：微软开源的无人机/无人车仿真器，论文用它做无人机演示。

它和其他论文什么关系

Code as Policies (Liang et al., 2022)：思路最接近的前作，已经在做"LLM 写机器人代码"。本文的差异是更系统地总结提示工程原则和人在回路设计，更像工程指南而非新算法。
SayCan (Ahn et al., 2022)：让 LLM 做高层规划、底层用学到的技能执行，是另一条路（不写代码而是选 skill）。本文走"写代码"路线。
Inner Monologue：让 LLM 在执行中反思和重规划。本文的"人在回路"可以看作"人扮演反思者"。
PaLM-E / RT-2 等 VLA 大一统模型：试图把视觉-语言-动作端到端学进一个模型；本文是反方向——保留模块化和人工设计，让通用 LLM 通过 API 接入机器人。
后续影响：成为 2023-2024 年很多"用 ChatGPT 做机器人 demo"的工程参考；推动了机器人领域对"提示工程作为一类技能"的认可。

我建议这样读 — 3-4 步

先看摘要 + 第 1 节：明确论文的定位——这是工程指南，不是新算法。建立预期。
跳到方法论部分（提示工程原则）：把作者列的 do/don't 原则当 checklist 抄下来，这是最有复用价值的部分。
挑 1-2 个 demo 仔细看：建议看机械臂抓取或无人机导航，看 prompt 长什么样、ChatGPT 输出长什么样、错在哪、怎么改。这是把原则落地的最快方式。
对照 Code as Policies 一起读：两篇放一起看，能理解"算法贡献"和"工程贡献"的区别，也能学到不同团队对同一问题的不同切法。

为什么值得读

它告诉你 LLM 怎么"接进"机器人：在 VLA 大一统模型还没真正可用的现在，"高层 API + LLM 写代码"仍然是工业落地最务实的路径。
提示工程是可迁移技能：论文的原则不只对机器人有用，对任何"让 LLM 调你的 API"的场景都适用（agent 框架、工具调用、代码生成助手）。
看清"人 vs LLM"的分工：论文示范了一个健康的协作模式——LLM 负责生成和组合，人负责设计接口和验收。这是当下 AI 应用的主流范式。
门槛低、收获大：⭐⭐ 难度，没有复杂数学，几小时能读完，但能给你一套马上能用的 prompt 写法和系统设计直觉。

（行数约 250+，符合中等深度笔记规模；具体实验数字、demo 任务清单细节需读原文。）

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_chatgpt_for_robotics_2026,
  title       = {(readable note) ChatGPT for Robotics},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/chatgpt-for-robotics/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)