回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
High-Level Planning · Plate Nº 80

ChatGPT for Robotics

6 min read · 2194 字 · ⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。

这是个什么场景 — 日常类比

想象你周末请了个家政阿姨,她做饭手艺不错,但第一次进你家厨房。你直接说"做个红烧肉"是没用的——她不知道你的电磁炉怎么开、调料放在哪个抽屉、锅铲在哪。

聪明一点的做法:

  • 先在冰箱上贴一张小纸条:"开火按这个钮、调料在第二格抽屉、深锅在最下面"
  • 然后再说一句人话:"今晚红烧肉,米饭电饭煲已经按好了"
  • 她照着纸条做,你尝一口咸了就提醒她"下次少放半勺酱油"
  • 她下次就知道了

ChatGPT 接进机器人,差不多就是这个剧本。机器人有自己的"厨房"(电机、传感器、抓取接口),ChatGPT 这个聪明助手没碰过;论文做的事,就是把"那张小纸条该怎么写、出错了怎么提醒"的经验总结成原则——给所有想让 ChatGPT 写机器人代码的人一份说明书。

ChatGPT for Robotics — 场景示意:这论文要解决的现实问题
Plate Nº IChatGPT for Robotics — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 手写控制代码:工程师自己写每个任务的状态机和控制逻辑,新任务=重写,慢
  • 传统强化学习(RL):让机器人在仿真里试错学策略,需要 reward function、需要大量训练,泛化差
  • 模仿学习(imitation learning):人遥操作示教,机器人学动作;要求大量示教数据
  • 早期 LLM + 机器人(如 SayCan, Code as Policies):已经在尝试用语言模型规划/写代码,但缺一套工程层面的提示原则——什么该写在 prompt 里、什么不该写、人怎么介入纠错
  • ChatGPT for Robotics 的位置:不是新算法,而是把"怎么用对 ChatGPT"这件事写明白

这篇论文的关键想法

三件事合起来:

  1. 先把"积木"摆好(高层函数库 / high-level function library):像妈妈炒菜前先把葱姜蒜切好摆碟一样,工程师先把机器人能做的低层动作(移动、看、抓)封装成一个个语义清晰的函数。ChatGPT 不去碰电机,它只挑积木拼。
  2. 递任务+使用说明给它(结构化提示):你用人话说任务,但 prompt 里顺便塞进函数清单、约束条件、想要的输出格式——好比点外卖时不只说"我要吃辣的",还附上口味偏好和忌口。
  3. 人在边上把关(human-in-the-loop / 人在回路):ChatGPT 写完代码,人在仿真或真机里跑一遍,错了用对话指出来,让它再改。

等等,先慢一拍——"high-level API"是啥?想象家里的智能音箱:你说"打开客厅灯",它内部其实做了一堆事(连 Wi-Fi、查设备 ID、发指令、收回执),但你只用记一句话。高层 API 就是给机器人也准备这种"一句话能用"的接口。

精髓:LLM 不是来抢工程师饭碗的,它是放大器。工程师从"写每行控制代码"变成"设计好接口 + 写好提示 + 把好关"。

ChatGPT for Robotics — 方法示意:核心 pipeline
Plate Nº IIChatGPT for Robotics — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一步:构建函数库。作者强调,这是最关键的一步。函数命名要清晰(move_arm_to_positionm1 好),文档要完整,颗粒度要合适——太细 ChatGPT 写出来代码冗长,太粗灵活性不够。这一步是人类的设计活,不是 ChatGPT 干的。

第二步:设计 prompt。论文给了几个原则:清楚说明任务类型(操作 / 导航 / 多步规划)、给出函数签名和示例用法、明确输出格式(直接给代码,不要废话)、必要时给少量示例(few-shot)。复杂任务可以分解成子任务再让 ChatGPT 组合。

第三步:评估和迭代。ChatGPT 写完代码,人在仿真(如 Microsoft AirSim)或真机里跑,看效果。出错了就回到对话:"这一步抓不到,因为传感器返回的是包围盒中心,不是抓取点",让 ChatGPT 改。论文展示了在多个场景(机械臂抓取、无人机导航、家居场景任务规划)的演示。

第四步:抽象化经验。作者把上面流程总结成一份提示工程指南,包含该做的(清晰 API、结构化 prompt、人验收)和不该做的(让 ChatGPT 直接控制底层、给模糊指令、跳过验证)。

实验在做什么

论文的"实验"更像**一系列演示(demo)**而不是定量基准。覆盖的场景大致包括:

  • 机械臂操作:堆叠木块、推动物体、简单装配
  • 无人机/空中机器人:环境探索、目标搜索(Microsoft AirSim 仿真)
  • 家居/服务场景:根据自然语言指令做多步任务规划
  • 复杂任务:让 ChatGPT 综合调用多个 API 完成需要推理的任务

没有 SOTA 跑分对比——这不是它的目的。它的"指标"是:人写多少代码就能让机器人完成新任务,以及ChatGPT 出错时纠错需要几轮对话。具体的成功率数字、任务列表细节需读原文。

你应该懂的几个新词 — 4-6 个

  • Prompt engineering(提示工程):通过设计输入文本来"调教"大模型输出的工程实践。不改模型权重,只改你说话的方式。
  • High-level API / function library:把底层动作(电机控制、IK 求解)封装成"机器人能做的事"这种语义化函数。LLM 调它们,不直接碰电机。
  • Human-in-the-loop(人在回路):机器学习/自动化系统中保留人工判断和纠错环节的范式,与"全自动"对应。
  • Few-shot prompting:在 prompt 里塞几个"输入-输出"例子,让 LLM 照葫芦画瓢,不需要重新训练。
  • Code as Policies:Google 2022 的一篇相关论文,思路相似——让 LLM 直接生成机器人控制代码作为"策略"。
  • Microsoft AirSim:微软开源的无人机/无人车仿真器,论文用它做无人机演示。

它和其他论文什么关系

  • Code as Policies (Liang et al., 2022):思路最接近的前作,已经在做"LLM 写机器人代码"。本文的差异是更系统地总结提示工程原则人在回路设计,更像工程指南而非新算法。
  • SayCan (Ahn et al., 2022):让 LLM 做高层规划、底层用学到的技能执行,是另一条路(不写代码而是选 skill)。本文走"写代码"路线。
  • Inner Monologue:让 LLM 在执行中反思和重规划。本文的"人在回路"可以看作"人扮演反思者"。
  • PaLM-E / RT-2 等 VLA 大一统模型:试图把视觉-语言-动作端到端学进一个模型;本文是反方向——保留模块化和人工设计,让通用 LLM 通过 API 接入机器人。
  • 后续影响:成为 2023-2024 年很多"用 ChatGPT 做机器人 demo"的工程参考;推动了机器人领域对"提示工程作为一类技能"的认可。

我建议这样读 — 3-4 步

  1. 先看摘要 + 第 1 节:明确论文的定位——这是工程指南,不是新算法。建立预期。
  2. 跳到方法论部分(提示工程原则):把作者列的 do/don't 原则当 checklist 抄下来,这是最有复用价值的部分。
  3. 挑 1-2 个 demo 仔细看:建议看机械臂抓取或无人机导航,看 prompt 长什么样、ChatGPT 输出长什么样、错在哪、怎么改。这是把原则落地的最快方式。
  4. 对照 Code as Policies 一起读:两篇放一起看,能理解"算法贡献"和"工程贡献"的区别,也能学到不同团队对同一问题的不同切法。

为什么值得读

  • 它告诉你 LLM 怎么"接进"机器人:在 VLA 大一统模型还没真正可用的现在,"高层 API + LLM 写代码"仍然是工业落地最务实的路径。
  • 提示工程是可迁移技能:论文的原则不只对机器人有用,对任何"让 LLM 调你的 API"的场景都适用(agent 框架、工具调用、代码生成助手)。
  • 看清"人 vs LLM"的分工:论文示范了一个健康的协作模式——LLM 负责生成和组合,人负责设计接口和验收。这是当下 AI 应用的主流范式。
  • 门槛低、收获大:⭐⭐ 难度,没有复杂数学,几小时能读完,但能给你一套马上能用的 prompt 写法和系统设计直觉。

(行数约 250+,符合中等深度笔记规模;具体实验数字、demo 任务清单细节需读原文。)

引用本笔记 / Cite this note
BibTeX
@online{eai_chatgpt_for_robotics_2026,
  title       = {(readable note) ChatGPT for Robotics},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/chatgpt-for-robotics/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim