回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Embodied AI Reading Station Issue Nº III 2026 · Early Summer
III

A field, drawn

编辑前言

第二期我们扩到 156 篇笔记,但读起来还是密密麻麻的字。

第三期做的事,听起来简单:给每篇笔记的关键段落配图,给每段抽象的方法配类比

具体说:

  • 312 张内嵌插画 — 每篇笔记的「场景」和「方法」段后,都嵌入一张定制 codex 生成图。
    • 「场景」图用日常生活物体表达问题(拍冰箱、做菜、找路、查地图)
    • 「方法」图用抽象 pipeline 表达技术(箭头、立方体、流线)
  • 156 篇文字优化 — 每篇笔记的核心三段(场景 / 方法 / TL;DR)由 agent 重新改写:
    • 「场景」必须从一个具体的生活情景开始,不再是「这论文研究 XXX」
    • 「方法」每个子方法先用一句类比开场(厨师、翻译、抄作业)
    • 「TL;DR」≤ 50 字,去除英文术语堆叠

加起来:~270 张内嵌图 + 156 篇 ×3 段重写 + 1 个新 timeline 时间线页 + 首页 stats 仪表盘

设计哲学

这不是换皮。三件事的核心都指向同一个目标:把"读论文"这件事,重新定义为"翻一本带插画的杂志"

研究论文的设计语言是 80 年代的:黑底白字、密集排版、Times 字体、figure 1.a。它把"严肃"等同于"难读"。

我们站点的设计选择反过来:

  • 暖纸 ivory 底(不是白)
  • 罗马数字 + Playfair italic(不是阿拉伯数字 + Helvetica)
  • 编辑插画(不是 PDF 截图)
  • 「读到这里你应该懂了」节末小结(不是「remarkably」「interestingly」)

阅读门槛没降低(论文还是 NeurIPS 那篇),但读的姿势变了

时间线视图(新增)

第三期还加了一个 Timeline 演化时间线 页:把 156 篇按年份倒序排,看具身智能这五年里"先有什么、后有什么"。

打开它你会发现:

  • 2017-2020:以仿真器和早期算法为主(Habitat / RLBench / Meta-World / GAIL)
  • 2021-2022:第一波 VLM(CLIP / BLIP)和 transformer 机器人(RT-1)
  • 2023:VLA 元年(RT-2 / SayCan / PaLM-E / OpenVLA)和扩散策略(Diffusion Policy)
  • 2024-2025:基础模型化(π0 / GR-2 / Cosmos)和评测体系成熟(DROID / BEHAVIOR-1K)

这不是预测——是已经发生的、在 156 篇笔记里被记录下来的真实路径。


编后语

下一期可能聚焦:「VLA 入门 6 篇」精读路线「机械手 VLA 这一年的所有论文」

如果你读完这站某一篇笔记觉得"这才是入门论文该有的样子",那这份工作就值了。


◼ End of Issue Nº III.