Multimodal Ecology · Plate Nº 73

Tactile-VLA

8 min read · 2702 字 · ⭐⭐⭐⭐ · 短摘要

#transformer #language #vision #tactile #imitation #VLA

Featured in Issue Nº VI

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让机器人除了会看会听，还学会"摸"——能感到扣子"咔哒"卡入那一下，干插拔、拧螺丝这种细活不再蛮干。

这是个什么场景

想象你早上穿衬衫扣纽扣。

只靠"视觉"的机器人，就像睁眼但戴了厚厚的劳保手套：能看到衬衫在哪、扣子在哪，但扣的时候根本不知道纽扣有没有真的卡进扣眼，只能靠"看起来对了"。
只靠"力反馈"的传统机器人，就像闭着眼乱摸：知道指尖顶到了硬东西，但分不清这是纽扣还是布料的褶皱。
你自己穿衣服，是眼+手一起来：眼睛把扣子大致对准扣眼，手指一感到那一下"咔哒"卡进去的微小阻力，立刻松力。还有拧瓶盖、剥蛋壳、夹豆腐这些"力大力小差很多"的活，全都靠这种触感。

Tactile-VLA 想给机器人补上的就是这种"咔哒一下"的感觉——把触觉这个一直被 VLA 漏掉的模态接进来。

Plate Nº ITactile-VLA — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

纯视觉 VLA（RT-2、OpenVLA、π0 等）：图像 + 语言 → 动作。在抓取、推、放这类接触不敏感任务上表现好，但插拔、拧、剥、揉这类力觉关键任务容易盲操作。
专门的触觉操作策略：在小任务上单独训触觉模型（比如布料折叠、电缆插入），效果好但没有语言泛化能力，每个任务都要重训。
视觉-触觉融合的非 VLA 工作（如 See-Touch-Cross-Modal、TVL）：研究怎么把视觉和触觉对齐，但通常停在表征学习层面，没接到大语言模型/指令跟随框架里。
VLA 加力反馈通道（少量工作）：把末端 6 维力作为额外输入塞进 transformer，但"力"是粗糙的低维信号，丢掉了触觉传感器（如 GelSight、DIGIT）能提供的高分辨率接触图像。
缺口：把高维触觉图像 + 语言 + 视觉一起作为 token 喂给同一个大模型，并且能 zero-shot 跟随触觉相关指令（"轻轻地拧"），这条路一直没人走通。

这篇论文的关键想法

一句类比：把"摸"伪装成"看"——触觉传感器其实就是一个贴在指尖的小相机。

触觉传感器（如 GelSight，一种用透明凝胶+小摄像头做的"电子皮肤"）每一帧本质是一张小图：凝胶被按压时表面起的纹路花纹，被里面的摄像头拍下来。所以触觉数据和 RGB 图共享"图像"这种形态。
既然 VLA 已经会处理图像，那触觉图就走同一条管道：编成 token（模型能消化的小块），再和文字 token、视觉 token 拼一起送进同一个 transformer。不用为触觉单独造一套架构。
这样做的好处：说话就能调手感。"轻轻插入"和"用力插入"在文字上有差异，模型可以学会把"力度词"映射到触觉信号的目标范围——人怎么交代厨师"火候大一点"，机器人也怎么听。
代价：训练数据要同时有视觉+触觉+语言+动作四件套，采集起来很费劲，论文应该花了相当篇幅讲怎么录这种数据（具体方案需读原文）。

Plate Nº IITactile-VLA — 方法示意：核心 pipeline

它怎么做的（方法）

第一步：触觉编码 — 像处理照片一样处理"摸感"。 类比：你拍一张菜的照片发朋友圈，先压缩成手机能存的格式。这里也一样——把触觉传感器（常见是 GelSight 系列，具体型号需查原文）输出的每一帧"凝胶花纹小图"，用一个轻量视觉编码器（可能是 ViT 或 ResNet，都是常见的图像处理网络）压成 token（模型能吃的小块）。如果左右两根手指各有一个传感器，就分别编码再拼起来。

等等，先慢一拍 — token 是什么？ 你可以理解成把一句话切成一个个词，再把每个词换成模型认识的"数字身份证"。图像也能这么切，触觉图也能。切完之后，文字、图、触觉就都变成同一种"小块"，模型就能一起读。

第二步：多模态融合 — 把三种信号摞成一摞送进去。 类比：厨师同时看菜谱（语言）、看锅里（视觉）、感受锅铲传来的阻力（触觉），三路信息在脑子里汇合。模型这里做的也是类似的事：把视觉 token、触觉 token、语言 token 按某种顺序拼成一长串，送进 VLA 主干（很可能基于 OpenVLA 或类似开源 VLA 改的）。一个关键设计选择是：触觉要不要和视觉对齐到同一空间，还是各走各的通道？论文应该会在消融实验里讨论。

第三步：动作输出 + 训练 — 学徒抄演示。 类比：新手厨师跟着老师傅演示反复练，老师傅怎么切，他就怎么切。模型这里也一样：输出端和主流 VLA 一样预测动作 token（可能是离散化的关节角或末端位姿增量，简单说就是"下一步手要往哪挪、挪多少"）。训练数据是人类同时录的视觉+触觉+语言+动作四件套演示，模型学着模仿。论文应该会强调"触觉关键任务"上的数据占比。

第四步：触觉指令跟随 — 这是这篇的招牌动作。 类比：你跟同事说"帮我轻轻关下门"和"使劲关下门"，同事能听懂这两个副词的差别。模型这里要展示的是：同样一句"插进去"，前面加"轻轻地"vs"用力地"，机器人真的会用不同的接触力去做。这部分可能涉及一些数据标注上的小心思（比如人类演示时口播自己当时用了多大力），具体方法需读原文。

实验在做什么

触觉关键任务 benchmark：插拔、拧螺丝、揭标签、夹易碎物、布料对齐等。这些任务在纯视觉 VLA 上表现差，正好凸显触觉的价值。具体任务列表和成功率数字需读原文。
对比基线：至少包括纯视觉 VLA（同主干、去掉触觉输入）、视觉+力觉低维基线、专门的触觉策略。
消融：触觉编码方式（图像 token vs 池化向量）、训练数据中触觉任务占比、是否冻结视觉编码器等。
触觉指令跟随实验：同一个动作目标，给"轻"vs"重"的指令，看实际接触力是否真的有显著差异。这是论文的高光实验。
泛化测试：换新物体、新场景、新表述的指令，看模型是否仍能用触觉做调整。具体泛化指标需读原文。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把视觉、语言、动作统一进一个大模型的范式，代表作 RT-2、OpenVLA、π0。本文是给 VLA 加触觉模态的扩展。
触觉传感器（GelSight / DIGIT）：用一块半透明凝胶罩在摄像头前，凝胶被压变形时摄像头拍下纹路图。本质是"用相机当力觉皮肤"，所以输出是图像。
接触力（Contact Force）：物体之间接触时的法向力 + 切向力。传统机器人用六维力传感器测末端整体力，触觉传感器能测分布式接触图。
滑动检测（Slip Detection）：触觉的一个核心能力——抓东西时如果开始打滑，触觉图像上的纹路会发生特定模式的位移，模型可以学会检测并加大握力。
多模态 token 化（Multimodal Tokenization）：把不同模态（图、文字、动作、触觉图）都转成同一空间的离散/连续 token，再喂给 transformer。这是当前多模态大模型的通用做法。
触觉指令跟随（Tactile Instruction Following）：让模型能听懂"轻轻地""用力""刚好不打滑"这类含触觉语义的语言指令，并产生相应行为。这是本文相对前作的一个差异点。

它和其他论文什么关系

承接 OpenVLA / RT-2：在 VLA 主干上做模态扩展，思路上是"把成熟 VLA 当 backbone，加一个新模态分支"。
承接 See-Touch-Feel / TVL（Touch-Vision-Language）等触觉表征工作：这些论文研究"怎么让触觉和视觉/语言对齐"，给 Tactile-VLA 提供了表征基础。
和 π0、π0.5 形成对照：π 系列强调流匹配 + 大规模数据 + 多任务，但触觉模态是缺失的。Tactile-VLA 补的就是这块。
和 DexVLA / TinyVLA 在同一个主题家族下：都是 2025 年前后给 VLA 做特化扩展（灵巧手 / 小参数 / 触觉），共同推动 VLA 从"能动"走向"能精细操作"。
下游影响（推测）：后续工作可能把声音、温度等更多接触模态也接进来，走向真正的"全感官 VLA"。

我建议这样读 — 3-4 步

先看 demo 视频或图 1：触觉论文的卖点高度依赖"看到机器人轻拿轻放"的可视化，文字描述很难传达。先建立直觉。
跳到方法图：搞清楚触觉 token 是怎么和视觉 token 拼起来的——这是整个工作的技术核心，看懂这张图剩下的章节都能扫读。
重点读触觉指令跟随的实验：这是和过往视觉-触觉融合工作的最大区别，决定了你是否需要在自己工作里参考这条路径。
最后扫数据采集章节：如果你打算复现或做类似工作，这部分往往是最大的工程坑点（多模态时间同步、触觉传感器标定）。

为什么值得读

方向上的标志意义：VLA 这条主线一直被诟病"没有触觉就做不了精细操作"，Tactile-VLA 是 2025 年这个方向上比较系统的一次尝试，看完能更新你对"VLA 还缺什么"的判断。
方法论可复用：把"非图像模态"伪装成图像 token 接进 VLA 的套路，可以直接迁移到声音、热成像、毫米波等其他传感器。
难度适中：和动辄重训大模型的工作比，这是在已有 VLA 上加分支，复现门槛相对低，适合做毕业课题或初创项目的起点。
触觉硬件越来越便宜：DIGIT、GelSight Mini 等开源触觉传感器已经能 < 千元拿到，意味着这套方法不只是大厂能玩——这让论文在"实用化时间表"上分数很高。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_tactile_vla_2026,
  title       = {(readable note) Tactile-VLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tactile-vla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)