回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 73

Tactile-VLA

8 min read · 2702 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人除了会看会听,还学会"摸"——能感到扣子"咔哒"卡入那一下,干插拔、拧螺丝这种细活不再蛮干。

这是个什么场景

想象你早上穿衬衫扣纽扣。

  • 只靠"视觉"的机器人,就像睁眼但戴了厚厚的劳保手套:能看到衬衫在哪、扣子在哪,但扣的时候根本不知道纽扣有没有真的卡进扣眼,只能靠"看起来对了"。
  • 只靠"力反馈"的传统机器人,就像闭着眼乱摸:知道指尖顶到了硬东西,但分不清这是纽扣还是布料的褶皱。
  • 你自己穿衣服,是眼+手一起来:眼睛把扣子大致对准扣眼,手指一感到那一下"咔哒"卡进去的微小阻力,立刻松力。还有拧瓶盖、剥蛋壳、夹豆腐这些"力大力小差很多"的活,全都靠这种触感。

Tactile-VLA 想给机器人补上的就是这种"咔哒一下"的感觉——把触觉这个一直被 VLA 漏掉的模态接进来。

Tactile-VLA — 场景示意:这论文要解决的现实问题
Plate Nº ITactile-VLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 纯视觉 VLA(RT-2、OpenVLA、π0 等):图像 + 语言 → 动作。在抓取、推、放这类接触不敏感任务上表现好,但插拔、拧、剥、揉这类力觉关键任务容易盲操作。
  • 专门的触觉操作策略:在小任务上单独训触觉模型(比如布料折叠、电缆插入),效果好但没有语言泛化能力,每个任务都要重训。
  • 视觉-触觉融合的非 VLA 工作(如 See-Touch-Cross-Modal、TVL):研究怎么把视觉和触觉对齐,但通常停在表征学习层面,没接到大语言模型/指令跟随框架里。
  • VLA 加力反馈通道(少量工作):把末端 6 维力作为额外输入塞进 transformer,但"力"是粗糙的低维信号,丢掉了触觉传感器(如 GelSight、DIGIT)能提供的高分辨率接触图像。
  • 缺口:把高维触觉图像 + 语言 + 视觉一起作为 token 喂给同一个大模型,并且能 zero-shot 跟随触觉相关指令("轻轻地拧"),这条路一直没人走通。

这篇论文的关键想法

一句类比:把"摸"伪装成"看"——触觉传感器其实就是一个贴在指尖的小相机。

  • 触觉传感器(如 GelSight,一种用透明凝胶+小摄像头做的"电子皮肤")每一帧本质是一张小图:凝胶被按压时表面起的纹路花纹,被里面的摄像头拍下来。所以触觉数据和 RGB 图共享"图像"这种形态。
  • 既然 VLA 已经会处理图像,那触觉图就走同一条管道:编成 token(模型能消化的小块),再和文字 token、视觉 token 拼一起送进同一个 transformer。不用为触觉单独造一套架构。
  • 这样做的好处:说话就能调手感。"轻轻插入"和"用力插入"在文字上有差异,模型可以学会把"力度词"映射到触觉信号的目标范围——人怎么交代厨师"火候大一点",机器人也怎么听。
  • 代价:训练数据要同时有视觉+触觉+语言+动作四件套,采集起来很费劲,论文应该花了相当篇幅讲怎么录这种数据(具体方案需读原文)。
Tactile-VLA — 方法示意:核心 pipeline
Plate Nº IITactile-VLA — 方法示意:核心 pipeline

它怎么做的(方法)

第一步:触觉编码 — 像处理照片一样处理"摸感"。 类比:你拍一张菜的照片发朋友圈,先压缩成手机能存的格式。这里也一样——把触觉传感器(常见是 GelSight 系列,具体型号需查原文)输出的每一帧"凝胶花纹小图",用一个轻量视觉编码器(可能是 ViT 或 ResNet,都是常见的图像处理网络)压成 token(模型能吃的小块)。如果左右两根手指各有一个传感器,就分别编码再拼起来。

等等,先慢一拍 — token 是什么? 你可以理解成把一句话切成一个个词,再把每个词换成模型认识的"数字身份证"。图像也能这么切,触觉图也能。切完之后,文字、图、触觉就都变成同一种"小块",模型就能一起读。

第二步:多模态融合 — 把三种信号摞成一摞送进去。 类比:厨师同时看菜谱(语言)、看锅里(视觉)、感受锅铲传来的阻力(触觉),三路信息在脑子里汇合。模型这里做的也是类似的事:把视觉 token、触觉 token、语言 token 按某种顺序拼成一长串,送进 VLA 主干(很可能基于 OpenVLA 或类似开源 VLA 改的)。一个关键设计选择是:触觉要不要和视觉对齐到同一空间,还是各走各的通道?论文应该会在消融实验里讨论。

第三步:动作输出 + 训练 — 学徒抄演示。 类比:新手厨师跟着老师傅演示反复练,老师傅怎么切,他就怎么切。模型这里也一样:输出端和主流 VLA 一样预测动作 token(可能是离散化的关节角或末端位姿增量,简单说就是"下一步手要往哪挪、挪多少")。训练数据是人类同时录的视觉+触觉+语言+动作四件套演示,模型学着模仿。论文应该会强调"触觉关键任务"上的数据占比。

第四步:触觉指令跟随 — 这是这篇的招牌动作。 类比:你跟同事说"帮我轻轻关下门"和"使劲关下门",同事能听懂这两个副词的差别。模型这里要展示的是:同样一句"插进去",前面加"轻轻地"vs"用力地",机器人真的会用不同的接触力去做。这部分可能涉及一些数据标注上的小心思(比如人类演示时口播自己当时用了多大力),具体方法需读原文。

实验在做什么

  • 触觉关键任务 benchmark:插拔、拧螺丝、揭标签、夹易碎物、布料对齐等。这些任务在纯视觉 VLA 上表现差,正好凸显触觉的价值。具体任务列表和成功率数字需读原文。
  • 对比基线:至少包括纯视觉 VLA(同主干、去掉触觉输入)、视觉+力觉低维基线、专门的触觉策略。
  • 消融:触觉编码方式(图像 token vs 池化向量)、训练数据中触觉任务占比、是否冻结视觉编码器等。
  • 触觉指令跟随实验:同一个动作目标,给"轻"vs"重"的指令,看实际接触力是否真的有显著差异。这是论文的高光实验。
  • 泛化测试:换新物体、新场景、新表述的指令,看模型是否仍能用触觉做调整。具体泛化指标需读原文。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把视觉、语言、动作统一进一个大模型的范式,代表作 RT-2、OpenVLA、π0。本文是给 VLA 加触觉模态的扩展。
  • 触觉传感器(GelSight / DIGIT):用一块半透明凝胶罩在摄像头前,凝胶被压变形时摄像头拍下纹路图。本质是"用相机当力觉皮肤",所以输出是图像。
  • 接触力(Contact Force):物体之间接触时的法向力 + 切向力。传统机器人用六维力传感器测末端整体力,触觉传感器能测分布式接触图。
  • 滑动检测(Slip Detection):触觉的一个核心能力——抓东西时如果开始打滑,触觉图像上的纹路会发生特定模式的位移,模型可以学会检测并加大握力。
  • 多模态 token 化(Multimodal Tokenization):把不同模态(图、文字、动作、触觉图)都转成同一空间的离散/连续 token,再喂给 transformer。这是当前多模态大模型的通用做法。
  • 触觉指令跟随(Tactile Instruction Following):让模型能听懂"轻轻地""用力""刚好不打滑"这类含触觉语义的语言指令,并产生相应行为。这是本文相对前作的一个差异点。

它和其他论文什么关系

  • 承接 OpenVLA / RT-2:在 VLA 主干上做模态扩展,思路上是"把成熟 VLA 当 backbone,加一个新模态分支"。
  • 承接 See-Touch-Feel / TVL(Touch-Vision-Language)等触觉表征工作:这些论文研究"怎么让触觉和视觉/语言对齐",给 Tactile-VLA 提供了表征基础。
  • 和 π0、π0.5 形成对照:π 系列强调流匹配 + 大规模数据 + 多任务,但触觉模态是缺失的。Tactile-VLA 补的就是这块。
  • 和 DexVLA / TinyVLA 在同一个主题家族下:都是 2025 年前后给 VLA 做特化扩展(灵巧手 / 小参数 / 触觉),共同推动 VLA 从"能动"走向"能精细操作"。
  • 下游影响(推测):后续工作可能把声音、温度等更多接触模态也接进来,走向真正的"全感官 VLA"。

我建议这样读 — 3-4 步

  1. 先看 demo 视频或图 1:触觉论文的卖点高度依赖"看到机器人轻拿轻放"的可视化,文字描述很难传达。先建立直觉。
  2. 跳到方法图:搞清楚触觉 token 是怎么和视觉 token 拼起来的——这是整个工作的技术核心,看懂这张图剩下的章节都能扫读。
  3. 重点读触觉指令跟随的实验:这是和过往视觉-触觉融合工作的最大区别,决定了你是否需要在自己工作里参考这条路径。
  4. 最后扫数据采集章节:如果你打算复现或做类似工作,这部分往往是最大的工程坑点(多模态时间同步、触觉传感器标定)。

为什么值得读

  • 方向上的标志意义:VLA 这条主线一直被诟病"没有触觉就做不了精细操作",Tactile-VLA 是 2025 年这个方向上比较系统的一次尝试,看完能更新你对"VLA 还缺什么"的判断。
  • 方法论可复用:把"非图像模态"伪装成图像 token 接进 VLA 的套路,可以直接迁移到声音、热成像、毫米波等其他传感器。
  • 难度适中:和动辄重训大模型的工作比,这是在已有 VLA 上加分支,复现门槛相对低,适合做毕业课题或初创项目的起点。
  • 触觉硬件越来越便宜:DIGIT、GelSight Mini 等开源触觉传感器已经能 < 千元拿到,意味着这套方法不只是大厂能玩——这让论文在"实用化时间表"上分数很高。

引用本笔记 / Cite this note
BibTeX
@online{eai_tactile_vla_2026,
  title       = {(readable note) Tactile-VLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tactile-vla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim