Tactile-VLA
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
让机器人除了会看会听,还学会"摸"——能感到扣子"咔哒"卡入那一下,干插拔、拧螺丝这种细活不再蛮干。
这是个什么场景
想象你早上穿衬衫扣纽扣。
- 只靠"视觉"的机器人,就像睁眼但戴了厚厚的劳保手套:能看到衬衫在哪、扣子在哪,但扣的时候根本不知道纽扣有没有真的卡进扣眼,只能靠"看起来对了"。
- 只靠"力反馈"的传统机器人,就像闭着眼乱摸:知道指尖顶到了硬东西,但分不清这是纽扣还是布料的褶皱。
- 你自己穿衣服,是眼+手一起来:眼睛把扣子大致对准扣眼,手指一感到那一下"咔哒"卡进去的微小阻力,立刻松力。还有拧瓶盖、剥蛋壳、夹豆腐这些"力大力小差很多"的活,全都靠这种触感。
Tactile-VLA 想给机器人补上的就是这种"咔哒一下"的感觉——把触觉这个一直被 VLA 漏掉的模态接进来。

之前的人怎么做的 — 3-5 bullet
- 纯视觉 VLA(RT-2、OpenVLA、π0 等):图像 + 语言 → 动作。在抓取、推、放这类接触不敏感任务上表现好,但插拔、拧、剥、揉这类力觉关键任务容易盲操作。
- 专门的触觉操作策略:在小任务上单独训触觉模型(比如布料折叠、电缆插入),效果好但没有语言泛化能力,每个任务都要重训。
- 视觉-触觉融合的非 VLA 工作(如 See-Touch-Cross-Modal、TVL):研究怎么把视觉和触觉对齐,但通常停在表征学习层面,没接到大语言模型/指令跟随框架里。
- VLA 加力反馈通道(少量工作):把末端 6 维力作为额外输入塞进 transformer,但"力"是粗糙的低维信号,丢掉了触觉传感器(如 GelSight、DIGIT)能提供的高分辨率接触图像。
- 缺口:把高维触觉图像 + 语言 + 视觉一起作为 token 喂给同一个大模型,并且能 zero-shot 跟随触觉相关指令("轻轻地拧"),这条路一直没人走通。
这篇论文的关键想法
一句类比:把"摸"伪装成"看"——触觉传感器其实就是一个贴在指尖的小相机。
- 触觉传感器(如 GelSight,一种用透明凝胶+小摄像头做的"电子皮肤")每一帧本质是一张小图:凝胶被按压时表面起的纹路花纹,被里面的摄像头拍下来。所以触觉数据和 RGB 图共享"图像"这种形态。
- 既然 VLA 已经会处理图像,那触觉图就走同一条管道:编成 token(模型能消化的小块),再和文字 token、视觉 token 拼一起送进同一个 transformer。不用为触觉单独造一套架构。
- 这样做的好处:说话就能调手感。"轻轻插入"和"用力插入"在文字上有差异,模型可以学会把"力度词"映射到触觉信号的目标范围——人怎么交代厨师"火候大一点",机器人也怎么听。
- 代价:训练数据要同时有视觉+触觉+语言+动作四件套,采集起来很费劲,论文应该花了相当篇幅讲怎么录这种数据(具体方案需读原文)。

它怎么做的(方法)
第一步:触觉编码 — 像处理照片一样处理"摸感"。 类比:你拍一张菜的照片发朋友圈,先压缩成手机能存的格式。这里也一样——把触觉传感器(常见是 GelSight 系列,具体型号需查原文)输出的每一帧"凝胶花纹小图",用一个轻量视觉编码器(可能是 ViT 或 ResNet,都是常见的图像处理网络)压成 token(模型能吃的小块)。如果左右两根手指各有一个传感器,就分别编码再拼起来。
等等,先慢一拍 — token 是什么? 你可以理解成把一句话切成一个个词,再把每个词换成模型认识的"数字身份证"。图像也能这么切,触觉图也能。切完之后,文字、图、触觉就都变成同一种"小块",模型就能一起读。
第二步:多模态融合 — 把三种信号摞成一摞送进去。 类比:厨师同时看菜谱(语言)、看锅里(视觉)、感受锅铲传来的阻力(触觉),三路信息在脑子里汇合。模型这里做的也是类似的事:把视觉 token、触觉 token、语言 token 按某种顺序拼成一长串,送进 VLA 主干(很可能基于 OpenVLA 或类似开源 VLA 改的)。一个关键设计选择是:触觉要不要和视觉对齐到同一空间,还是各走各的通道?论文应该会在消融实验里讨论。
第三步:动作输出 + 训练 — 学徒抄演示。 类比:新手厨师跟着老师傅演示反复练,老师傅怎么切,他就怎么切。模型这里也一样:输出端和主流 VLA 一样预测动作 token(可能是离散化的关节角或末端位姿增量,简单说就是"下一步手要往哪挪、挪多少")。训练数据是人类同时录的视觉+触觉+语言+动作四件套演示,模型学着模仿。论文应该会强调"触觉关键任务"上的数据占比。
第四步:触觉指令跟随 — 这是这篇的招牌动作。 类比:你跟同事说"帮我轻轻关下门"和"使劲关下门",同事能听懂这两个副词的差别。模型这里要展示的是:同样一句"插进去",前面加"轻轻地"vs"用力地",机器人真的会用不同的接触力去做。这部分可能涉及一些数据标注上的小心思(比如人类演示时口播自己当时用了多大力),具体方法需读原文。
实验在做什么
- 触觉关键任务 benchmark:插拔、拧螺丝、揭标签、夹易碎物、布料对齐等。这些任务在纯视觉 VLA 上表现差,正好凸显触觉的价值。具体任务列表和成功率数字需读原文。
- 对比基线:至少包括纯视觉 VLA(同主干、去掉触觉输入)、视觉+力觉低维基线、专门的触觉策略。
- 消融:触觉编码方式(图像 token vs 池化向量)、训练数据中触觉任务占比、是否冻结视觉编码器等。
- 触觉指令跟随实验:同一个动作目标,给"轻"vs"重"的指令,看实际接触力是否真的有显著差异。这是论文的高光实验。
- 泛化测试:换新物体、新场景、新表述的指令,看模型是否仍能用触觉做调整。具体泛化指标需读原文。
你应该懂的几个新词 — 4-6 个
- VLA(Vision-Language-Action):把视觉、语言、动作统一进一个大模型的范式,代表作 RT-2、OpenVLA、π0。本文是给 VLA 加触觉模态的扩展。
- 触觉传感器(GelSight / DIGIT):用一块半透明凝胶罩在摄像头前,凝胶被压变形时摄像头拍下纹路图。本质是"用相机当力觉皮肤",所以输出是图像。
- 接触力(Contact Force):物体之间接触时的法向力 + 切向力。传统机器人用六维力传感器测末端整体力,触觉传感器能测分布式接触图。
- 滑动检测(Slip Detection):触觉的一个核心能力——抓东西时如果开始打滑,触觉图像上的纹路会发生特定模式的位移,模型可以学会检测并加大握力。
- 多模态 token 化(Multimodal Tokenization):把不同模态(图、文字、动作、触觉图)都转成同一空间的离散/连续 token,再喂给 transformer。这是当前多模态大模型的通用做法。
- 触觉指令跟随(Tactile Instruction Following):让模型能听懂"轻轻地""用力""刚好不打滑"这类含触觉语义的语言指令,并产生相应行为。这是本文相对前作的一个差异点。
它和其他论文什么关系
- 承接 OpenVLA / RT-2:在 VLA 主干上做模态扩展,思路上是"把成熟 VLA 当 backbone,加一个新模态分支"。
- 承接 See-Touch-Feel / TVL(Touch-Vision-Language)等触觉表征工作:这些论文研究"怎么让触觉和视觉/语言对齐",给 Tactile-VLA 提供了表征基础。
- 和 π0、π0.5 形成对照:π 系列强调流匹配 + 大规模数据 + 多任务,但触觉模态是缺失的。Tactile-VLA 补的就是这块。
- 和 DexVLA / TinyVLA 在同一个主题家族下:都是 2025 年前后给 VLA 做特化扩展(灵巧手 / 小参数 / 触觉),共同推动 VLA 从"能动"走向"能精细操作"。
- 下游影响(推测):后续工作可能把声音、温度等更多接触模态也接进来,走向真正的"全感官 VLA"。
我建议这样读 — 3-4 步
- 先看 demo 视频或图 1:触觉论文的卖点高度依赖"看到机器人轻拿轻放"的可视化,文字描述很难传达。先建立直觉。
- 跳到方法图:搞清楚触觉 token 是怎么和视觉 token 拼起来的——这是整个工作的技术核心,看懂这张图剩下的章节都能扫读。
- 重点读触觉指令跟随的实验:这是和过往视觉-触觉融合工作的最大区别,决定了你是否需要在自己工作里参考这条路径。
- 最后扫数据采集章节:如果你打算复现或做类似工作,这部分往往是最大的工程坑点(多模态时间同步、触觉传感器标定)。
为什么值得读
- 方向上的标志意义:VLA 这条主线一直被诟病"没有触觉就做不了精细操作",Tactile-VLA 是 2025 年这个方向上比较系统的一次尝试,看完能更新你对"VLA 还缺什么"的判断。
- 方法论可复用:把"非图像模态"伪装成图像 token 接进 VLA 的套路,可以直接迁移到声音、热成像、毫米波等其他传感器。
- 难度适中:和动辄重训大模型的工作比,这是在已有 VLA 上加分支,复现门槛相对低,适合做毕业课题或初创项目的起点。
- 触觉硬件越来越便宜:DIGIT、GelSight Mini 等开源触觉传感器已经能 < 千元拿到,意味着这套方法不只是大厂能玩——这让论文在"实用化时间表"上分数很高。
◼
引用本笔记 / Cite this note
@online{eai_tactile_vla_2026,
title = {(readable note) Tactile-VLA},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2025 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tactile-vla/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim