回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 74

TLA: Tactile-Language-Action

7 min read · 2334 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令,自己决定下一步该怎么用手。

这是个什么场景 — 日常类比

早上你在背包侧袋里掏钥匙,眼睛还盯着手机。

手指伸进去那两秒,发生了一连串事:先碰到软的纸巾(不是)、滑过塑料壳(耳机盒)、最后摸到一串凉凉的、有齿的金属——是它。整个过程你没看,靠的是一段连续变化的手感:从软到硬、从光滑到带齿、从晃到稳。

机器人之前没法做这件事。要么靠摄像头看(书包里全黑啥也看不见),要么靠传感器"按一下记一张压力图"——相当于只允许你用指尖戳一下不准滑动,自然分不清耳机盒和钥匙串。TLA 想让机器人也能"摸着摸着就知道是哪个",并且当你嘴上说"把软的那个递给我"时,它知道软的是哪种触感曲线,伸手去拿对的那个。

TLA — 场景示意:这论文要解决的现实问题
Plate Nº ITLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • VLA 路线(RT-2、OpenVLA 等):视觉 + 语言 → 动作。但摄像头看不到接触瞬间发生了什么,比如东西滑了没、捏到没。
  • 单帧触觉(TacGNN、各类 GelSight 工作):把触觉传感器读数当成一张图片,识别接触面形状或物体类别。问题:丢了时间维度,捏苹果和捏鸡蛋的"渐进施力差异"看不出来。
  • 触觉 + 强化学习:用触觉信号当 reward 或 state 去训 policy,但不接语言、泛化差,换个任务就要重训。
  • 多模态融合的早期尝试:把触觉特征和视觉特征 concat,但没有大语言模型那种"指令理解"能力,做不到"把熟的桃子递给我"这种语义级任务。
  • **少有工作把触觉时序当成"模态"**和 LLM 对齐——这是 TLA 切入的缝。

这篇论文的关键想法

一句话:把触觉当成大模型听得懂的另一门"方言",而且是带时间的方言

打个比方。大模型已经会听人说话(语言)、看图(视觉)。现在再教它一门新语言——触觉。但不是教它"指尖压力 = 5 牛"这种死数字(那相当于教它单词),而是教它**"接触瞬间这条压力上升曲线长什么样"**——更像教它听一段语调,而不是孤立的字。

具体步骤:

  1. 触觉传感器输出的不是一张图,而是连续 T 帧的时序信号(类似一小段视频)。
  2. 一个 encoder 把这段信号压成一串 token,相当于把"手感片段"翻译成大模型能读的"词"。
  3. 这些"触觉词"和你说的话(文本 token)、要做的动作(动作 token)混在一起,喂给一个 transformer/LLM 主干。
  4. 训练目标:看完这段触感 + 听完这句话 → 输出下一步该怎么动手。

精神跟 VLA(Vision-Language-Action,视觉-语言-动作)一样,只是把"看"换成或加上"摸",而且强调时间序列——不是单帧压力贴图,是一整段手感曲线。这让模型能区分"刚碰到时力在变" vs "已经握稳了力不变"这种只有时间维度才看得出的差别。

TLA — 方法示意:核心 pipeline
Plate Nº IITLA — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

触觉编码。像把一段 30 秒的视频剪成 5 个关键画面再写成字幕——给 LLM 看的不是原始流,而是"摘要"。论文用某种序列编码器(可能是 1D conv + transformer,或者 ViT 风格处理时序)把多帧触觉信号转成一段嵌入向量。等等,先慢一拍——嵌入向量(embedding) 是什么?就是把一段东西压成一串数字,使得"长得像的东西"数字也接近,这样机器能算距离、做匹配。具体编码器结构和帧数需读原文确认。

跨模态对齐。像翻译官的工作:让"硬"这个中文词、"hard"这个英文词、还有手摸到硬东西的那种触感曲线——三种来源的"嵌入"都指向同一个意思。常见做法是对比学习(contrastive,类似 CLIP,让配对的样本靠近、不配对的远离)。这样语言和触觉就能互相检索、互相条件化——你说"凉的",模型能想起对应的触感长什么样。

动作解码。前面把语言和触觉对齐了,现在要"动手"。像厨师看完菜单(语言)、捏过食材(触觉)后决定下刀的角度——接一个 action head(可能是 diffusion policy 或 autoregressive token 输出),根据"语言指令 + 触觉时序 + 可能的视觉"联合预测末端执行器的动作序列。这部分基本沿用 VLA 范式。

数据。这是最难的一关。触觉数据像稀有食材——必须有装着触觉传感器的真机械臂去一次次摸真实物体,还得给每段触感配上"我现在摸的是 XX"这种语言标注。论文应该会构造或借助某个 tactile-language pairing 的数据集;具体规模和采集方式需读原文。可能也会做 sim-to-real(仿真训、真机用)或者合成数据扩量。

实验在做什么

典型的实验维度(具体数字需读原文):

  • 下游任务:精细操作类,比如分辨软硬、判断滑动、精确插入、抓取易碎物。
  • 基线对比:仅视觉 VLA、仅触觉 policy、单帧触觉 + 语言。比 TLA 的"序列触觉 + 语言"差多少。
  • 消融:去掉时序(只用单帧)、去掉语言、换不同长度的触觉窗口,分别看性能掉多少。
  • 泛化:训练时没见过的物体形状或材质,能不能用语言描述零样本迁移。
  • 真机部署:是不是只在仿真里跑,还是有真实机械臂的视频和成功率。

读论文时重点看消融——能证明"序列性"比"单帧"贡献大才说得过去标题里的 sequence。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把视觉、语言、动作三个模态联合训的模型范式。RT-2、OpenVLA 是代表作。TLA 是这个范式把"视觉"换成或扩展为"触觉"的版本。
  • GelSight / 视触觉传感器:用一块软胶 + 摄像头记录胶面形变的传感器。输出形式像图像,但描述的是接触压力分布。
  • 时序触觉(sequential tactile):不是单帧压力图,是一段时间内连续的触觉读数。类比视频 vs 图片。
  • 跨模态对齐(cross-modal alignment):让不同模态(语言、视觉、触觉)的向量住进同一空间,用对比学习等方法实现。CLIP 是经典案例。
  • action token / action head:把连续动作(关节角度、末端位置)离散化成 token,或者用单独的小网络解码动作向量。VLA 系列的标准做法。
  • sim-to-real:在仿真里训,部署到真机。触觉 sim-to-real 比视觉更难,因为接触物理仿真不准。

它和其他论文什么关系

  • OpenVLA / RT-2:TLA 是同一家族的"换模态版本"。理解了 VLA 怎么把图像 token 化喂大模型,TLA 就懂了一半。
  • 3D-VLA / PointLLM:都是给 VLA 加新模态。3D-VLA 加点云,TLA 加触觉,思路并列。
  • Diffusion Policy / 3D Diffusion Policy:这些是动作解码端的工作。TLA 的 action head 可能借鉴。
  • 触觉表示学习(如 MViTac、T3):这些做触觉自监督预训练,可能是 TLA 触觉 encoder 的前置工作或对比基线。
  • 多模态 LLM 综述(如 LLaVA 系列):TLA 是把"触觉"加进多模态 LLM 大盘子里的一个具体落地。

我建议这样读 — 3-4 步

  1. 先扫摘要 + 方法图(一定有一张系统总览图),搞清楚"触觉时序怎么进 LLM"——这是全文骨架。
  2. 跳到实验消融,看"序列 vs 单帧"差多少。如果序列贡献小,标题就有点虚;贡献大,那这工作就真有价值。
  3. 看数据章节,搞清楚 tactile-language pair 怎么来的。这是触觉领域的瓶颈,谁能解决数据谁就赢一半。
  4. 最后回头看 related work,跟 OpenVLA 等 VLA 工作做对比,理解 TLA 在范式上加了什么减了什么。

为什么值得读

触觉是机器人最被低估的模态。视觉能告诉你"看到了什么",但抓东西最后那 5cm、捏软硬、判断滑动,全靠触觉。把触觉用上 LLM 范式(语言条件化 + 时序建模)是个明显该做但很难做的方向,因为数据贵、传感器多样、仿真不准。

TLA 把"序列性"作为关键词推出来,本身就是对触觉建模的一个重要 framing——之前太多工作把触觉当图片处理,浪费了时间维度。即使方法本身的工程细节不一定立刻能复现,这个 framing + VLA 范式迁移的思路值得了解,是 embodied AI 多模态扩展的一个标志性节点。

适合读完 OpenVLA、对 VLA 范式熟悉之后,作为"如何给 VLA 加新模态"的参考案例来读。

引用本笔记 / Cite this note
BibTeX
@online{eai_tla_tactile_language_action_2026,
  title       = {(readable note) TLA: Tactile-Language-Action},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tla-tactile-language-action/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim