回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 71

Tactile Beyond Pixels (Sparsh-X)

7 min read · 2491 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人的手指不止"看"接触画面,还能听响声、感力度、察打滑——四路信号一起学,摸东西才像人。

这是个什么场景

伸手到背包里摸钥匙,不用看也能找到。你是怎么做到的?指尖摸到金属凉凉的齿、能感觉到钥匙串那点小重量、稍微一推它就会滑、碰到拉链还会发出"叮"的一声——眼睛全程没参与。

机器人现在的"触觉"大多只有一招:在指尖装一个小相机,对着一块软胶拍。胶被按变形,相机记下变形画面,等于给手指装了"眼睛"。但光看一帧画面,分不清你按到的是塑料还是金属,也猜不出捏多紧物体才不会掉。

Sparsh-X 想做的事就是给机器人手指补全感官:除了看(接触画面),再加上听(接触那一瞬的轻响)、感(按下去多用力)、动(手指有没有在滑)。四种信号一起喂给模型,机器人才有机会像你摸钥匙那样靠"手感"判断东西。

Tactile Beyond Pixels (Sparsh-X) — 场景示意:这论文要解决的现实问题
Plate Nº ITactile Beyond Pixels (Sparsh-X) — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Sparsh(前身,2024 ICRA/CoRL 系列):Meta FAIR 系列工作,做的是 vision-based 触觉传感器(DIGIT、GelSight)的 SSL 预训练,但只用了图像一种模态。
  • Touch-Vision-Language(TVL):把触觉图像和 RGB + 文本对齐,跨模态做 zero-shot,但触觉端仍然是单模态图像。
  • 传统触觉 ML:每个任务一个小 CNN,标注几百到几千条数据训出来,迁移性差,换传感器/任务就要重训。
  • 力/振动信号单独建模:机器人圈一直有人用 force-torque 传感器或 IMU 做 slip detection,但和视觉触觉是两条独立 pipeline,没融合。
  • 多模态 SSL(CLIP / ImageBind 系):方法论上证明跨模态对齐能学到强表征,但 ImageBind 没碰触觉这一支。

Sparsh-X 的 gap:触觉本身就是天然多模态的物理过程,前人要么只用图像,要么把其他信号当后处理特征,没人把"触觉这一个 sense"内部的多模态结构系统地学一遍。

这篇论文的关键想法

一句话:把"触觉"当成一个内部就有四模态的 sense,用 SSL 同时对齐这四路信号

具体的关键 insight 有三层:

  1. 物理同源性:图像 / 声音 / 运动 / 压力都是同一次接触事件的不同投影。一次按压同时产生:传感器表面形变(图像)、空气压缩振动(声音)、传感器加速度(运动)、法向力变化(压力)。它们时间上严格同步、物理上强相关,是天然的对齐对(pair)。
  2. 互补性而非冗余:图像擅长几何,声音擅长材质/事件,运动擅长动力学,压力擅长接触强度。下游任务对四者依赖度不同——抓握稳定性偏压力 + 运动,材质识别偏声音 + 图像。预训练时全要,下游任务自己挑。
  3. 共享 latent + 模态专用 encoder:每个模态有自己的 encoder(处理不同的输入维度),但投到一个共享的 embedding space,用对比学习 + 重建之类的混合 SSL 目标对齐。
Tactile Beyond Pixels (Sparsh-X) — 方法示意:核心 pipeline
Plate Nº IITactile Beyond Pixels (Sparsh-X) — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

数据采集:像在同一场演唱会架四个机位(相机、麦克、加速度计、测力片)同时录,每次"摸一下"都从四个角度同步记一份。硬件配置是 DIGIT(视觉触觉传感器)+ 麦克风 + IMU(惯性测量单元,测加速度/角速度)+ 力传感器,让机器人或人手按、滑、捏、敲各种物体,攒一份大规模无标注的"触觉四路"数据集。具体规模需读原文。

架构:好比四个翻译——一个懂画面、一个懂声音、一个懂动作、一个懂力——各自把原始信号翻成同一种"通用语",方便模型对照。

  • 图像端:ViT 或 CNN(沿用前作 Sparsh)
  • 声音端:短时音频切成 mel-spectrogram(梅尔频谱图,把声音变成"图"),过音频 transformer
  • 运动端:IMU 时间序列过 1D 卷积或小 transformer
  • 压力端:标量/低维力信号过 MLP(多层感知机)

四路输出投到一个共享 embedding 空间(embedding ≈ 把原始信号压成一串代表含义的数字),做跨模态对齐。

等等,先慢一拍 — "对齐"是什么?意思是让模型学到"同一次接触"的四路数字串互相靠近、和别次接触的拉开距离,这样四种信号就能在一个空间里互相理解。

预训练目标:让模型同时玩两个游戏——完形填空和找朋友。完形填空(masked modeling)是遮掉某一路信号让其他路猜回来;找朋友(contrastive learning,对比学习)是同一次接触的四路认作一伙、不同接触的拆开。这样训出来的模型,部署时哪怕缺一路传感器(比如机器人没装麦克风)也还能凑合干活。

下游评估方式:预训练学完通用"手感"后,下游具体任务(判断抓得稳不稳、有没有打滑、摸到什么材质)只在 encoder 上贴一个线性 probe(线性探针,相当于一顶小帽子)做几条标注就能学会,类似抄作业——基础知识冻住不动,每次只补一道题的解法。然后对比"只用图像 SSL(Sparsh)"和"四模态 SSL(Sparsh-X)"差几个点。

实验在做什么

论文应该至少回答这几个问题(具体数字需读原文):

  • Q1:四模态预训练 vs 单模态(图像-only)预训练——同样下游标注量下,Sparsh-X 能涨多少点?
  • Q2:模态消融——拿掉声音、拿掉压力、拿掉运动各自损失多少?哪个任务最依赖哪个模态?
  • Q3:少样本能力——下游只给 10/50/100 条标注时,多模态预训练的优势是放大还是缩小?通常 SSL 工作在少标注区间优势最大。
  • Q4:跨硬件泛化——预训练用一种触觉传感器,下游换另一种(比如 DIGIT → GelSight)还能用吗?
  • Q5:真机操作任务——比如让机器人靠触觉判断该不该收紧抓握,是否比 baseline 成功率更高。

下游任务 list 大概率包含:grasp stability、slip detection、material classification、texture recognition、contact state estimation 这五类经典 tactile benchmark。

你应该懂的几个新词 — 4-6 个

  • Vision-based tactile sensor(视觉触觉传感器):像 DIGIT、GelSight 这种,原理是一块软胶 + 一个小相机,胶被压变形后相机拍到形变图,把"摸"变成"看"。
  • Modality(模态):信号的种类。在这里指图像 / 声音 / 运动 / 压力四路不同物理量的输入。
  • Self-Supervised Learning, SSL(自监督学习):不要人工标签,用数据自己的结构当监督信号(比如遮一部分预测另一部分),用来预训练。
  • Contrastive learning(对比学习):把"应该相似的样本对"拉近、"不相似的"推远,CLIP 是经典代表,多模态对齐常用。
  • Masked modeling(掩码建模):随机遮住输入的一部分让模型重建,BERT / MAE 用这套;多模态版本就是遮掉某一路模态让其他路推断。
  • Tactile representation(触觉表征):一段触觉信号被压成的固定维向量,作为下游任务的输入特征——好的表征能让小模型 + 少数据就学会复杂触觉任务。

它和其他论文什么关系

  • 直接前身Sparsh(同组单模态触觉 SSL)。Sparsh-X 是它的"加模态"扩展版。
  • 方法论近邻ImageBind(六模态对齐)、CLIP(图文对齐)。Sparsh-X 把这套跨模态 SSL 思路下沉到"触觉内部"。
  • 任务领域近邻Touch-Vision-Cross-Modal(把触觉和视觉/语言对齐)——区别是 TVL 跨"sense"对齐,Sparsh-X 在"触觉这一个 sense 内部"做多模态对齐,互补而非替代。
  • 下游使用方:未来的 pi0 / OpenVLA 类策略模型,如果想加触觉输入,Sparsh-X 这种通用 tactile encoder 是首选 plug-in。
  • 应用衔接:dexterous manipulation 系列(DexCapDexMV)目前主要靠视觉 + 本体感觉,触觉一直是短板,Sparsh-X 这类 encoder 是补这块短板的关键基础设施。

我建议这样读 — 3-4 步

  1. 先读 Abstract + Figure 1:确认我上面对"四模态触觉 SSL"的概括对不对,看清楚他们硬件 setup 长啥样。
  2. 跳到方法的 architecture diagram:看四个 encoder 怎么连,对齐 loss 是 contrastive 还是 contrastive + reconstruction 混合。这是理解全文的钥匙。
  3. 看消融表(modality ablation):直接判断哪个模态最有价值——这是你以后如果要复用,决定"我要不要也搭声音/压力传感器"的依据。
  4. (可选)看下游任务结果表:关注少标注区间的表现差距,这是 SSL 工作的核心卖点。

如果只有 30 分钟:第 1 步 + 第 3 步够了。

为什么值得读

  • 触觉是 embodied AI 下一块拼图:视觉、语言、本体感觉的 foundation model 都有了,触觉的通用 encoder 还在早期。Sparsh-X 是这个方向的第一梯队工作。
  • 思路通用:把"一个 sense 内部的多模态结构"系统化的做法,可以迁移到其他 sense——比如视觉内部的 RGB + depth + event camera + thermal,听觉内部的 waveform + spectrogram + 多麦克风阵列。这是个方法论级别的启发。
  • 工程指导意义:如果你以后要给机器人加触觉,Sparsh-X 的硬件配置(哪几种传感器组合)+ 数据采集方式 + 模态消融结论,直接就是 BOM 清单和优先级排序参考。
  • 难度分级:⭐⭐⭐⭐——需要先有 SSL(CLIP/MAE)+ 触觉传感基本概念,但只要这两块 OK,论文本身的 idea 是 clean 的,不烧脑。

引用本笔记 / Cite this note
BibTeX
@online{eai_sparsh_x_2026,
  title       = {(readable note) Tactile Beyond Pixels (Sparsh-X)},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/sparsh-x/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim