回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 65

Connecting Touch and Vision via Cross-Modal Prediction

19 min read · 6810 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻成人话。

本文是 2019 年 CVPR 的工作,MIT CSAIL 出品。论文的位置:早期跨模态预测的代表作,把"视觉↔触觉"的双向想象问题第一次系统化。读这篇之前最好对 GAN 有点感觉(不要求懂数学),对 CNN 大致知道怎么处理图像就行。

一句话讲什么(TL;DR)

教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿",让视觉和触觉互相翻译。

所以这一节是想说:这篇论文让机器在视觉和触觉之间做"互相翻译"。


这是个什么场景

逛超市时你伸手抓一个香蕉,手没碰到之前你已经"知道"它会是软软滑滑的;半夜摸黑伸手够手机,手指一碰玻璃面就立刻在脑子里闪出"屏幕朝上、放在床头柜左边"的画面。这两件事都太自然了,自然到你不会觉得它是个"问题"——可对机器人来说,它压根不知道。

人类的视觉和触觉是双向打通的:

  • 看见 → 脑子里冒出"摸起来会怎样"的预感
  • 摸到 → 脑子里冒出"这玩意大概长什么样、在哪儿"的画面

这篇 2019 年的论文就在问:机器能不能也学会这种双向想象? 给它一段机械臂去戳东西的视频(视觉),它能不能猜出指尖那一刻摸到的"触感"(触觉图像)?反过来,只给它一张触感图,它能不能在桌面照片里指出"这个手感对应的应该是杯子边缘的那个位置"?

听起来很玄,但作者用了个巧招:把"触觉"也做成一种图像——靠一个叫 GelSight 的小传感器,把指尖按下去之后"被压凹的胶皮"用内置摄像头拍下来,变成一张 RGB 图。这一下,原本"摸 vs 看"的跨感官难题,被化简成了两种图像之间的互相翻译——就跟把英文翻成中文是一个套路。

所以这一节是想说:把触觉变成一张图,问题就变成了"图到图的双向翻译"。


Connecting Touch and Vision via Cross-Modal Prediction — 场景示意:这论文要解决的现实问题
Plate Nº IConnecting Touch and Vision via Cross-Modal Prediction — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:跨模态预测都做声音或文字 以前研究 vision↔audio、vision↔text 的论文一大堆。但这些数据天生就有海量配对(视频自带声音、图片自带 caption)。视觉↔触觉没有现成的大规模配对数据——人手摸过的东西没人录下来。

  • 方案 B:直接用 pix2pix 做图到图翻译 pix2pix 是当时最火的"图翻译"模型(白天→黑夜、草图→照片)。但它假设输入和输出在像素位置上是对齐的,比如同一座山在白天图和黑夜图里都在画面正中。视觉和触觉的尺度差距太大:摄像头拍的是整张桌子(约 50cm 宽),GelSight 只能感受 1.5cm 的一小块——两张图根本对不上号

  • 方案 C:传统触觉传感器分类 早些年的触觉研究只用力传感器测压力大小、或用 GelSight 识别物体材质。它们解决的是"分类/识别"任务,不是"想象出另一个模态的图像"。

  • 方案 D:人手收集小数据 做几百对配对数据靠研究生手动操作机械臂,规模太小,神经网络喂不饱。

  • 核心难题:缺数据 + 尺度对不齐 + GAN 容易"摆烂"输出全一样的图(mode collapse)。

所以这一节是想说:缺数据、视野不对齐、GAN 训练崩,三座大山压着。


这篇论文的新想法

类比:想教小孩认识"软硬",最快的办法是带他去玩具店把每件玩具都摸一遍——一次几分钟太少,得连续几个月每天摸。本论文做的就是这件事的机器版:让一只机械臂当"实习品控员",自动戳 195 个物品 12000 次,凑出 300 万张"看到的画面 + 摸到的胶皮"配对图。再给 GAN(一种会"造图"的神经网络)喂一张参考图(机械臂还没动作前的桌面照)和附近几帧视频,让它学会在视觉和触觉之间互相翻译。

一句话三件事:

  • 自动造数据:用工业机械臂代替人手,规模一下子拉到当时最大
  • 参考图缩尺度差:摄像头看的是 50cm 大场景、GelSight 看的是 1.5cm 小区域,给个对照图就只需画"差异"
  • 时序几帧防摆烂:5 帧前后画面让模型不偷懒、不糊弄

所以这一节是想说:先用机械臂工业化造一份大数据集,再改进 GAN 来吃这份数据。


它分几步做的(方法)

整个论文做了 4 件事:搭机械臂自动采集、做条件 GAN 基线、加参考图缩尺度、加时序帧防失同步。

1. 用 KUKA 机械臂造一份 300 万张配对图的数据集

类比:像让一只机械手当"实习品控员",把超市货架上的东西一个一个戳一遍,旁边架一台摄像机全程录像。每戳一下,存一张"摄像机看到的画面"和一张"指尖压凹胶皮的纹理图"。

它在干什么

  • 一只 KUKA 工业机械臂,指尖装一个叫 GelSight 的传感器(1.5cm × 1.5cm 的胶皮里面藏摄像头)
  • 旁边三脚架上一个普通网络摄像头,全程拍机械臂和桌上的物体
  • 每次戳之前先用 SLAM 重建桌面的 3D 点云,挑一个法线接近垂直的位置去戳(不然戳歪了不仅戳不到、还会把东西推走)
  • 戳了 195 个家用品(YCB 数据集的 45 个 + 自己买的 150 个),合计 12000 次,每次录 250 帧,总共 300 万张配对图

GelSight:一种"光学触觉传感器"。表面是软胶皮,里面装一个小摄像头和几个不同方向的彩色 LED。手指压上去胶皮变形,摄像头拍下变形后的影子,就得到一张能反映"接触面凹凸纹理"的 RGB 图。简单说:把"摸到什么"翻译成了"看到什么"

YCB 数据集:耶鲁-CMU-伯克利联合发布的一份家用物品数据集,机器人抓取领域的"通用考题"。

为什么这步有用

  • 机器干活不知疲倦,能造出比人手大几个量级的数据
  • 因为 GelSight 输出是图,整套问题立刻能用 CNN 处理,不用为触觉单开新架构
  • 工业机械臂的位置精度比人手高得多,意味着"触点"和"视觉里手指尖位置"几乎完美对齐——后面训练时不用再校准
  • 数据规模一上来,过拟合风险下降,模型更容易学到"通用的视-触关联"而不是死记硬背

踩坑提醒

  • 直接随机选戳点会导致 60% 的样本"戳到空气"或"戳歪把物体推走"。SLAM 重建 + 法线检查这一步看似工程小事,却决定了数据集的可用率
  • 戳的力度和速度需要标定。论文没大讲,但补充材料里能看到他们做了一套压力曲线,避免戳坏物体或损伤胶皮

所以这一节是想说:先用工业机械臂工业化造一份当时全球最大的视-触配对数据集。


2. 拿 pix2pix 做基线:图到图翻译的标准做法

类比:把"视觉→触觉"想成"中译英"。Pix2pix 是当时最经典的"翻译机",它训练的方式有点像"打假博弈"——一个网络 G(生成器)拼命造假翻译,另一个网络 D(鉴别器)拼命找茬,两者互相磨练。

它在干什么

  • 生成器 G:吃一张视觉图,吐一张触觉图(或反过来)
  • 鉴别器 D:看一对图,判断"这是真的视-触配对,还是 G 编出来的"
  • 训练目标:G 和 D 玩极小极大博弈,G 想骗过 D,D 想识破 G

条件 GAN(cGAN):普通 GAN 是"凭空造图";条件 GAN 是"看一张输入图,造一张相关的输出图",输入就是"条件"。pix2pix 是 cGAN 的一个经典实现。

L1 损失:除了让 G 骗过 D,还额外要求"生成图 - 真实图"的逐像素差距尽量小,避免 G 走极端只为骗鉴别器、不顾真实性。

为什么这步有用

  • 给后面的改进定一个基准线(baseline):作者后来给 pix2pix 加各种改造,每一项改造涨多少都能量化对比
  • pix2pix 本身是当时图翻译的 SOTA,作为起点合理

但它不够好——后面的实验表明,pix2pix 直接套上来在视-触任务上效果很差。原因见下一节。

关键公式人话翻译

论文里的核心目标函数写起来很吓人:

G* = arg min_G max_D L_GAN(G, D) + λ L_1(G)

人话:找一个 G,让它在最坏的 D(最强鉴别器)面前也能输出最像真实数据的图。同时让 G 输出和真实图的逐像素差距(L1)尽量小。λ = 10 控制两个目标的权重。

L_GAN 里的对数期望项就是"鉴别器对真假数据的得分差",G 想让 D 给假图打高分(骗过 D),D 想让真假分得越开越好。两人轮流更新参数,互相牵制。

所以这一节是想说:先用 pix2pix 立个标杆,后面再一项项改。


3. 喂参考图:让模型只学"差异",不用从头画整张图

类比:让美术生默写一张"猫躺在沙发上"和让他默写"沙发上多了一只猫(已经给你沙发的照片)"——后者难度低多了,他只要画个猫贴上去就行。

它在干什么

  • 给生成器和鉴别器额外喂一对"参考图":参考视觉图(机械臂还没动作前的桌面) + 参考触觉图(GelSight 没接触任何东西时的"空载"图像)
  • 模型的任务从"凭空生成另一种模态" → 变成"在参考图基础上预测变化部分"

为什么这步有用

  • 解决尺度差距:触觉图只覆盖 1.5cm,硬要从这 1.5cm "推断"整张桌面的画面是不可能的。但有了参考视觉图,模型只需预测"机械臂手伸进来后画面里多了什么 + 它戳在哪儿",难度暴跌
  • 解决传感器漂移:不同 GelSight 的 LED 亮度、黑点位置都略有不同。参考触觉图相当于给模型一个"零点校准"
  • 在生成器内部加 skip connection(跳跃连接):参考图里那些"和输出长得像"的低层特征(比如桌面颜色、物体轮廓)可以直接抄过去,不用编码-解码再走一遍

Skip connection:神经网络里的"绕路通道"。让前层的信息不经过中间层直接送到后层,避免一路压缩-解压时把细节丢光。U-Net 就是靠这招在医学图像分割里出名的。

所以这一节是想说:给模型一张"什么都没发生时"的对照图,它就只需画"差异"。


4. 数据再平衡 + 时序多帧:防 GAN 摆烂、防预测跟不上时间

类比一(再平衡):你训练一个识图 AI,可数据集里 60% 都是同一张白墙照片。模型很快就学会"无论看到什么都输出白墙",这就摆烂了。解决办法是给"非白墙"的稀有样本加权重,让它们在训练里出现得更频繁。

类比二(时序):让你只看一张照片判断球在不在手里——你说不准是球刚被抓住还是刚被丢出。多看几帧前后画面就好判断了。

它在干什么

数据再平衡:

  • 实测数据里 ~60% 时间机械臂悬在空中没碰东西,触觉图都是"平的"
  • 给每个样本算一个"稀有度分数":拿当前触觉图减参考触觉图(残差图),再算这个残差的 Laplacian 方差。变形越剧烈,分数越高
  • 训练时按这个分数采样(rebalancing)——稀有的高变形样本被多采,平庸的"空载"少采

时序多帧:

  • 输入不再是单帧 x_t,而是 5 帧 {x_{t-4}, x_{t-2}, x_t, x_{t+2}, x_{t+4}}
  • 多帧能告诉模型"机械臂正在下压 / 正在抬起",预测的接触瞬间就能和真实瞬间对齐

Mode collapse(模式坍塌):GAN 训练里的常见病。生成器发现"反正鉴别器看不出来,我每次都输出同一张图就行",结果输出多样性归零,类比"考试作弊都抄一份答案"。

Laplacian 方差:图像处理里衡量"清晰度/纹理丰富度"的指标。一片白墙方差几乎是 0,一片有花纹的布方差就大。这里被借来当"触觉变形剧烈度"的近似。

为什么这步有用

  • 数据再平衡治了 mode collapse:不让模型把"输出空载图"当成万金油
  • 时序多帧治了"接触瞬间预测错位":人评测里能把 moment of contact 的误差降很多

实现细节小注

  • 时序帧间隔是 2 帧而不是 1 帧——作者发现相邻帧太相似,信息冗余;隔 2 帧能拉开"前/中/后"的差异
  • 5 帧里只有当前帧用 RGB,其他用灰度——为了减少模型参数和显存占用,因为颜色对"接触动作判断"贡献很小
  • λ = 10(L1 损失权重)和 LSGAN 损失(最小二乘 GAN,比标准 GAN 训练更稳)都是从 pix2pix 论文继承的超参,作者没再调

所以这一节是想说:用稀有度采样防 GAN 摆烂,用前后几帧让预测和真实在时间上对齐。


Connecting Touch and Vision via Cross-Modal Prediction — 方法示意:核心 pipeline
Plate Nº IIConnecting Touch and Vision via Cross-Modal Prediction — 方法示意:核心 pipeline

关键数字(What works)

  • 数据规模:12000 次接触 × 250 帧 = 300 万张视-触配对图 对比:之前类似研究通常只有几千到几万对。这意味着这是当时最大的视-触数据集,也是后来很多视-触工作引用的基石。

  • 物体数量:195 件(训练 165 / 测试 30 已见 + 30 未见) 对比:YCB 原本只有 45 个能戳的,作者额外采购了 150 个。这意味着模型能在"没见过的物体"上也评测,看泛化能力,而不是死记硬背。

  • Vision→Touch 真假测试欺骗率:46.63%(已见物体)/ 38.22%(未见物体) 对比:pix2pix 基线只有 28.09% / 21.74%。这意味着 AMT 上的人类标注员把 ~47% 的生成触觉图误认成真,已经接近"完全分不清"(50% 的随机水平)。

  • Touch→Vision "feels similar" 测试:89.20% / 83.44% 对比:pix2pix 只有 44.52% / 25.21%;用人工标注训练的全监督方法是 90.37% / 85.29%。这意味着自监督的本论文几乎追平了用 1000 张人工标注训练的全监督基线,而且还泛化到没见过的物体。

  • 去掉 reference image 后 fooling rate 掉 5~7 个百分点;去掉时序后再掉 ~5 个 这意味着两项改造都有效,叠加起来才能把 pix2pix 从 28% 抬到 47%。

  • pix2pix 的 mode collapse:在 touch→vision 任务上,pix2pix 总是把机械臂画在图像右上角。 这意味着不做数据再平衡,GAN 就会用"作弊答案"敷衍——再平衡是这套系统能跑起来的关键。

所以这一节是想说:数据规模 + 三项改造让模型从"看一眼就破"做到"接近以假乱真"。


你应该懂的几个新词

  • GelSight(凝胶触感传感器):用一块软胶皮 + 内部摄像头 + LED 的触觉传感器。把"摸到什么"变成"拍到什么"。类比:橡皮泥按手印,再用手电筒打光拍照看凹凸。

  • Cross-Modal Prediction(跨模态预测):从一种感官数据预测另一种感官数据。类比:闻到刚出炉的面包香,脑补出面包的金黄色泽。

  • GAN(生成对抗网络):两个神经网络互相博弈训练,一个造假、一个打假。类比:仿冒名画的画师 vs 拍卖行鉴定师,互相磨练对方。

  • Conditional GAN(条件 GAN):在 GAN 的基础上,给一个"条件"作输入,生成"和条件相关"的输出。类比:不是"随便画一张图",而是"按照这张草图给我画一张照片"。

  • Mode Collapse(模式坍塌):GAN 训练失败的典型表现,生成器只会输出极少数几种图,多样性归零。类比:作弊学生只背一道题的答案,所有考卷都填一样。

  • Reference Image(参考图):一张"什么动作还没发生"的对照图。类比:装修前的房间照片,让你只用关心"这次新加了什么家具"。

  • Skip Connection(跳跃连接):神经网络里跨层连接的"绕路通道"。类比:开会时小李直接把材料递给老板,不用先转手给小张-小王-小赵。

  • AMT(Amazon Mechanical Turk):亚马逊的众包平台,用来雇大量真人做小任务(这里就是"判断真假图")。类比:拉一群路人当评审。

  • Mode of Contact(接触瞬间):机械臂胶皮真正碰到物体的那一刻。类比:弹钢琴时手指真正按下去的瞬间,前后摸空气都不算。

  • Self-supervised(自监督):不需要人工打标签,靠数据自己生成的"伪标签"训练。类比:让小孩自己摸自己看,不用大人告诉他"这是什么"。

所以这一节是想说:把这十个词记住,再回头读论文你会顺得多。


它有什么搞不定的

  • 看不见的物体(脱离桌面):模型只学过桌面上的 195 件家用品,给它一张窗外的树叶,触觉预测大概率乱来。

  • "摸两个不同位置 feel 一样"的歧义:摸一块平板的不同位置触感都差不多,所以 touch→vision 不可能预测出"唯一正确的位置"。论文承认这点,所以评测改成"feels similar 算对"。

  • 触觉太空(机械臂悬在空中)的样本:尽管做了数据再平衡,但这些样本本身就没信息,预测结果只能是"参考图本身"。模型学不到任何东西。

  • 依赖固定相机视角:摄像头一旦换位置或换镜头,整个模型可能直接失灵。reference image 假设了"相机和场景的相对位置不变"。换到第一视角的可穿戴相机就要重训。

  • 没有"力"的概念:GelSight 测的是变形,可以间接反映力,但模型并没有显式学"压多大的力"。所以它能预测"接触瞬间",但不能预测"按多用力"。后续 visuo-tactile dynamics 才补上这块。

所以这一节是想说:泛化、本质歧义、数据稀疏、视角固定、缺力的概念——这五个洞短期内填不上。


它和别的论文是什么关系

  • vs LLaVA / Flamingo(视觉+语言多模态):LLaVA 把视觉和"语言"做对齐——用 GPT-4 当"出题老师"造文本指令;本文则把视觉和"触觉"做对齐——用机械臂当"出题老师"自动戳东西。两者共享一个思路:用一个能批量生成"标签"的来源(GPT 或机械臂),绕开人工标注的瓶颈

  • vs ImageBind:ImageBind 想把视觉、文本、音频、深度、热成像、IMU 六种模态都嵌到一个共享空间里。本文是更早期的"两模态打通",提供的训练范式(用图到图翻译做对齐)后来被许多多模态工作借用。可以把本文看成 ImageBind 的"双模态原型"。

  • vs Diffusion Policy / OpenVLA(操控机器人):那些工作让机器人"看一眼就知道怎么动";本文还没到决策层,停在"看一眼想象出摸起来什么感觉"的感知层。但触觉感知是抓取的关键——后续 visuo-tactile policy 论文(如 MIT 系的 Lee 2019 ICRA)就在这条路上往决策走。

  • vs Acoustic Swarms / RF-Pose(其他非视觉模态):声学和射频也是"非视觉模态"代表,但它们解决的是"穿透/远距感知";触觉相反,是"近距+局部"。共同点是都要把陌生模态翻译成神经网络能吃的张量,再设计跨模态对齐。

  • vs Conv-TasNet(音频源分离):Conv-TasNet 在 1D 音频信号上做端到端学习,不依赖手工特征。本文在 2D 触觉图上做端到端,思路相通——让神经网络从原始信号自己学表征,不靠工程师手写"摩擦系数 / 硬度估计"那套传统特征。

  • vs Habitat / Meta-World(仿真环境):那些工作让机器人在仿真里大量练习。本文反过来——直接在真实物理世界里采集真数据。两条路径互补:仿真便宜但 sim2real gap 大,真实采集贵但 ground truth 是真的。

所以这一节是想说:这是早期多模态对齐工作的"双模态精简版",思想被后来的 ImageBind / VLA 系列继承。


我建议这样读这篇

  1. 先看 Figure 1(页 1)。一张图把整篇论文要做的事讲完了:机械臂戳东西 → 视觉视频 + GelSight 触觉图 → 双向预测。

  2. 跳到 Section 3 看数据集。理解 GelSight 是什么、195 个物体怎么选、12000 次接触怎么自动化。这是论文最厚的工程贡献。

  3. 回到 Section 4.1 看 baseline。如果你还没接触过 pix2pix / cGAN,先读这节会比直接读 4.2 顺。最好补一下原版 pix2pix 论文的 Figure 2。

  4. 重点读 Section 4.2 的三项改造。每读一段问自己:"这个改造解决了什么具体问题?" reference→尺度差,rebalancing→mode collapse,temporal→时间错位。

  5. 看 Table 2 / 3 + Figure 5。数字和图对照看,建立"改造对效果的提升幅度"直觉。

  6. 最后扫 Section 5 的实验细节。AMT 怎么设计的、deformation 怎么测的——这些是工程素养训练。

  7. 项目网站 看视频。论文里很多结果只看静态图感觉一般,但跟着视频时间轴看 deformation 曲线就能立刻理解"时序帧防错位"为什么重要。这是 GAN 论文的常见情况:动效比静态图说服力强。

所以这一节是想说:先看图理解任务,再看数据集,最后才进算法细节,最后看视频建立直觉。


一些好奇心问答

Q1:为什么不直接用力传感器读"压力大小",非要用 GelSight 把触觉做成图? 因为压力只是一维标量,没有"形状/纹理"信息。GelSight 把接触面凹凸都拍下来,等于把触觉升维到 2D 图像,CNN 能直接处理,信息量也大得多。

Q2:12000 次接触是机械臂连续戳出来的,那中间有人监督吗? 基本没有。SLAM 自动选戳点 + 机械臂自动执行 + 摄像头时间戳同步。研究生只需要在桌面摆好物体,让程序跑就行。论文里强调"自动化"是核心工程贡献。

Q3:reference image 是不是在"作弊"?模型不就是在抄参考图吗? 对,它确实抄了大部分(桌面、物体),但这正是合理之处——人类预测触觉时也在用"我已经看到的场景"做条件。模型只需要把注意力放在"哪儿被戳了 + 戳出的纹理"上。这不是作弊,是合理的任务简化。

Q4:训练 GAN 一般要算 FID/IS 这些指标,本论文为什么主要用 AMT? 因为触觉图不是自然图像,FID(基于 ImageNet 预训练特征)的相似性指标不一定可靠。作者直接用人类感知判断"真不真"更稳。这是 GAN 评测的常见妥协。

Q5:模型能"想象"出从没摸过的材质吗?比如猫毛? 论文没测。直觉上不行——模型只见过 195 个家用品。但作者展示了 30 个"未见物体"上的泛化效果,说明在"训练分布附近"还能用。

Q6:为什么 vision→touch 的时序帮助大,touch→vision 帮助不大? 因为 vision→touch 要预测"什么时候真正接触上"——这是一个时间动作问题,多帧能看清。touch→vision 已经过滤掉"没接触"的样本(reference image 本身就够),时间信息相对冗余。

Q7:这套系统能搬到真实机器人抓取上吗? 本文止步于"想象"层,不直接做抓取。但作者在 Discussion 里点出:在低光环境下(视觉糟糕),用触觉来辅助识别和抓取是合理延伸。后续 MIT 的 visuo-tactile policy 工作就在这条线上。

Q8:GelSight 这玩意贵吗?普通实验室能复现吗? 2019 年时 GelSight 是开源硬件,研究生能自己搭一个,材料成本低于 100 美元(不含摄像头)。但 KUKA 工业机械臂很贵(百万级),所以"自动化数据采集"这条工程路径不容易复现。后续工作大多直接用本文公开的 VisGel 数据集做 finetune。

Q9:训练用的是什么 GPU?跑多久? 论文正文没明说,但根据架构(两个 ResNet-18 + 5 层 strided-conv decoder + 标准 ConvNet 鉴别器),单卡 V100 大约 3~5 天能跑完一个方向的训练。不算大模型,是 CV 中等规模实验。

Q10:作者后续做了什么? 一作 Yunzhu Li 在这之后做了一系列"物理感知 + 触觉"的工作,包括 ICRA/NeurIPS 的 visuo-tactile dynamics model,把"想象触感"延伸到"想象物体形变和动力学"。这篇论文是他从感知走向"物理理解"的起点。

所以这一节是想说:核心创新可复现,但要重新跑出 300 万张图得有 KUKA;模型本身只需中等 GPU。


如果你想再深入

  • Pix2Pix 原文(Isola 2017 CVPR):本文的方法基础。先读它的 Section 3,再回头看本文 Section 4.1,思路会通顺。

  • GelSight 原始论文(Johnson & Adelson 2009 / 2011):理解触觉传感器是怎么把变形变成 RGB 图的。MIT Adelson 组的代表工作。

  • Calandra et al. 2017 "The feeling of success":用视-触多模态预测抓取成功率。和本文的"看图想感觉"互补——它是"用感觉决定动作"。

  • Lee et al. 2019 ICRA "Making sense of vision and touch":自监督学习视-触表示用在 contact-rich 操作任务上。可以看作本文思路在"决策层"的延伸。

  • ImageBind(2023, Meta):六模态共享嵌入空间。读完这篇会发现本文的"双模态对齐"思路被推广到多模态后能干什么。

  • CycleGAN(Zhu et al. 2017):解决"无配对图到图翻译"。本文用的是配对版(pix2pix),但如果你想把这套方法推广到没法配对的场景(比如人手摸 vs 机械臂摸),CycleGAN 是必读。

  • Sundaram et al. 2019 Nature "可穿戴触觉手套":把触觉传感器做成手套,让人戴着采数据,规模比 KUKA 还大。和本文是"不同采集路径"的对比阅读。

所以这一节是想说:往前补 pix2pix / CycleGAN / GelSight,往后追 visuo-tactile policy / ImageBind / 触觉手套,就是这条研究线的全景。

引用本笔记 / Cite this note
BibTeX
@online{eai_touch_vision_cross_modal_2026,
  title       = {(readable note) Connecting Touch and Vision via Cross-Modal Prediction},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/touch-vision-cross-modal/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim