3DShape2VecSet: 3D Shape Representation for Diffusion Models
这是给完全零基础读者的精读笔记。所有术语第一次出现都用初高中常识做类比,绝不假设你学过编程或人工智能。
一句话讲什么(TL;DR)
把一只 3D 柯基拆成 512 张小卡片;电脑学会卡片的规律,就能凭空造出新的 3D 模型。
所以这一节是想说:这是一篇关于"怎么让电脑造 3D 模型"的论文。
这是个什么场景
想象你在某个 App 里打字「一只戴墨镜的柯基」,几秒后屏幕跳出一张图——这就是大家熟悉的「文字→图」。
但要是你想把这只柯基做成手办呢?打印机要的不是平面图,而是一只能 360° 旋转、能切片打印的立体狗。这时候「文字→图」就不够用了,需要的是「文字→3D 模型」。
可惜到 2023 年,这条路一直走不通。不是因为电脑不会画画了,而是没人想清楚一个更前的问题:3D 模型这种东西,到底该用什么"格式"递到电脑手里?
打个比方——同样是去菜市场买菜:
- 你可以拎一个袋子,所有东西堆一起;
- 也可以推一辆带格子的小推车,每格放一种;
- 还可以拍张照片回家照着复述。
哪种"装法"决定了回到家做饭顺不顺手。3D 模型也一样,有好几种"装法",但每种"装法"都决定了电脑学得动学不动。
这篇论文要做的,就是给 3D 模型设计一个新的"装法"——让电脑拿到手就能学。
所以这一节是想说:论文要解决的问题是"3D 模型该用什么形式让电脑好学"。

之前的人怎么做的,为什么不够好
3D 模型常见的几种「记法」,各有各的毛病:
- 体素(voxel):把空间切成一个个小立方体,每格记"这里有没有东西"。
- 像素是 2D 方格,体素就是 3D 方格——把空间想成一个 3D 魔方。
- 缺点:分辨率每翻一倍,要存的格子数翻 8 倍。很快电脑内存就爆了。
- 点云(point cloud):在物体表面撒一堆点,记下每个点的坐标。
- 像在土豆表面戳无数针孔,看针尖位置。
- 缺点:点和点之间是空的,表面坑坑洼洼,不光滑。
- 网格(mesh):把物体表面用三角形拼起来,像纸壳模型。
- 类似手工课折纸做的多面体。
- 缺点:哪个三角形挨着哪个三角形——这种"邻居关系"非常乱,电脑很难看懂。
- 一个全局向量:让电脑用一个向量(比如 256 个数字)总结整个形状。
- 像让你用一句话描述整个房子:"一个有屋顶的方盒子"。
- 缺点:太粗了,细节全丢。
- 3D 网格里塞向量:每个 8×8×8 的小格子里放一组向量。
- 像把房子分成 64 个房间,每个房间贴一张便利贴。
- 缺点:分辨率太低,想提高分辨率就训不动。
向量(vector):一组有顺序的数,比如 (3, 5, 2)。高中学过的"3 维向量"。本文里出现的"512 维向量"就是 512 个数排成一列。
所以这一节是想说:现有的所有"3D 记法"要么太占内存,要么太粗糙,要么太混乱。
这篇论文的新想法
类比一下:你整理柯基的照片,老办法是每张照片背后写"这是耳朵 / 这是尾巴 / 拍摄角度 30°"——特征+位置全写上。这篇论文反过来——只写"耳朵尖尖"、"尾巴卷卷",至于这描述的是哪个部位、在哪个角度,让看的人自己悟。
一句话:把 3D 模型压成「一组卡片」,每张卡只记特征、不记位置。
听起来好像差别不大?差别大着呢——之前的所有方法都把"特征"和"位置"绑在一起。这篇论文第一次说:"位置不写也行,电脑能从特征里反推出来。"

所以这一节是想说:论文的核心创新是"扔掉位置坐标,只留特征卡片"。
它分几步做的(方法)
整个方法可以拆成 5 步。每一步解决一个具体问题。

1. 卡片盒表示 — 抛掉坐标只留特征
类比:
把柯基模型装进一个卡片盒,里面塞 512 张索引卡。每张卡只写一句话——"耳朵尖尖"、"四条腿圆圆的"、"尾巴卷卷"——但绝对不写"我描述的是哪个部位"。位置让看卡片的人自己猜。
它在干什么:
把任何 3D 形状压成 512 张卡片,每张卡片是一个 512 维的向量(即 512 个数字)。这 512 张卡是无序的——打乱顺序也没关系,整个集合代表的形状不变。
关键术语解释:
潜向量(latent vector):电脑内部"压缩理解"出来的向量。可以理解成一张速记笔记——人看不懂,但电脑能用它还原原信息。
集合(set):高中学过的概念,元素无序、不重复。本文的"卡片盒"就是 512 个潜向量构成的集合。
特征(feature):描述某个东西的某个方面的数值。比如描述一只狗,"毛长"是一个特征,"耳型"是另一个特征。
为什么这步有用:
- 几何上:"耳朵在头顶才是耳朵"——特征和位置本来就纠缠。强行拆开反而让电脑多学一道。
- 工程上:把 3D 形状变成"一组卡片"后,电脑里有现成的工具可以处理"一组东西",不用专门为 3D 网格写新工具。
所以这一节是想说:用一组无序的卡片来代表一个 3D 模型,去掉位置信息。
2. 把老办法(RBF)写成现代形式
类比:
很久以前的图形学就有一招叫「径向基函数(RBF)」——用一堆带权重的小球叠加出曲面。
想象你在桌子上撒一把不同高度的小山包,山包之间会互相重叠成一个连绵的山脉。每个山包覆盖一片区域,离它越近影响越大,离它越远影响越小。这就是 RBF 的思想。
它在干什么:
作者发现,他们用的"卡片查询机制"和 RBF 在数学上长得一模一样——只是把「山包的形状」从人手写改成了让电脑学。
具体来说,要查询「3D 空间里某个点 x 在不在物体内部」时:
- 老 RBF 做法:x 离每个锚点有多远 → 按距离加权 → 加起来。距离公式是人写死的。
- 本文做法:让 x 去问每张卡片:"你跟我有多像?"按相似度加权 → 加起来。"相似度"是电脑学出来的。
关键术语解释:
RBF(径向基函数 / Radial Basis Function):图形学老办法,用一堆带权重的小山包叠加出曲面。本文把它升级成"可学习版本"。
内积:两个向量对应位置数字相乘再相加。高中学过——两个向量内积大,说明它们方向接近。本文用内积来度量"两张卡片有多像"。
相似度:两个向量像不像。最常用的衡量方法就是内积——两个向量夹角越小,内积越大,越像。
为什么这步有用:
- 论文不是凭空发明新办法,而是把图形学 30 年来的老方法(RBF)写成可以让电脑学的形式。这让审稿人和读者更容易接受。
- "用相似度加权汇总"是一种很通用的工具,不只 3D 能用,处理一组卡片基本都能用。
所以这一节是想说:本文的查询机制可以看成"可学习的 RBF",不是凭空冒出来的怪招。
3. 制卡机(编码器)— 选 512 个代表点

类比:
班上有 2048 个学生(输入点云的 2048 个表面采样点),但卡片盒只能装 512 张卡。怎么选这 512 张?
- 办法 A:准备 512 张空白卡,让电脑自己学"我代表谁"。问题是这些空白卡跟具体哪个学生无关,每只柯基都用同一组空白卡。
- 办法 B:从 2048 个学生里挑出分布最分散的 512 个(一个角落不能挤一堆人)。然后让这 512 个去采访其他所有人,把信息写在自己的卡上。
本文用办法 B。挑分散点的方法叫最远点采样(FPS)。
它在干什么:
- 在物体表面均匀撒 2048 个点,记下每个点的 3D 坐标。
- 用 FPS 算法挑出最分散的 512 个点。
- 让这 512 个点去"问"全部 2048 个点:"我们之间什么关系?"问完每个代表点带回一张卡。
- 输出:512 张卡,每张 512 个数字。
关键术语解释:
点云(point cloud):物体表面撒的一堆点,每个点是一个 3D 坐标。
FPS(最远点采样 / Farthest Point Sampling):从一堆点里挑出空间分布最均匀的子集的算法。先随便选一个,然后每次选离已选点都最远的那个。
位置编码(positional embedding):把一个 3D 坐标 (x, y, z) 变成一个高维向量(比如 256 维)的方法。类比:把"东经 116 度"和"北纬 40 度"两个数变成一句话描述"北京"——更丰富但保留原信息。
编码器(encoder):负责把原始数据压成卡片的那部分电脑程序。本文的编码器吃 2048 个点,吐 512 张卡。
为什么这步有用:
- 让代表点从输入里选,比让它们凭空学,电脑收敛得更快、效果更好。
- FPS 保证 512 个代表点不会全挤在一只耳朵上,能均匀覆盖整个物体。
所以这一节是想说:从输入里挑 512 个分散的代表点,让它们汇总信息成卡片。
4. 再压一次 — 让卡片更短,方便后续学习

类比:
512 张卡,每张 512 个数字 = 一共 26 万个数字。让电脑在 26 万个数字的空间里学习"怎么生成新柯基",相当于让你在一本超厚字典里盲打——理论可行,实际崩溃。
所以再压一道:每张卡只留 32 个数字,整个形状被压到 1 万 6 千个数字。
它在干什么:
- 在 512 张原始卡的基础上,过一道"瘦身"——把每张卡从 512 个数字压到 32 个数字。
- 同时让这些数字「分布得规整一点」,方便下一步用。
- 用的时候再线性升回 512 个数字。
关键术语解释:
概率分布:随机一个数会落在哪些位置、各位置的可能性多大。比如全国人的身高有一个分布——160-175 cm 概率高,220 cm 概率极低。
标准正态分布:一种最常见的钟型概率分布,中心在 0、宽度大致 ±3。物理上很多自然现象(测量误差、身高、考试成绩)都接近这个形状。
KL 正则:一种"惩罚机制"——电脑生成的卡片如果分布偏离标准正态,就给电脑扣分。让卡片"长得规整"。 类比:要求所有同学的笔记本都裁成同一尺寸,方便统一装订。
扣分(Loss):考试扣分总和——越小越好,电脑学习的目标就是想办法把这个分数降下来。本文里"扣分"由两部分组成:
- 重建扣分:还原物体不准确就扣分。
- 规整扣分:卡片分布不规整就扣分。
为什么这步有用:
- 第一阶段(编码 / 还原)即使不压,也能学得不错。但第二阶段(生成新形状)必须压。
- 论文做了一组实验:每张卡留 1 个数字时崩了;留 4 个就够好;留 64 反而最后效果变差。32 是甜点。
所以这一节是想说:把每张卡再压短到 32 个数字,让分布规整,方便第二阶段使用。
5. 在卡片盒里做"扩散"— 学会生成新模型
类比:
前 4 步教电脑「怎么把柯基塞进卡片盒」。这一步教电脑「怎么从一堆雪花变出新的卡片盒,再解码出新柯基」。
怎么做:
- 拿一个真柯基的卡片盒。
- 往每张卡上随机撒"雪花"(随机数字噪声)——卡片越来越花。
- 教电脑:看到一张花的卡片,能不能猜出原来干净的是什么样?
- 学会了之后,反过来——给电脑一堆纯雪花,让它一步一步擦干净,最终变出一个全新的卡片盒,再解码成新柯基。
它在干什么:
- 在 512×32 的卡片盒上做"加噪 - 去噪"训练。
- 想让电脑听条件(比如"画一只椅子")?把条件信息翻译成几个向量,每次去噪时让电脑「参考一下这些向量」。
- 条件可以是:类别(椅子 / 飞机)、单张图、一段文字、半个点云。
- 生成时:从纯雪花开始,做 18 步去噪,得到新卡片盒,再解码成 3D 形状。
关键术语解释:
扩散模型(diffusion model):一种生成新东西的电脑算法。先把训练数据揉成雪花,再教电脑学"擦雪花",最后让电脑从纯雪花反推出全新数据。 类比:一张照片被打湿模糊了,电脑学着把它擦干净——擦熟练了,给它白纸它也能画一张新照片。
去噪器(denoiser):扩散模型里负责"擦雪花"的电脑程序。
条件生成(conditional generation):让生成的结果听话——你说"画椅子",它就画椅子,不会画飞机。靠的是把"条件"翻译成向量喂给去噪器。
采样(sampling):从纯雪花开始一步步去噪、最后得到新东西的过程。本文采样需要 18 步。
为什么这步有用:
- 这个套路完全跟 2D 图片生成一致(你听过的"AI 画图"基本都是这个思路),只是把战场从图片像素换成了卡片盒。
- 之前的人在原始点云上做扩散,效果差很多——因为点云本身就乱。在干净的卡片盒上做就稳得多。
所以这一节是想说:在压好的卡片盒上做"加噪-去噪"训练,电脑就学会从零生成新 3D 模型。

关键数字(What works)
每个数字四个角度看:怎么测的 / 数字是多少 / 跟谁比 / 现实里意味着什么。
数字 1:还原准确度 96.3%(IoU 0.963)
- 怎么测的:拿一个真柯基 → 编码成卡片盒 → 解码回 3D → 测和原柯基重合度。
- 数字:96.3%。
- 跟谁比:之前最好的方法 94.9%,再之前 88.4%,最早的 78.1%。
- 现实意义:96% 以上重合度意味着还原出来的柯基在 3D 软件里肉眼挑不出毛病。这是后续生成新柯基的"地基"。
IoU(交并比 / Intersection over Union):两个形状重合度。完全一样是 1.0,完全不重合是 0。
数字 2:卡片数翻 8 倍只换来 22% 提升
- 怎么测的:固定其他参数,只改卡片数 M ∈ {64, 128, 256, 512},看还原误差。
- 数字:M=64 误差 0.049,M=512 误差 0.038。
- 跟谁比:M 翻 8 倍,误差只降 22%;从 256 翻到 512 只降 2.5%。
- 现实意义:512 张卡是"够用"和"训得动"之间的妥协。继续加卡边际收益很低。普通人能拿到的开源版本就锁死在 512。
数字 3:每张卡 32 个数字是最优解
- 怎么测的:测两件事——还原准确度 + 生成质量。
- 数字:还原 → 越多越好(64 最好);生成 → 32 最好,64 反而变差。
- 跟谁比:32 和 64 在还原上几乎一样(0.963 vs 0.964),但在生成上 32 比 64 好得多(17.08 vs 24.24)。
- 现实意义:这是论文最有指导价值的发现——压缩率不是越低越好,存在一个甜点。换数据集时 32 不一定是最优,得自己试。
数字 4:生成质量比"原始点云扩散"强 16 倍
- 怎么测的:让模型生成 1000 个新形状,跟真实形状比"看起来像不像"。
- 数字:本文 17.08;旧方法 PVD 270.64。
- 跟谁比:差 15.85 倍——一个完整的数量级。
- 现实意义:这条数据基本宣告"不要在原始点云上做扩散,要在卡片盒上做"。后续 3D 大模型(CLAY、Michelangelo、TripoSR)都遵循这条结论。
FID:电脑生成的东西和真实数据"看起来有多像"的分数。越低越像。
数字 5:多样性覆盖度 86%(Recall 0.86)
- 怎么测的:让模型生成各种椅子,看能不能覆盖训练集里所有椅子样式。
- 数字:本文 86%;之前的方法 65% / 57% / 23%。
- 跟谁比:本文领先第二名 21 个百分点。
- 现实意义:高覆盖率意味着模型不会只生成几把"标准椅子",而是各种奇形怪状都能造出来。


所以这一节是想说:本文在还原准确度、生成质量、多样性覆盖三方面都比同期方法强。
你应该懂的几个新词
读完上面这些步骤后,下面这些词你应该都见过了。这里再统一整理。
潜向量(latent vector):电脑内部"压缩理解"出来的向量,相当于速记笔记。
集合(set):无序、不重复的元素集。本文用集合来装卡片,因为顺序不重要。
占有率(occupancy):3D 空间某点是不是在物体内部,0~1 之间的数。本文的最终输出。
神经场(neural field):用一个公式(具体说就是一个学习好的电脑程序)告诉你"3D 空间任何一点的某个属性"。本文的解码器就是一个神经场。 类比:用一个公式代替一张超大的查表手册。
交叉查询(cross-attention):让一组向量去问另一组向量"你们和我多像"。本文的编码器和解码器都用这个机制。
径向基函数(RBF):图形学老办法。一堆带权重的小山包叠加出连续曲面。
最远点采样(FPS):从一堆点中挑出最分散子集的算法。
位置编码:把 3D 坐标变成高维向量的方法。
概率分布:随机一个数落在哪儿、概率多大。
标准正态分布:钟型分布,中心在 0、宽度约 ±3。
KL 正则:让卡片分布"靠近标准正态"的扣分机制。
扩散模型:先把数据揉成雪花、再教电脑擦雪花的生成算法。
所以这一节是想说:把所有新词整理一遍,下次再看到不会懵。
它有什么搞不定的
下面这些是论文自己承认或我从图表看出的局限:
- 训练成本太高:第一阶段需要 8 张顶级显卡(A100,每张约 10 万人民币)训练 3-5 天;第二阶段又要 4 张训 5-7 天。普通人玩不起,公司也心疼。
- 只学过工业品:所有训练数据是椅子、桌子、车、飞机这种规整工业品。换成树、石头、人、动物,效果完全未知。
- 场景太大就不行:512 张卡装一只椅子刚好,装一整间房子会爆。
- 没有颜色和材质:只生成几何形状,不带纹理。要做带颜色的成品还得另外加一个模型。
- 不会动的形状:只能造静态物体,不会造关节运动(比如人挥手的动作)。
- 文字驱动效果一般:你说"一把腿很细的椅子",效果远不如"AI 画图"那种惊艳。原因是 3D 数据集里的文字标注非常少。
- 物理合理性差:生成的椅子可能"看起来对"但腿粗细不一致、重心不稳。这是 3D 生成普遍痛点。
所以这一节是想说:这论文很强但远不能商用——成本高、范围窄、不带颜色、文字驱动弱。
它和别的几篇是什么关系
用集合关系画一下:
它的爸爸辈(本文从这些方法学来):
- 稳定扩散(Stable Diffusion):2D 图片生成的代表作。本文的"先压再扩"两段式套路完全继承自它,只是战场从图片换成 3D。
- 3DILG:本文作者团队的前作。本文是把 3DILG 简化升级——拿掉了"位置坐标"这个累赘。
- Perceiver:用"交叉查询"做一组到一组转换的源头。本文的编码器就是 Perceiver 风格。
它的兄弟辈(同时期不同思路):
- NeuralWavelet:不学卡片表示,直接在数学上的"小波系数"做扩散。本文把它比下去了。
- TriplaneDiffusion:用三个 2D 平面来代表 3D,是另一种"压缩思路"。
它的儿子辈(基于本文骨架的新工作):
- CLAY:本文作者的"工业版",把卡片盒思想 scale 到 15 亿参数 + 几百万 3D 模型。当前最强开源 3D 生成模型之一。
- Michelangelo:在本文卡片盒上对齐文字,解决了本文文字驱动弱的问题。
- TripoSR:图变 3D 的工业实现,秒级出结果。
时间线大概是:
2022 Stable Diffusion
2022 3DILG (本文前作)
↓
2023 本文(3DShape2VecSet)
↓
2023-2024 CLAY / Michelangelo / TripoSR
所以这一节是想说:本文是"2D 图片生成范式"在 3D 领域的奠基性翻译,后续 3D 大模型基本都站在它肩膀上。
我建议这样读这篇
零基础读者建议路线:
- 先看 Fig. 1(img_000.jpg)——一眼看清楚"这论文能干什么":单图变 3D、文字变 3D、点云补全、按类别生成。先有动机再深入。
- 跳到 Fig. 2(img_006.jpg)四种 3D 记法对比——全文最关键的一张图。看完你就懂"卡片盒"和前人有什么不一样。
- 读第 4 节方法的前半部分(4.1-4.2)——RBF → 交叉查询的推导。如果数学卡住,记住一句话:交叉查询是"可学习的 RBF"。
- 看 Fig. 6(img_018.jpg)整体流程图 + 第 5 节训练设置——把抽象方法落到具体步骤。
- 跳过实验细节,直接看 Table 3 + Table 4 + Fig. 11——拿数字感受一下方法的强弱即可。
- 回头看第 2 节相关工作——读完方法再看相关工作,比一开始读它信息量大十倍。
所以这一节是想说:先看图找直觉,再看核心数学,最后回看相关工作。
一些好奇心问答(FAQ)
Q1:这模型多大?
论文没明说参数量。粗略估算:整个流程大概 1 亿到 2 亿参数。作为对比,AI 画图模型 SD v1.5 是 8.6 亿参数,差不多大一个数量级。
Q2:训练数据从哪来?
主要来自一个叫 ShapeNet 的免费学术数据集,里面有约 5 万个人造物体的 3D 模型,分 55 类(椅子、桌子、车、飞机等)。学术免费用,商用要联系作者授权。
Q3:我能在自己电脑上跑吗?
- 生成(推理):可以。一张 RTX 3090 / 4090(约 1-2 万人民币)就能跑生成。但生成的形状只能是 ShapeNet 那 55 类。
- 训练:基本不可能。需要至少 4 张 A100,普通人买不起也租不起。
Q4:为什么不直接用 3D 网格 / 点云?
都试过了:
- 体素 / 网格:分辨率太低存不下细节,分辨率高了内存爆。
- 点云:表面坑坑洼洼,扩散模型在上面学,效果差 16 倍。
- 卡片盒:紧凑、连续、好学。
Q5:512 张卡是怎么定的?
实验定的。卡片数从 64 翻到 512 误差降 22%,但从 256 翻到 512 只降 2.5%——明显的边际递减。再加 8 张顶级显卡的训练成本,512 是甜点。
Q6:每张卡 32 个数字也是实验定的?
是。论文做了完整对比:1 / 2 / 4 / 8 / 16 / 32 / 64。结论是 1 太少崩了,4 起够用,但要做生成的话 32 最好,64 反而变差。这条曲线长得像 U 形。
Q7:跟"AI 画图"是同一种思路吗?
骨架完全一样:先把数据压成"潜表示",再在潜表示上加噪去噪学生成。区别只在潜表示的形状——AI 画图是 2D 网格(图片像素),本文是 1D 集合(卡片盒)。
Q8:生成时随机性来自哪里?
来自最开始那堆"纯雪花"——每次生成时电脑会重新随机一堆雪花,去噪 18 步出来一个新形状。换不同雪花就出不同形状。
所以这一节是想说:模型规模是中等、数据是 ShapeNet、能在好显卡上跑生成、和 AI 画图同根同源。
如果你想再深入
按"和本文关系紧密度"排:
- 稳定扩散(Stable Diffusion / Latent Diffusion)——本文范式来源。先看这篇你才知道"先压再扩"为什么是当代生成的主流。
- 3DILG——本文前作,本文的直接对照组。读完你才懂"扔掉位置坐标"是多大的简化。
- CLAY——本文作者的工业版续作。如果你只读一个续作就读这个。
- NeRF(神经辐射场)——3D 神经场入门必读。和本文是不同方向但共享"用网络代表 3D"的思想。
- Marching Cubes——把占有率网格转成三角网格的经典算法。本文最后一步用它出最终模型。
所以这一节是想说:先看 SD 懂范式,再看 3DILG 懂动机,再看 CLAY 看续作,NeRF 拓宽视野。
◼
引用本笔记 / Cite this note
@online{eai_3dshape2vecset_2026,
title = {(readable note) 3DShape2VecSet: 3D Shape Representation for Diffusion Models},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2023 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/3dshape2vecset/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim