机器人终于学会"看视频涨技能"了,清华+星尘智能团队的CLAP框架究竟做了什么?

2026-05-08100

机器人领域有一个长期存在的尴尬:人类在互联网上留下了海量的操作视频,做饭、整理、搬运、装配……但这些视频对机器人来说几乎毫无用处,因为视频里没有力矩数据,没有关节角度,没有任何机器人能直接消化的动作标注。

要训练一个能干活的机器人,研究者们不得不一遍遍地让机器臂做演示、采集轨迹、打标注,成本高、规模小、泛化差。这个矛盾在具身智能圈子里已经讨论很多年了。

Image
 

清华大学联合星尘智能(Astribot)、香港大学和MIT的研究团队,在今年1月发布了一个叫做CLAP的框架,全称Contrastive Latent Action Pretraining。核心思路是:用对比学习把人类视频里的视觉变化,强行对齐到机器人能执行的物理动作空间上,让机器人真正从"看视频"这件事里学到可用的技能。

 

PART 01

现有方法卡在哪里?

 

在CLAP之前,已经有一类叫做"隐动作模型"(Latent Action Models)的方法在尝试利用视频数据。思路是从视频帧的变化中推断出某种潜在的动作表征,再把这个表征迁移给机器人用。

但这类方法有一个根本性的缺陷,论文里称之为"视觉纠缠"(visual entanglement)。

视频里除了操作动作,还有大量无关信息:背景里走过的人、窗外变化的光线、手旁边摆着的其他物品。隐动作模型在从视频帧差异里提取"动作"时,往往无法区分哪些变化是真正的操作行为,哪些只是环境噪声。结果就是,模型学到的表征里掺杂了大量和操作无关的视觉信号,一旦换个场景或者背景稍微变一下,性能就会大幅下滑。

Image
 

CLAP的解法是引入一个"锚点"——机器人自己的本体感知数据。虽然机器人数据量少,但质量有保证,每一条轨迹都对应真实可执行的物理动作。CLAP要做的,就是让视频里提取出的动作表征,强制向这个可信的物理空间靠拢。

 

PART 02

CLAP框架是两个VAE搭起来的对齐系统

 

CLAP框架的核心由两个变分自编码器构成,分别处理不同模态的数据。

Image
 

第一个叫ActVAE(动作量化自编码器),专门处理机器人轨迹数据。它把连续的关节运动序列编码成离散的token序列,背后是一个VectorQuantized VAE(VQVAE)结构。编码器把轨迹映射到连续隐空间,再通过一个可学习的码本(codebook)做最近邻离散化,每条轨迹最终被表示成一串离散token。

这个码本就是整个框架的"锚点",它定义了一套物理上有意义的动作词汇表。论文中通过率失真分析(ratedistortion analysis)确定了最优配置:隐序列长度Nq=16,码本大小K=256。这个组合在重建精度(PSNR 40.00 dB)和压缩率之间取到了"肘部"平衡点,既保证了控制精度,又不会让后续VLM的序列长度过于膨胀,影响注意力机制的语义捕捉能力。

第二个叫VDVAE(视觉动态量化自编码器),专门处理视频数据。给定两帧图像ot和ot+H,VDVAE的逆动态编码器把帧间变化分解成两路:动作相关隐变量zv,a和动作无关隐变量zv,i。

动作无关那一路专门用来捕获背景变化、光照变化等环境噪声,通过一个独立的可学习码本量化,并施加L1稀疏正则化,迫使它只存放真正与操作无关的信息。动作相关那一路则被强制量化到ActVAE已经建好的固定码本上——这意味着视频里提取出的动作表征,必须落在机器人物理动作空间已经定义好的词汇表里。

视觉特征的提取用的是冻结的DINOv3骨干网络,在特征空间而非像素空间计算重建损失,这个选择有效减少了像素级噪声对动态学习的干扰。

 

PART 03

对比学习如何建立"翻译桥梁"?

 

光是把视频动作量化到机器人码本上还不够。CLAP在此基础上引入了一个对比损失,使用SigLIP(Sigmoid Loss for LanguageImage PreTraining)来做跨模态对齐。

对于一条机器人轨迹,ActVAE编码器产生连续动作隐变量za。对于对应的视频帧对,VDVAE的逆动态编码器产生视觉动作隐变量zv,a。对比损失要做的,就是让同一个动作的这两种表征在隐空间里互相靠近,同时把不同动作的表征推远。

对于没有机器人配对数据的纯人类视频,CLAP采用自监督方式:zv,a自己作为正样本锚点,与批内其他样本的表征做对比。虽然正样本对是自身(trivially positive),但对比信号来自于把它和大量负样本区分开这个过程,依然产生了有效的学习信号。

这套机制实际上实现了一件关键的事:它强迫模型只关注那些在人类视频和机器人数据中都能对应上的动作语义,背景噪声因为在机器人动作空间里找不到对应位置,自然就被分流到动作无关那一路去了。

消融实验验证了这个机制的必要性。在真实机器人实验中,去掉对比对齐损失后,InDistribution任务的成功率没什么变化,但OutofDistribution的"制作花束"任务成功率从35%直接跌到20%。去掉人类视频数据之后,OOD成功率更是崩到了5%,整体平均成功率下降11.3%。这说明对比学习和人类视频数据缺一不可,两者共同撑起了模型的泛化能力。

 

PART 04

CLAP-NTP和CLAP-RF,两条腿走路

 

在对齐好的隐空间基础上,研究团队开发了两套VLA模型,底座都是Qwen3VL4B。

CLAP-NTP是自回归模型,把对齐后的离散动作token加入到VLM的词汇表里,用nexttoken prediction(NTP)方式联合预测子任务规划和动作token序列。这种方式天然继承了大语言模型的语义理解能力,在指令跟随和物体泛化上表现强。比如在"制作花束"任务里,桌上摆着五种不同颜色的毛线花,机器人需要根据自然语言指令识别并放入指定的两种,CLAP-NTP在这类需要语义对应的任务上有明显优势。

CLAP-RF是流匹配模型,用Rectified Flow目标训练一个DiT(Diffusion Transformer)动作专家,接收VLM主干网络的隐状态作为上下文条件,输出连续的高频动作序列。为了在不引入整个VLM特征层次的情况下保留语义信息,CLAP-RF采用多尺度特征采样策略,从Qwen3VL4B的第{112, 14, 16, 18, 20, 22, 24}层分别采样特征并融合,既保留了浅层的空间细节,又纳入了深层的语义抽象,同时把特征提取深度控制在16层以内,避免推理延迟过高。

在延迟测试上,单张RTX 3090上,CLAP-RF的推理延迟是183毫秒,与π0的169毫秒基本持平,远低于OpenVLA的454毫秒和FAST的834毫秒。CLAP-NTP因为自回归生成的顺序性,延迟达到788毫秒,适合规划类任务而非高频控制。

 

PART 05

知识匹配:防止"学了新的,忘了旧的"

 

把一个在真实双臂机器人、自我中心视角下预训练好的模型,拿去微调到仿真单臂、第三人称视角的新任务上,这中间存在巨大的分布偏移。直接做全量微调很容易出现灾难性遗忘——新任务学会了,预训练积累的物理先验却被覆盖了。

Image
 

CLAP提出的知识匹配(Knowledge Matching, KM)正则化策略,本质上是在微调过程中给模型加了一根"缰绳",把策略更新锚定在预训练参考模型的信任域内,限制参数偏移幅度。

在LIBERO基准上的消融实验对比很直观:直接全量微调VLM(ft. VLM)的平均成功率是82.0%,其中长程任务(LIBEROLong)只有64%。使用另一种知识隔离(Knowledge Insulation, KI)策略时,平均成功率更是只有56.8%。而用KM策略后,平均成功率达到91.0%,长程任务提升到82%。尤其是在长程规划这种需要同时依赖预训练语义理解和新任务适配的场景里,KM的优势最为明显。

 

PART 06

实验结果:真实机器人和仿真基准双线验证

 

真实机器人实验在Astribot S1平台上进行,这是一款双臂7自由度机器人,配备头部、躯干和腕部三处摄像头,通过Meta Quest 3S VR遥操作采集专家演示。测试任务覆盖五类:

  • 抓取与放置:90种不同物体,测试分布内和分布外泛化
  • 整理桌面:涉及多种日常物品的分类放置
  • 打包玩偶:长程多阶段任务,需精确放入盒子并盖盖
  • 折叠T恤:双臂协调操作柔性物体
  • 制作花束:需根据语言指令在五种花中选取指定两种
Image
 

综合五类任务,CLAP-RF平均成功率61.0%,超过π0的54.0%,与π0.5的60.0%相当。UniVLA只有35.0%,差距相当明显。在鲁棒性测试中(背景变化、光照变化、新物体),CLAP-RF在各种扰动下均表现最稳,平均成功率66.7%,π0是46.7%,π0.5是56.7%,UniVLA只有16.7%。

图片
 

LIBERO仿真基准上,CLAP-RF作为通用模型(单一模型覆盖全部四个子集),平均成功率91.0%,超过SmolVLA(88.8%)和π0(86.0%)。在长程任务(LIBEROLong)上得到82%,比排在第二的SmolVLA(77%)高出5个百分点。值得注意的是,CLAP-RF作为通用模型,还接近甚至超越了不少只在单一子集上训练的专用模型,比如OpenVLA的76.5%。

 

PART 07

结语与未来

 

具身智能这条赛道上,数据问题一直是个绕不开的坎。CLAP的出现至少证明了一件事:视频数据不是不能用,关键是怎么用。用对比学习建立视觉和物理动作之间的"翻译桥梁",这个思路在当前阶段是走得通的。随着视频数据的持续增长和模型架构的进一步优化,这个方向还有不少可以挖的空间。

论文地址:https://arxiv.org/pdf/2601.04061

项目地址:https://lin-shan.com/CLAP/