


【论文链接】https://arxiv.org/pdf/2504.13351v1
项目地址见文末
摘要
背景
贡献
提出CoM这一提示策略,使视觉语言模型能够通过逐步整合视觉和力信息,从多模态人类视频演示数据中进行推理。
实现一次性操作程序生成,即从单个多模态人类演示视频生成机器人控制程序的流程,整合通过肌肉或音频信号获得的力信息,以产生不同技能的细粒度控制参数。
-
证明 CoM 在两种先进的视觉语言模型中都具有一致的优势,且该方法能让视觉语言模型从单个人类视频中学习编写适用于不同真实世界机器人平台的代码,并具备泛化能力。
技术方案

多模态人类演示视频:视频难以捕捉人类执行操作任务的精细细节,尤其是涉及力应用的部分。
因此本文的多模态人类视频在每个时间步包含 RGB 图像、人类肌肉信号或物体交互声音以及手部姿态(图 1)。
肌肉信号和物体交互声音能提供力信息,基于视觉的方法估计的手部姿态可作为另一种输入模态。
CoM:使用视觉语言模型分析多模态人类视频中的丰富信息以提取任务计划描述时,直接将所有模态交织在一起查询模型效果不佳。

因此本文提出 CoM,这是一种提示策略,按顺序查询视觉语言模型以分析每个模态,提取关键信息并逐步聚合结果以生成最终答案(图 2)。
CoM 提示由三部分组成:各模态及其输入数据格式的描述、可用动作集及动作参数的解释、一个视频 - 分析对示例,展示如何分析各模态以生成带参数的已识别动作序列。
编写机器人代码:基于上述对人类视频的分析,最后一步是将动作序列转换为可由机器人执行的代码,通过低级 API 调用实现。

使用相同的视觉语言模型进行代码生成,生成的提示包括视频分析、机器人 API 描述和所需输出格式(图 3)。
实现细节:在数据收集方面,对肌肉信号进行降采样以匹配相机采样率,并取八通道中的最大值作为每个时间步的力信号。
计算每个时间步声音的响度作为输入音频值。
使用 HaMeR 方法估计手部姿态。
在机器人执行方面,机器人 API 调用包含预定义的控制函数,利用感知模型的进展,例如通过查询 Gemini 1.5 Pro 获取目标对象的 2D 边界框,再结合深度信息和相机参数确定其 3D 位置。
实验结果

CoM 有助于理解多模态人类视频,其逐模态分析和逐步生成最终答案的方式比其他基线方法更适合当前 VLM 从多模态人类视频中推理(图 5)。
力信息有助于从人类视频中学习,能显著提高任务计划理解和相似性得分(表 I)。

手部姿态有助于理解精细操作,在打开瓶子任务中,只有使用所有模态作为输入的方法才能获得非零成功率。
CoM 能够从多模态人类视频中提取控制参数,且 VLM 可基于 CoM 分析生成操作程序,控制机器人执行任务的平均成功率达到 73%,在跨实体部署方面也展现出潜力(表 II)。
结论
【项目链接】
https://chain-of-modality.github.io/阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
上下滑动查看更多