UMI:斯坦福开发的一个机器人数据收集和策略学习框架

通过手持式夹持器和精心设计的接口进行数据收集。

UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。

也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务

UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。

UMI提供了一个便携、直观、低成本的数据收集和策略学习框架,允许直接将多样化的人类演示转化为有效的视觉运动策略。这一框架特别适用于传统遥操作难以完成的任务,如动态、精确、双手操作和长期视角任务。

UMI的主要特点和功能:

1、技能转移:将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。

2、数据收集:通过人类直接操作的方式收集机器人学习所需的动态操作数据,包括视觉信息和动作序列。

3、多平台部署:让通过UMI学习到的机器人操作策略能够跨不同的机器人硬件平台部署,实现硬件无关性。

4、提高机器人操作能力:通过UMI,机器人能学习执行更为复杂、精细的操作任务,如双手协作、精确操控等。

5、快速适应新任务:UMI使机器人能够通过观察人类的操作演示快速学习新任务,无需从头开始编程,提高了机器人适应新任务的速度。

6、降低机器人学习成本:通过使用UMI,可以减少机器人学习和部署新任务所需的时间和资源,降低成本。

7、推动机器人技术在各领域的应用:UMI的使用拓宽了机器人在家庭、服务、制造和其他行业中的应用范围,使其能够更好地服务于人类社会。

UMI关键技术和设计理念:

1、硬件设计:UMI采用手持式夹持器,配备高质量摄像头(如GoPro),用于在执行任务时捕捉视觉数据。这种设计使得数据收集过程既简单又直观,允许操作者自然地演示任务,同时捕获丰富的视觉和操作信息。

手持式夹持器:使用3D打印的平行夹持器,配备软指尖,提高了操作的灵活性和安全性。夹持器中集成了GoPro摄像头作为唯一的传感器和记录设备,用于捕捉操作过程中的视觉信息。

鱼眼镜头:夹持器上安装的155度鱼眼镜头,扩大了视野范围,确保收集到足够的视觉上下文和关键深度信息,对于学习有效的机器人策略至关重要。

侧面镜子:为了弥补单目摄像头无法直接获取深度信息的缺陷,UMI设计中加入了侧面镜子,通过提供隐式立体视图来辅助深度估计。

IMU感知追踪:结合GoPro内置的IMU(惯性测量单元)数据,UMI能够在快速移动下保持稳定的追踪,即使在因运动模糊或视觉特征缺失时也能维持追踪。

2、硬件无关的数据收集:
通过使用通用的手持式夹持器和视觉系统,UMI能够在不依赖于特定机器人硬件的情况下收集数据。这意味着所收集的数据可以用于多种机器人系统,提高了数据的可用性和灵活性。

延迟匹配:UMI通过推理时延匹配处理不同硬件(如流媒体摄像头、机器人控制器、工业夹持器)之间的延迟变化,确保观测流和动作执行之间的时间匹配。

动作表示:采用相对轨迹作为动作表示,消除了对精确全局动作的需求,从而简化了从人类动作到机器人执行动作的转换。

扩散策略模型:使用扩散策略(Diffusion Policy)模型来处理多模态动作分布,增强了策略处理复杂、多样化人类演示数据的能力。

3、推理时延匹配与相对轨迹动作表示:UMI在策略接口中实现了推理时延匹配和相对轨迹动作表示,确保了动作的准确性和时间对齐。这一点对于执行精确和时间敏感的任务至关重要。

4、零次射泛化能力:通过在多样化的人类演示上训练,UMI学习到的策略能够实现零次射泛化到新的环境和对象。这意味着机器人能够在没有见过的情况下执行任务,展示出高度的适应性和灵活性。

现实世界的应用验证:

UMI通过一系列的实验验证了其方法的有效性,包括动态投掷、精确放置、双手协作任务等。这些实验不仅证明了UMI策略的泛化能力,也展示了其在真实世界环境中的应用潜力。

项目及演示:https://umi-gripper.github.io

论文:https://umi-gripper.github.io/umi.pdf

GitHub:https://github.com/real-stanford/universal_manipulation_interface

硬件指南:https://docs.google.com/document/d/1TPYwV9sNVPAi0ZlAupDMkXZ4CA1hsZx7YDMSmcEy6EU/edit?usp=sharing

数据收集说明:https://swanky-sphere-ad1.notion.site/UMI-Data-Collection-Tutorial-4db1a1f0f2aa4a2e84d9742720428b4c?pvs=4

微海报