前言
具身智能近两年备受关注,行业发展也非常迅速,涌现出了非常多的优秀公司和优秀方案。本文计划对了解到的一些比较有参考价值的开源方案做个罗列,当然后续也会持续补充更新。有的可能已经写过文章详细介绍,其他后续有时间再单独详细补充。也欢迎大家讨论补充,共同学习共同进步。
文章按照开源硬件方案、遥操作与控制方案、开源数据与数据生成、manipulation方案、VLM与VLA大模型、世界模型、相关公司等几个方向梳理。
一、开源硬件方案
1. Mobile ALOHA:低成本遥操作双臂移动机器人
斯坦福大学推出的一个低成本的移动操作系统,该系统支持双手操作和全身遥操作。详细介绍见Mobile ALOHA。选择了AgileX Tracer AGV作为移动基座,并设计了一个全身遥操作系统,允许同时控制基座和两个手臂。为了使移动操作器无束缚,在基座上放置了一个1.26千瓦时的电池,重量为14公斤,它也作为平衡重量以避免翻倒。所有数据收集和推理计算都在配备Nvidia 3070 Ti GPU(8GB VRAM)和Intel i7-12800H的消费级笔记本电脑上进行。
笔记本电脑接受来自三个Logitech C922x RGB网络摄像头的流媒体,分辨率为480x640,频率为50Hz。两个摄像头安装在跟随机器人的手腕上,第三个面向前方。笔记本电脑还通过USB串行端口接受所有4个手臂的本体感知流,并通过CAN总线接受Tracer移动基座的流媒体。记录移动基座的线性和角速度,以用作学习策略的行动。同时记录所有4个机器人手臂的关节位置,用作策略的观察和行动。
2. UMI:便捷低成本的手持夹爪数据收集方案
又是斯坦福,包括后面的humanplus也是出自斯坦福,respect。斯坦福大学与哥伦比亚大学、丰田研究生的研究人员提出一种名为通用操纵界面(UMI)的数据收集与策略学习框架,该框架允许将人类演示直接转化为可部署的机器人策略。UMI使用手持式夹爪,并精心设计界面,以实现便携、低成本且信息丰富的数据收集,用于挑战性的双手操作和动态操纵演示。为了促进可部署策略的学习,UMI整合了一个精心设计的策略界面,具有推断时延匹配和相对轨迹动作表示。由此学到的策略不依赖于特定硬件,可跨多个机器人平台部署。凭借这些特点,UMI框架开启了新的机器人操纵能力,通过仅更改每个任务的训练数据,实现了零样本泛化的动态、双手操作、精确和长时程行为。我们通过全面的现实世界实验证明了UMI的通用性和有效性,通过UMI学习的策略在训练多样化人类演示后,能够零样本泛化到新的环境和对象。
上图中①是一个gopro相机,④是“相机① ”中自带的IMU,用于姿态跟踪,②是带有广角视野的鱼眼镜头,③是两个侧面镜用于提供立体视觉,⑤是二维码,用于对夹持器的跟踪,⑥是基于运动学的数据过滤。
二、遥操作与控制方案
其实上一章节中Aloha也属于遥操作的一种,这里不赘述了。
1.OmniH2O-通用且灵巧的人形机器人全身远程操作和学习
OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learninghttps://omni.human2humanoid.com/https://omni.human2humanoid.com/https://omni.human2humanoid.com/
CMU与交大联合推出的OmniH2O(Omni Human-to-Humanoid),这是一个基于学习的全身人形机器人遥操作和自主系统。利用运动学姿态作为通用控制界面,OmniH2O使人类能够以多种方式控制具有灵巧手的全尺寸人形机器人,包括通过VR头盔进行实时遥操作、语音指令和RGB摄像头。OmniH2O还能通过学习遥操作演示或与前沿模型如GPT-4集成来实现完全自主。OmniH2O在各种现实世界的全身任务中展现了多样性和灵巧性,无论是通过遥操作还是自主性,如参与多项体育运动、移动和操纵物体以及与人类互动。我们开发了一个基于RL的模拟到现实 pipeline,包括大规模目标重定向和增强人类运动数据集、通过模仿特权教师策略学习具有稀疏传感器输入的现实世界可部署策略,以及奖励设计以增强鲁棒性和稳定性。我们发布了第一个包含六项日常任务的人形全身控制数据集OmniH2O-6,并展示了从遥操作数据集中学习人形全身技能。
2. HumanPlus-模仿人类的影子人形机器人 Stanford HumanPlushttps://humanoid-ai.github.io/https://humanoid-ai.github.io/https://humanoid-ai.github.io/
本文提出了一个针对人形机器人从人类数据中学习动作和自主技能的全面系统。首先,我们通过使用现有40小时的人类运动数据集在模拟中通过强化学习训练了一个低级策略。这个策略能够转移到现实世界,并允许人形机器人仅使用RGB摄像头实时跟随人体和手部动作,即“影子”操作。通过影子操作,操作者可以遥操作人形机器人,收集全身数据以学习现实世界中的不同任务。利用收集到的数据,我们然后执行监督式行为克隆,使用自我中心视觉训练技能策略,使人形机器人通过模仿人类技能自主完成不同任务。我们在自定义的33自由度180cm人形机器人上展示了该系统,机器人能够自主完成穿鞋站立和行走、从仓库货架上卸载物体、折叠卫衣、重新排列物体、打字和与另一机器人问候等任务,成功率达到60-100%,使用了多达40次演示。
3. HugWBC-人形统一全身控制器
HugWBChttps://hugwbc.github.io/上海交通大学与上海人工智能实验室联合发布,HugWBC(Humanoid Unified Whole-Body Controller),该技术通过扩展指令空间、结合控制理论与强化学习,实现了对机器人步态、姿态、动作的细粒度控制,并支持实时外部介入操作。HugWBC不仅突破了传统机器人控制器的功能局限,还为未来人形机器人在工业、医疗、救援等复杂场景中的应用奠定了技术基础。
三、开源数据与数据生成方案
1. google Open X-Embodiment
GitHub - google-deepmind/open_x_embodiment
Google的Open X-Embodiment数据集是由DeepMind联合全球33家顶级学术机构(包括斯坦福大学、上海交通大学等)共同构建,旨在推动机器人通用策略(X-robot)的研究。其旨在解决机器人学习中的数据稀缺和泛化能力不足问题。传统方法需为每个机器人或任务单独训练模型,而Open X-Embodiment通过整合跨平台、跨任务数据,支持训练通用型机器人策略。
覆盖范围:22种机器人类型(如单臂、双臂、四足机器人),527种技能(如抓取、放置、组装),160,266项任务,超过100万条真实机器人轨迹。
数据来源:整合60个现有数据集(如RoboNet、BridgeData V2、Language Table等),总数据量约3600GB。
统一格式:所有数据转换为RLDS(Robot Learning Data Storage)格式,支持高效并行加载和跨平台兼容。
观测与动作对齐:将不同机器人的观测(如RGB图像)和动作(末端执行器7自由度控制)映射到统一空间,便于模型训练。
机器人类型:涵盖Franka、xArm、Google Robot等主流机器人,其中Franka和xArm数据量最大。
任务场景:家庭、厨房、工业环境,操作对象包括家具、食物、工具等。
技能分布:以“拾取-放置”为主,但包含长尾技能(如擦拭、装配)。
语言与视觉结合:部分数据集提供自然语言指令,支持语言条件策略训练(如“将苹果移到布料附近”)。
2. RoboMind
北京人形机器人创新中心、北大和北京智源研究院的工作。
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation
RoboMIND是一个大规模的真实世界机器人操作数据集,旨在为机器人操作任务提供高质量的多具身智能规范数据。
数据收集:通过人类远程操作收集,涵盖多视角RGB-D图像、机器人本体感知状态信息、末端执行器细节以及任务的语言描述。涉及4种不同的机器人模型(Franka Emika Panda、Tien Kung人形机器人、AgileX Cobot Magic V2.0双臂机器人和UR-5e),共收集了55k条高质量演示轨迹,涵盖279种多样化任务和61种不同物体类别。
语言注释:为10,000个成功的机器人运动轨迹提供精细的语言注释。注释过程包括使用Gemini工具根据操作顺序对视频进行分段并生成详细文本描述,然后手动细化注释,确保描述的准确性、细节性、时间逻辑一致性等。
标准化设置:具有标准化的数据收集程序,便于其他机器人专家使用。其异构实现、多样化的任务和各种技能适合训练可推广的策略,无论是针对原始技能还是长期操作。
应用场景:可用于训练机器人模型以执行复杂的操作任务,提升模型在真实世界任务中的表现和泛化能力。还可用于评估不同模仿学习方法的性能。
RoboMIND与Open X-Embodiment对比
对比维度RoboMINDOpen X-Embodiment数据规模55k轨迹,涵盖279种任务超过100万轨迹,涵盖527种技能数据标准化程度高,通过精心设计的标准化程序收集相对较低,数据来自多个机构,设置差异较大语言注释为10,000个成功轨迹提供精细语言注释未明确提及语言注释的详细程度机器人模型多样性包含4种机器人模型包含22种机器人模型应用场景主要用于训练可推广的操作策略,提升机器人在真实世界任务中的表现和泛化能力探索训练“通用”机器人策略,使其能够高效适应新的机器人、任务和环境优势标准化设置便于使用,异构实现和多样化任务适合训练泛化策略数据规模大,涵盖多种机器人模型和技能,适合训练通用模型
3. 智元AgiBot World
AGIBOT WORLD
大多数现有的机器人学习数据集主要以受限环境中的短程任务为主,低质量数据以及有限的感知能力限制了其在现实场景中的应用。
AgiBot World 包含了超过百万条原子动作轨迹,采集自 100 个同构型机器人,涵盖五大领域中的 100 余种真实场景,涉及精细操作、工具使用、多机协作等复杂任务。AgiBot World 基于全身可控的移动式双臂机器人进行数据采集,配备了视觉触觉传感器、六维力传感器、六自由度灵巧手等先进设备,可用于模仿学习、多智能体协作等前沿研究。
长程任务数据规模是 Open X-Embodiment 的10倍。适用于复杂任务和长程任务的训练,支持多机器人协作。
AgiBot World在数据规模和场景覆盖范围上具有显著优势,数据质量更高,适合复杂任务和长程任务的训练。
RoboMIND在语言注释和数据标准化方面表现出色,适合需要高质量、标准化数据的研究场景。
Open X-Embodiment在机器人多样性和数据规模上具有优势,但数据质量参差不齐,适合跨平台、跨任务的泛化能力研究。
4. RoboTwin-结合现实与合成数据的双臂机器人基准
GitHub - TianxingChen/RoboTwin: RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins
RoboTwin 是由香港大学、松灵机器人、上海人工智能实验室、深圳大学和中国科学院自动化研究所共同开发的双臂机器人策略学习基准数据集。该项目旨在通过结合现实世界的遥操作数据与数字孪生的合成数据,解决双臂机器人领域训练数据稀缺的问题,推动双臂机器人在复杂任务中的灵活性和效率提升。
数据收集平台:使用 AgileX Robotics 开发的开源 COBOT Magic 平台,配备四个 AgileX Arms 和四个 Intel Realsense D-435 RGBD 摄像头,安装在 Tracer 底盘上。该平台能够收集工具使用和人机交互等任务的高质量数据。
数字孪生生成:开发了一种创新方法,使用AIGC(Rodin 平台),从单个 2D RGB 图像构建详细的 3D 模型。这种方法不仅降低了成本,还提供了逼真的视觉效果并支持物理模拟。
专家数据生成:利用大型语言模型(LLMs)自动生成专家级训练数据和特定任务的姿态序列。例如,通过 GPT-4-V 自动生成任务特定的姿态序列,并通过 GPT-4 生成代码调用轨迹规划工具,简化编程和加快机器人系统部署。
任务多样性:设计了17个任务,涵盖工具使用、人机交互和双臂协同操作。其中9个任务强调工具使用,5个涉及人机交互,6个任务需要双臂协同。
高质量注释:每个任务收集30条轨迹,关键子轨迹以较慢的速度收集,以增强轨迹细节。
真实到模拟的高效管道:通过从单张 2D 图像生成 3D 模型,实现了从现实到模拟的高效转换。
5. DexGrasp Anything-物理感知驱动的通用机器人灵巧抓取方法
https://github.com/4DVLab/DexGrasp-Anything
1. 物理感知的扩散生成框架 提出了一种基于扩散模型的灵巧抓取生成方法(DexGrasp Anything),通过在训练阶段(Physics-Aware Training)和采样阶段(Physics-Guided Sampler)深度整合三类物理约束: 表面拉力(Surface Pulling Force, SPF):确保手部内表面与物体表面接近,优化接触质量; 外部穿透排斥力(External-penetration Repulsion Force, ERF):防止手与物体的几何穿透; 自穿透排斥力(Self-Penetration Repulsion Force, SRF):约束手部关节间距,避免手指自碰撞。 该框架通过后验采样迭代优化生成过程,显著提升抓取姿势的物理合理性与成功率(Suc.1/Suc.6指标提升约10-20%)。
2. 最大规模灵巧抓取数据集(DGA Dataset) 构建了包含340万抓取姿势的DexGrasp Anything Dataset (DGA),覆盖15,698个物体,整合多源数据(仿真、真实采集、人类手部抓取)并采用**“模型在环”生成策略**(Model-in-the-Loop)。通过严格物理验证(如位移稳定性、穿透距离限制),其数据规模与多样性远超现有数据集(如DexGraspNet、GRAB),支持模型在零样本场景下的强泛化能力。
3. LLM增强的语义表征提取 提出结合大语言模型(LLM)的物体表征提取模块,通过语义提示(如物体类别与形状描述)生成语义-几何融合特征,并利用跨注意力机制注入扩散模型。实验表明,该设计(Ours w/ LLM)进一步优化了复杂物体的抓取生成质量(如成功率提升3-5%),尤其在语义相关的抓取策略选择中表现突出。
四、manipulation方案
1. ACT
GitHub - tonyzhaozh/act
2. diffusion policy
Diffusion Policy:基于扩散模型的机器人动作生成策略-CSDN博客
3. voxposer
VoxPoser
4. rekep
ReKep:基于关键点的机器人操作时空推理新范式-CSDN博客
5. TorchRL
GitHub - pytorch/rl: A modular, primitive-first, python-first PyTorch library for Reinforcement Learning.
模块化的基于python的强化学习pytorch库。
五、VLM与VLA大模型
1. 谷歌RT系列
RT-1、RT-2、RT-H:谷歌具身智能系列工作-CSDN博客
2. GR-2
字节工作
gr2-manipulation.github.io
3. openVLA
GitHub - openvla/openvla: OpenVLA: An open-source vision-language-action model for robotic manipulation.
4. openpi
Open Sourcing π0
六、世界模型
英伟达cosmos
Cosmos | NVIDIA Developer
智元机器人EnerVerse
https://sites.google.com/view/enerverse
EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏记忆机制(Sparse Memory)和自由锚定视角(Free AnchorView,FAV),显著提升4D生成能力和动作规划性能。实验结果表明,EnerVerse在机器人动作规划任务中达到了当前最优水平。
七、相关公司
未完待续。。