你的位置:世博网站(官方)APP下载-登录入口IOS/Android通用版/手机版 > 新闻资讯 >
发布日期:2025-11-13 11:12 点击次数:104

在机灵手通用抓取的磋磨中世博体育,由于看成空间维度高、任务具有长程探索特征且波及各样化物体,传统强化学习(RL)濒临探索效力低、奖励函数及考研过程规划复杂等挑战。
基于此,北京大学及 BeingBeyond 团队淡薄DemoGrasp框架——
一种浅显且高效的通用机灵手抓取学习措施。

该措施以一次到手的抓取演示轨迹为最先,通过对轨迹中的机器东说念主看成进行剪辑,以得当不同物体与姿态:更动腕部位姿用于确定"抓取位置",调养手指关键角度用于确定"抓取神志"。
这一中枢转换——将邻接决议的多步 MDP(马尔可夫决议过程)重构为基于轨迹剪辑的"单步 MDP "——有用进步了强化学习在抓取任务上的学习效力和迁徙到真机的性能。

中枢规划:单条演示 + 单步 RL 从"多步探索"到"全局剪辑"
传统 RL 的逆境:高维看成空间的复杂探索
看成空间:每一步都需要输出高开脱度机器东说念主所关联节的请示。
奖励规划:需要规划极其复杂的密集奖励函数,指点机器东说念主遁藏碰撞、斗争物体、到手抓取、平滑通达等。
课程学习:需要规划复杂的多阶段学习历程,匡助 RL 探索
DemoGrasp 的中枢转换在于用 "单条到手演示轨迹" 替代 "从零开头的探索",将高维抓取任务回荡为 "演示剪辑任务",再通过单步 RL 优化剪辑参数,最终献媚视觉效法学习结束虚实迁徙。

单条演示和轨迹剪辑
一条抓取特定物体的到手轨迹包含了抓取任务通用的模式(如 "蚁合物体→闭捏指→抬起手腕"),只需调养轨迹中的手腕和手指抓取神志,即可适配没见过的新物体。
DemoGrasp 只需要对一个物体(比如一个方块)采集一条到手抓取演示轨迹,即可通过物体中心的轨迹剪辑作念出新物体、新位置的抓取步履:
手腕位姿剪辑:在物体坐标系下,对原始轨迹中的每一个手腕位点施加一个谐和的变换 T ∈ SE ( 3 ) ,通过机动地调养手腕抓取方针和位置,得当不同大小、时局、合乎抓取点的物体。
手指关键剪辑:敌手指的抓取关键角施加一个增量 Δ q_G,通过与演示轨迹的等比例插值,产生一条机灵手从驱动展开姿态平滑到达新的抓取姿态的看成轨迹。
单步强化学习
在仿真环境中,DemoGrasp 行使 IsaacGym 创建了数千个并行全国,每个全国里都有不同的物体和摆放场景。
学习过程:每一个仿真全国中,战术汇集把柄驱动的不雅测(终端位姿和物体点云、位姿) 输出一组手腕和手指剪辑参数,实施剪辑后的轨迹,把柄实施过程是否"抓取到手"和"发生碰撞"取得奖励。
通过海量试错和在线强化学习,战术学会把柄不同时局物体的不雅测输出合乎的剪辑参数。
考研效力:在这个紧凑看成空间的单步 MDP 问题上,DemoGrasp 使用单张 RTX 4090 显卡考研 24 小时即可管理到>90% 的到手率。
视觉蒸馏,虚实迁徙
仿真中的强化学习战术依赖精准的物体点云和位姿,这在践诺中难以获取。DemoGrasp 通过视觉效法学习,将战术蒸馏成与真机对皆的 RGB 战术,结束从仿真到真机的平直迁徙。
数据网罗:在仿真中运行强化学习战术,记载下上万条到手轨迹:包括渲染的相机 RGB 图像、每一技巧的机器东说念主实质感知和关键角看成。
模子考研:罗致流匹配(Flow-Matching)生成模子的措施,学习从图像不雅测和机器东说念主实质感知展望看成。为减轻仿真到真机的视觉图像互异,考研还使用了预考研的 ViT 索求图像特征,并在仿真数据网罗时充分地进行域就地化(就地化光照、配景、物体神采纹理、相机参数等)。
多模态适配:DemoGrasp 适配单目 / 双目、RGB/ 深度相机等多种相机不雅测。实验标明,双目 RGB 相机组合的成果最好,大致更好地减少障翳、行使纹理和概述等信息到手抓取小而薄的物体。
实验法令:仿真和真机双优,全面进步机灵抓取的泛化性和膨胀性
DexGraspNet 是机灵抓取限度的泰斗数据集(3.4K 物体)。
DemoGrasp 在该数据集上使用 Shadow Hand 抓取,性能权贵优于现存措施:视觉战术到手率达到 92%,考研集到测试集的泛化差距仅 1%,且得当大范畴的物体驱动位置就地化(50cm × 50cm)、具备更强的空间泛化才气。

跨实质膨胀:适配即兴机灵手和机械臂实质
DemoGrasp 无需调养任何考研超参数,到手适配 6 种不雷同式的机器东说念主(五指、四指机灵手,三指夹爪和平行夹爪),在 175 个物体上考研后,在多个未见过的物体数据集上达到 84.6% 的平均到手率。
高性能的虚实迁徙
在竟然机器东说念主测试中,使用 Franka 机械臂和因时机灵手,DemoGrasp 到手抓取了 110 个未见过的物体。
在惯例大小的物体分类上,DemoGrasp 到手率均达到 90% 以上;
关于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)的勤奋抓取任务,战术大致准确地抓取物体、幸免碰撞,到手率达到 70%。

DemoGrasp 框架相沿对竟然场景愈加复杂的抓取任务的膨胀才气,相沿 在散乱多物体摆放的场景下结束用讲话请示指点抓取,且达到 84% 的真机单次抓取到手率。关于光照、配景和物体摆放的大幅变化,战术的到手率莫得赫然下跌。
DemoGrasp 是交融少许东说念主类演示结束高效机器东说念主强化学习的新最先,将在异日相沿功能性抓取、器用使用、双手操作等更多机灵手任务。
考研时战术的闭环才气是刻下措施的一个局限,后续磋磨将通过愈加细粒度的演示轨迹拆分,增多强化学习战术的及时调养、失误收复才气。
此外,DemoGrasp 不错献媚多模态大模子,结束怒放场景下的自主抓取智能体。
名目主页:https://beingbeyond.github.io/DemoGrasp/
论文:https://arxiv.org/abs/2509.22149
一键三连「点赞」「转发」「留心心」
迎接在批驳区留住你的念念法!
— 完 —
咱们正在招聘别称眼疾手快、关心 AI 的学术剪辑实习生 � �
感有趣有趣的小伙伴迎接关心 � � 了解笃定

� � 点亮星标 � �
科技前沿施展逐日见世博体育