英伟达和MIT出新“魔法”:让机器人“推不倒”(组图)
让双足机器人走路已经不是难题,但是想让它们表演“跳舞”或“打拳”,却十分有挑战。机器人的运动方式越接近人类,就越能够自然融入人类环境,而无需改变人类原有的生活和工作空间,因此,研究怎么让机器人的运动能力更贴近人类,是一个长期课题。
但机器人姿态动作的改变背后,不仅涉及物理形态的变化,更涉及到控制精度、平衡保持和动作连贯性的深层考验。
就像小孩学走路,站立和行走只需掌握重心转移和平衡,而“转身跳舞”则需全身协调,涉及手臂、腿部和核心肌肉的配合。机器人也面临类似挑战——行走仅需控制腿部,而跳舞或打拳则要求全身精准协同,任何细微延迟或误差都会导致动作生硬、不连贯,甚至摔倒。
在这种全身控制方面,传统的机器人控制系统就像“遥控车”,依靠提前写好的“动作剧本”,逐帧执行预设的动作指令。这种“定格动画”式的控制方式在简单任务中表现良好。
但当环境发生变化,或者需要执行连续的动态动作时,问题就暴露了——动作僵硬、卡顿明显。
12月18日,英伟达、MIT、加州大学联合发布了一项最新研究,提出了让机器人更能富有表现力的控制全身系统ExBody2,可以帮助机器人打破“固定剧本”带来的运动局限,教会机器人如何灵活应变,ExBody2的工作方式则更像是一位智慧的“舞蹈教练”,不再拘泥于“每一帧的动作指令”,而是教会机器人理解“运动的节奏和方向”。
通过这种方式,ExBody2增强了双足机器人的平衡和适应能力,使得它们在面对轻推、复杂地面等场景时能表现得更加稳定。
简单来说,ExBody2的控制逻辑更像人类的运动方式——人类在跳舞时不会死记每一步的具体位置,而是靠节奏感和动作的连贯性来完成整段舞蹈,它关注关键部位的运动节奏和方向,帮助机器人在动态环境中实时调整动作。得益于这种方法,让机器人具备连续流畅和相对稳定的运动能力,实现“即兴表演”的效果。
在这项研究中,研究人员使用了宇树G1和H1人形机器人进行测试:
(G1机器人户外转换步态)
(机器人打拳)
此外,ExBody2不仅能在虚拟环境中训练机器人,还能将这些技能迁移到现实世界中,在Sim2Real(从虚拟到现实)环节帮助机器人顺利走向真实世界。
从虚拟课堂到真实表演:机器人如何“上课”?
在传统的机器人动作控制方法里,让机器人模仿人类复杂的花式动作,就像让大象去爬树,不仅不切实际,还可能把它“累趴下”。就像一个人在跳舞时,每一步都要精确地盯着脚和手的每个动作,生怕出错。这种“逐帧控制”的方法一旦某一帧出现偏差,后续的动作就会变得不稳定,像是“连锁反应”一样让动作越来越僵硬。
ExBody2的做法更像是让机器人学会“跟着节奏跳舞”,而不是死记硬背每一个动作。它将控制逻辑拆分为关键点跟踪(控制动作的关键位置)和速度控制(调整动作的节奏),两者独立运作。
相比传统的“全局控制”,ExBody2采用了局部关键点映射,就像在机器人身上安装了一个“局部导航系统”,每个动作只需要关心自己负责的部分,而不必关注全局。这样一来,即使某个动作有轻微偏差,也不会“牵一发而动全身”,机器人依然能流畅完成动作。
除此之外,在动作设置上,ExBody2的设计者们也用了新思路:与其让机器人挑战不可能,不如给它挑选一些真正适合的动作。从海量的动作数据集中,他们像挑选课本一样,把这些动作分门别类,做了“分级处理”。
(来源:论文《ExBody2: Advanced Expressive Humanoid Whole-Body Control》,不同数据集下机器人关键点跟踪、关节精度和速度控制误差评估;D₅₀、D₂₅₀、D₅₀₀、DCMU,是四种不同的数据集,代表从简单到复杂的动作难度。)
他们将数据集分成了四个“动作难度包”:
● D50:入门版,就像小学一年级的课本,内容简单易学,包括站立、行走等基本动作;
● D250:进阶版,开始加入跑步和简单舞蹈动作,难度适中,刚好适合“稳步进步”;
● D500:高级版,包含了更复杂的动作,比如单脚跳跃和旋转,稍显棘手,但也更具挑战性;
● DCMU:完整版,囊括了所有动作,从普通的步态到高难度的翻滚和地板动作,几乎“无所不包”,但也带来了大量噪声和不可完成的任务。
这种分级筛选的过程,就像为一个孩子挑选适龄的书籍一样。大人不会指望一个刚刚学会认字的孩子去读莎士比亚,机器人也一样,学习过程需要逐步推进。如果一开始就让它面对“高难度关卡”,它可能会在错误的尝试中迷失方向,甚至彻底放弃。
有趣的是,实验发现,D250数据包表现最佳。它的难度设计恰到好处,既包含了多样化的动作,又没有加入那些让机器人望而却步的“极限挑战”。与之相比:
● D50数据包虽简单高效,但内容过于基础,导致机器人难以应对稍复杂的任务;
● D500和DCMU数据包则因动作过于复杂,增加了无效训练的噪声,拖累了整体效果。
D250就像一本结构合理的练习册,既让机器人有挑战,又不会让它压力过大。通过这样的筛选,ExBody2为机器人打造了一条学习之路,让它能够稳扎稳打地掌握动作技能,最终在真实世界中自信地“展现舞姿”。
有了优质的数据集,ExBody2的教学进入了第二阶段,即“老师-学生”架构的核心过程,这里面包含在虚拟环境中的“老师机器人”和真实环境里的“学生机器人”两种角色。
在这个架构中,“老师机器人”是主导者,它生活在一个虚拟环境里,拥有丰富的“特权信息”,比如关节的位置、速度和身体的物理反馈。就像一个经验丰富的舞蹈教练,老师机器人通过强化学习算法(PPO)不断优化自己的动作,从单脚跳到连续旋转,每个细节都打磨到位。
而“学生机器人”的学习条件就没那么优越了,它进入真实世界时,面临的环境复杂且变化多端,没有老师那样的“特权信息”,只能依靠历史数据和观察到的反馈。这就像一个学生只能通过看录像模仿舞蹈,而无法直接从教练那里获得详细指导。
为了弥补信息的缺失,ExBody2采用了一种叫“DAgger”的算法,它将老师的复杂指令简化成学生能理解的观察数据。这个过程类似于把一部高清视频压缩成清晰的GIF动画,虽然少了一些细节,但核心动作得以保留。
真实环境大考验:ExBody2如何从“课堂”走向“实战”
ExBody2是不是一套真正“聪明”的机器人学习系统,最终的检验要看它在真实环境中的表现。就像一个学生考试时,课堂上表现得再好,如果在考场上发挥失常,也不能算作优秀的学习者。因此,ExBody2不仅在“课堂”中训练机器人,还通过一系列的实际测试,检验机器人在不确定环境中的表现,来验证证明这套系统的“聪明之处”。
在这场考验中,研究团队设计了一场机器人间的“现场大比拼”。他们将机器人放置在各种动态环境中,比如不平的地面、动态的障碍物、突然的轻推等,模拟出真实世界中常见的突发情况。面对这些“考验”,机器人需要做出迅速的反应,调整自己的站姿、步伐和动作节奏,保持稳定并完成任务。
(人形机器人在现实世界中执行各种富有表现力的全身动作)
最有趣的测试是“推挤测试”。在实验中,研究人员故意轻轻推一下行走中的机器人,模拟在家庭环境中孩子不小心撞到机器人的场景。结果显示,ExBody2的机器人反应相当灵敏,能迅速调整重心,稳稳站住脚跟。相比之下,采用传统控制方法的机器人要么停滞不前,要么直接摔倒,显得“手足无措”。这种稳定性得益于系统的高效学习方法,使得机器人不仅能在理想环境中行动自如,还能在不确定的动态环境中灵活应变。
除了“推挤测试”,ExBody2的机器人还通过了“复杂地形行走”考验。实验室模拟了崎岖的地面环境,比如带有小台阶和倾斜的路面。普通机器人在这种环境中经常“脚步不稳”,容易滑倒。而ExBody2的机器人就像一个穿着防滑鞋的登山者,步伐稳健,能够调整步长和姿态,从容跨越台阶和不规则的地面。这种表现背后的关键在于,机器人能够“记住”之前的动作调整,并在遇到类似的环境时迅速做出“类似的反应”。这种记忆能力使它在不断变化的环境中也能“步步为营”,不像传统的机器人只会在固定的环境中反复做一成不变的动作。
这些测试不仅是在实验室中做的“花架子”,也具备一定的实际意义。比如,当家中的清洁机器人在打扫地面时,地上突然出现了一个小玩具,普通的机器人可能会直接被卡住,或尝试多次绕行,但ExBody2的机器人却能迅速“明白”前方的变化,做出合理的绕行决策。
此外,在工业流水线中,这种“灵活反应”同样至关重要。传统的工业机器人只能在指定位置“拿放物件”,但如果流水线上突然出现了一块偏移的物料,ExBody2的机器人会迅速调整位置,主动适应物料的位置变化,就像流水线上的“超级工人”,不再是一个“死板的机械手”。
为了验证ExBody2在不同场景中的表现,研究团队还量化了几项关键的性能指标,比如在关节位置精度(下表中的Eₘₚⱼₚₑ) 上,ExBody2的机器人误差降低,而普通的机器人误差则要高出数倍,这一差距直接反映在动作的精准度上。
在其它指标比如关键点位置误差(Eₘₚₖₚₑ)、速度误差(Eᵥₑₗ)方面,ExBody2均有优势。
(ExBody2与其他方法在宇树G1和H1上的性能对比结果)
总结来看,ExBody2的成功不仅体现在课堂中的“标准化训练”,更体现在真实环境中的“灵活应变”。通过应对“推挤”、“复杂地形”和“动态物料变化”等考验,ExBody2的机器人展现了比传统机器人更高的稳定性和灵活性。配合关键指标的量化表现,证明了这套系统的优越性。无论是在家中还是在工厂,ExBody2的机器人都不再是“机械的螺丝工人”,而是能够“见招拆招”的“智能工作伙伴”,不论是家用服务场景,还是工业生产场景,ExBody2给人形机器人带来新的可能性。