(资料图)
根据本周发表的一篇预印稿和一篇博客文章,谷歌的研究人员已经开发出一种人工智能系统,该系统可以模仿动物的动作,赋予机器人更大的灵活性。两位作者认为,他们的方法可以促进机器人的发展,使其能够完成现实世界中的任务,例如在多层仓库和配送中心之间运输材料。
团队的框架采用动物(这里是狗)的动作捕捉片段,并使用强化学习(reinforcement learning)——一种通过奖励激励软件代理完成目标的训练技术——来训练控制策略。研究人员说,给系统提供不同的参考动作,可以让研究人员“教”Unitree Laikago四足机器人完成一系列动作,从快走(最高可达每小时2.6英里)到跳跃和转弯。
为了验证他们的方法,研究人员首先收集了一组真实的狗的各种技能的数据。(训练主要是在物理模拟中进行的,以便能密切跟踪参考运动的姿态。)然后,通过在奖励函数中使用不同的动作(描述行为者应该如何表现),研究人员使用了大约2亿个样本来训练一个模拟机器人模仿动作技能。
但是模拟器通常只提供真实世界的粗略近似。为了解决这个问题,研究人员采用了一种适应性技术,在模拟中随机化动力学,例如,改变机器人的质量和摩擦力等物理量。这些值是用编码器映射到数字表示-即。,一个编码——作为输入传递给机器人控制策略。当将该策略部署到一个真实的机器人上时,研究人员删除了编码器,并直接搜索一组变量,这些变量允许机器人成功地执行技能。
该团队表示,他们能够在大约50次试验中,利用不到8分钟的真实数据,使一项政策适应现实世界。此外,他们还演示了现实世界中的机器人学会模仿狗的各种动作,包括踱步和小跑,以及艺术家动画的关键帧动作,如动态跳跃转弯。
“我们证明,通过利用参考运动数据,一种单一的基于学习的方法能够自动合成控制器,适用于多种多样的腿机器人行为,”论文的合著者写道。“通过将示例高效领域适应技术纳入到培训过程中,我们的系统能够在模拟中学习适应策略,然后能够快速适应真实的部署。”
控制策略并不完美——由于算法和硬件的限制,它不能学习高度动态的行为,如大的跳跃和运行,也不像最好的手动设计的控制器那样稳定。(在每一种方法总共15次试验的5次试验中,现实世界中的机器人在踱步时平均在6秒后摔倒;向后小跑5秒钟后;旋转时9秒;和10秒钟的跳跃。)研究人员还需要进一步提高控制器的鲁棒性,并开发能够从视频剪辑等其他运动数据来源学习的框架。