Hi!请登陆

科学家用训练狗的方式来训练机器人狗把饼干当奖励机器人呢

2020-10-27 42 10/27

本文参加百家号#科学了不起#系列征文赛。在现阶段中,可以说人工智能这个复杂的概念,可以用试错这个词来简单总结。比如,识别一只猫的品种,或者破解一个简单的密码,只要给机器足够的试错次数,在强大而快速的计算能力支持下,它总能很快找到正确答案。真实世界中的人工智能,需要足够庞大的数据集合即大数据来进行试错,需要计算机来提供计算能力,最重要的是,还需要最巧妙的算法来减少试错的次数。虽然实际的搭建相当复杂,但技术核心本质上还是试错。而最近,来自美国约翰霍普金斯大学的计算机科学家们,为了从试错上有所突破,从人们训练小狗的方式中获得灵感,来训练机器人学习技能。通过这种方法,科学家们教会了一个名为Spo的机器人在几天的时间内学会叠积木。而在之前,这一种简单的技能,Spo得花一个月的时间去学习。通过任务奖励的方式来训练一条狗来做一些比较反常规的动作,这是很多养狗的人都熟悉的方法。比如,让一条狗坐下,如果它按照主人的吩咐去做了,主人就会给它一块小饼干,久而久之,狗狗听到主人的吩咐就会马上坐下。科学家们也想通过同样的方法来训练一个机器人,令人惊喜的是,这种方法极大地提高了机器人学习技能的速度,很有可能使训练机器人在现实世界中工作成为一个更可行的企业。这里的问题是我们如何让机器人学习技能安德鲁亨特AdewHud说,他是约翰霍普金斯大学计算交互与机器人实验室的博士生。我养过狗,所以我知道奖励是有效的,这也是我设计学习算法的灵感所在。与人类和动物天生就有高度直觉的大脑不同,计算机是一张白板,必须从头开始学习一切。但是真正的学习往往是通过反复试错试验来完成的,机器人专家们仍然在研究如何从错误中有效地学习。而这个团队通过设计一个奖励系统来实现这一点,该系统适用于机器人,就像对待狗一样。当一只狗完成一项任务时,它可能会得到一块饼干,而机器人则会获得数字积分。当然,机器人仍然是莫得感情的,它们不会因为获得数字积分而高兴。但计算机科学家们为机器人设计的任务目标是获得尽可能高的积分,机器程序就会奔着这个目标去执行各种指令。亨特回忆起他曾经如何教他的小狗利娅听懂别管它的命令,这样她就可以在遛狗时忽略松鼠。他用奶酪作为奖励,当他的小狗发现路过的松鼠,没有去追逐它,而是冷静下来并移开视线时,亨特会奖励它一块奶酪,并对它说别管它!利娅。久而久之,这条叫利娅的小狗就会听从别管它的命令了。同样地,为了堆叠积木,Spo机器人需要学会如何专注于建设性的行动。当机器人探索这些积木时,它很快发现正确的堆叠行为可以获得高分,但不正确的行为却一无所获。伸出手来却不抓住一块积木没有分数。打翻一堆积木绝对没有分数。Spo只有把这些积木堆得越来越高,它才能获得越来越多的分数。这种训练策略不仅奏效了,而且只花了几天时间就教会了机器人过去需要几周的时间才能学会的技能。积极的强化不仅有助于机器人自学堆叠积木,还很快学会了其他几项任务,甚至是如何玩模拟导航游戏。从各种情况下的错误中学习的能力对于设计一个能够适应新环境的机器人来说是至关重要的。一开始,机器人不知道自己在做什么,但随着每次练习,它会变得越来越熟练。亨特说:它从不放弃,一直在努力堆叠,直到能够100%地完成任务。研究小组设想,这些发现可以帮助训练家用机器人完成洗衣和洗碗任务,这些任务在公开市场上很受欢迎,并有助于老年人独立生活。它还可以帮助设计改进的自动驾驶汽车。亨特的目标是最终开发出能够在现实世界中完成复杂任务的机器人,比如产品装配、照顾老人和帮助医生做手术。这些任务对于现阶段的机器来说实在是太复杂了,如果通过编程来让它们掌握这些技能,简直就是天方夜谭。但以上的方法向我们表明,机器人可以像宠物一样学习如何以安全、高效的方式完成这些现实世界的任务,亨特认为这一想法是有希望的。举报/反馈

相关推荐