您的位置::掌评娱乐网 >> 王燕青

深度强化学习像孩子一样教机器人韩阳子

时间:2022年08月24日

深度强化学习:像孩子一样教机器人

当孩子们玩玩具时,他们会了解周围的世界,而如今的机器人并没有什么不同。在加州大学伯克利分校的机器人学习实验室中,成群的机器人正在努力完成与孩子们相同的任务:将木块放在形状分类立方体的正确插槽中,将一种塑料乐高积木连接到另一块塑料积木,将零散的零件连接到玩具飞机。

电气工程与计算机科学教授,机器人学习实验室主任Pieter Abbeel说,然而,真正的创新并不是这些机器人的成就,而是它们的运行方式

从儿童本能地学习和适应各种不可预测的环境的方式中汲取灵感,Abbeel和助理教授Sergey Levine正在开发算法,使机器人能够从过去的经验中学习,甚至可以从其他机器人中学习。基于称为“ 深度强化学习”的原理,他们的工作使机器人超越了展示类人智力的关键门槛,能够独立解决问题并以更快,更高效的方式完成新任务。

“如果你看到一个机器人通过强化学习来做某事,则意味着它实际上知道如何从自己的试验和错误中获得新技能,”阿比耶尔说。“这比完成的特定任务重要得多。”

尽管当今最先进的机器人仍然无法匹敌学步儿童的大脑,但这些研究人员已准备好为机器人配备前沿的人工智能功能,从而使他们能够在任务之间进行概括,即兴发挥对象并应对意料之外的挑战在他们周围的世界中。

做出“好的”决定

在过去的80年中,在数学,经济理论和AI方面似乎无关的创新已经融合在一起,将机器人逼人地逼近接近人类智能的事物。

1947年,数学家约翰·冯·诺依曼和经济学家奥斯卡·莫根斯特恩提出了一个定理,该定理构成了称为期望效用理论的基础。简而言之,该理论认为,如果给定了一系列选择机会,一个人将选择能够产生最大程度个人满意度的结果的选择。此外,我们可以用数值表示所需的结果,即“奖励”。

“这个数字代表了他们想要的东西,”阿比贝尔说。“因此,该定理表明,奖励是完全通用的。您唯一需要的就是数字。”

然后,研究人员通过向计算机提供数值激励来学习如何玩棋盘游戏,从而将该理论应用于计算机。

下棋。如果计算机的目标是尽可能快地对付其对手,那么该结果将分配给游戏中最高的数字。计算机探究要进行哪些操作以实现核对:“好”步为计算机赚取高分,而“坏”步则为低分。

Abbeel与深度学习机器人BRETT一起工作。图片来源:刘亚当

由于代表较高数字的选择意味着计算机将更快地实现其目标,因此计算机会通过反复试验,有系统地学习以做出“好”决定而避免“坏”决定,从而精通国际象棋。

利用这种强化学习技术,研究人员创造了可以在跳棋,国际象棋甚至是Atari电子游戏中击败人类冠军的计算机。2017年,由Google发明的AI程序AlphaGo在Go上击败了全球最佳玩家,打破了AI的新门槛。

神经网络

教计算机赢得视频游戏是一回事。教导机器人执行物理动作要困难得多。

一方面,软件代码存在于虚拟世界中,这意味着AI程序享有无限的探索和学习空间。但是,机器人是在物理空间中运行的物理对象。训练机器人在不撞入文件柜的情况下抓住和操纵物体或导航空间,这需要艰苦而繁琐的编程工作。

研究人员必须为机器人提供庞大的图像数据库,并对其进行训练以识别模式,以便可以将椅子的图像与猫的图像区分开。这样,当机器人滑入房间时,其传感器或“眼睛”可以检测到障碍物。机器人可以在成功推断出对象确实是椅子之前,将视觉数据与数据库中的相似图像进行比较。

莱文说:“这种反复试验需要很长时间。”

但是,人工神经网络的使用使机器人能够以更快的速度处理和分析信息。这些网络由类似于人脑神经元的相连单元或节点组成。每个节点可以发信号通知其他节点连接到它,从而使机器人可以在不同类型的数据之间建立关系。

使用这种方法,伯克利大学的研究人员已经能够在计算机仿真和现实生活中完成诸如教机器人如何运行的事情。机器人学习到将正确的力施加到手臂,臀部和腿部的电机上所必须进行的最佳神经连接。

Abbeel说:“通过不同的运行,机器人尝试了神经元之间不同强度的连接。” “如果一种连接方式优于其他连接方式,则机器人可以保留该连接方式并对该连接方式进行更改,然后重复,重复,重复。”

机器人知道某些神经连接会为他们赢得奖励,因此它们会沿着那条路继续前进,直到达到目标,即在整个房间内奔跑而不会跌倒或朝错误的方向弯腰。伯克利研究人员最终产生的算法使机器人不仅可以记住他们从反复试验中学到的知识,还可以基于他们的经验。

Blue是由EECS教授Pieter Abbeel设计的低成本,人性化的机器人。图片来源:刘亚当

Abbeel说:“神经元之间以及连接的神经元之间的连接强度实质上就是我们内部化体验的方式。” “您需要一种算法来查看这些体验并重新连接网络中的那些连接,以使机器人的性能更好。”

莱文说,最终,研究人员也许可以创建他所谓的“终身机器人系统”,在其中,机器人可以通过连续分析他们以前的个人成就和错误以及其他机器人的成就和错误来提高自己。

他说:“面对复杂的任务,机器人会将观察结果转化为行动。” “我们为他们提供建立联系的必要成分。”

多任务机器人

如今,大多数机器人仍然需要人类来设定奖励。但是,如果机器人可以像儿童探索环境那样无监督地设定自己的目标呢?

无人监督的深度强化学习的进步可能会导致在有监督的环境中尚未实现的收获。与其他深度学习领域不同,机器人技术研究人员缺乏训练机器人掌握广泛技能所需的大数据集。但是自主探索可以帮助机器人更快地学习各种任务。

伯克利的研究表明,在现任斯坦福大学助理教授,学生研究人员的Abbeel,Levine和Chelsea Finn开发的机器人系统中,这看起来像什么。机器人利用自己的数据和人类演示,可以独立地对物体进行实验。掌握的一些技巧包括将物品从一个杯子倒到另一个杯子,将瓶盖拧到瓶子上,然后使用刮铲将物体提起到碗中。

机器人甚至教导自己如何使用日常用品作为在表面上移动其他物品的工具,这表明它们可以即兴创作。Finn和Levine与宾夕法尼亚大学的研究人员合作进行了进一步的研究,结果表明,机器人可以通过观看人类使用工具的视频来学习如何使用工具。

芬恩说:“重要的不是机器人可以做的原始技能,而是这些技能的普遍性以及如何将它们应用于许多不同的任务。”

研究人员面临的主要挑战之一是如何使自我监督的深度强化学习完全自动化。机器人可能像蹒跚学步的孩子一样学习,但是他们没有类似的运动技能。

莱文说:“在实践中,建立一个机器人学习系统非常困难,该系统可以在现实环境中连续学习,而无需花费大量的人工。” “这不仅是因为需要改进底层算法,还因为围绕机器人学习的许多脚手架和机械都是手动的。”

BRETT,伯克利消除繁琐任务的机器人。图片来源:刘亚当

他说,例如,如果机器人正在学习调整手中的物体并将其掉落,或者机器人正在学习行走然后掉落,则人需要介入并加以修复。但是在现实世界中,人类正在不断地自我学习,每一个错误都会成为学习的机会。

“潜在地,多任务学习视图可以解决这个问题,我们可以想象机器人将每一个错误都利用作为实例化和学习新技能的机会。如果送咖啡机器人放下咖啡,它应该利用这个机会练习清理溢出的咖啡。”莱文说。

“如果成功的话,那么未来几年我们将看到越来越多的自主学习,从而使实际环境中的机器人能够在工作中不断学习。”

进入现实世界

机器人技术的深度强化学习中的一些进步已经从实验室进入工作场所。

德国电子零件制造商Obeta正在使用由Abbeel共同创立的Covariant.AI开发的技术,使机器人可以对通过仓库中传送带的成千上万个随机小工具和组件进行分类。根据Covariant的说法,该机器人可以拣选和分类超过10,000种以前从未见过的不同物品,其准确性超过99%。无需对物品进行预分类,从而使这项技术成为制造业的革新者。

莱文说:“我认为我们可能会看到机器人逐渐渗透到越来越多的现实环境中,但从商业领域的'后端'开始,并逐渐从那里辐射到越来越少的结构化环境中。”

我们可能会看到机器人从工厂和仓库等工业环境过渡到室外环境或零售商店。想象一下,机器人在农场上对作物进行除草,间伐和喷洒;杂货店货架上放货;并在酒店和医院交货。最终,可以将机器人部署到更具外部作用的角色中,例如大型商业企业中的清洁工作。

莱文说,完全面向消费者的家用机器人还有很长的路要走,因为机器人必须首先掌握具有可变性的更复杂的领域。在完全实现之前,这还需要一个现场的人类专家队伍。

无论在哪个领域,这些研究人员的目的都是使用机器人与人们协同工作并提高生产率,而不是使人们失业。随之而来的科学,政治和经济因素值得认真考虑,并且是它们所做工作的组成部分。

莱文说:“每种技术都有积极和消极结果的潜力,作为研究人员,认识到这一点至关重要。” “最终,我相信能力更强的机器人具有巨大的潜力,可以改善人们的生活,而这种可能性使这项工作值得。”

酒瓶生产批发玻璃酒瓶空瓶来样开模定制酒瓶酒盒

宁河区黄金回收价格2020年二手黄金回收价

可调速链板输送机链板式输送机链条拆金属链板输送机生产

小型电动上料机斗轮式堆取料机圣能输料机

北番501西红柿种子番茄种子大红果番茄籽抗病毒北番501

汽配转弯皮带输送机,工厂皮带转弯机,好评声不断

昌吉工业园区进口尾砂回收机价格低三元机械供应

大功率等离子焊机价格报价行情

煤矿设备斗提机TG斗提式提升机视频全汇轴式斗提提升机安装

铁岗smt贴片加工罗田pcba加工价格低交期快

友情链接