亚博ios彩票什么是加强学习?

6分钟阅读
Openai Dactyl加强学习机器人手
由Openai开发的机器人手使用钢筋学习来处理对象(图像信用:YouTube / OpenAI)

本文是其中的一部分神秘的人工智能,一系列帖子(尝试)消除围绕人工智能的行话和神话。www.yabovip4

在2017年末,AlphaZero由谷歌旗下www.yabovip4研究实验室DeepMind开发的人工智能程序,在国际象棋、日本象棋和围棋(包括DeepMind的AlphaGo)等棋类游戏中击败了所有最先进的人工智能。

玩游戏已经成为几十年来AI研究中的常数.然而,AlphaZero的特别之处在于它学习游戏的方式。在之前的方法中,工程师要么小心翼翼地编写所有玩游戏的不同方式,要么向AI提供来自人类玩游戏的大量数据。

但在AlphaZero的例子中,它的工程师只给它提供了基本的游戏规则,让AI随机探索游戏环境,直到它“学会”能够获胜的招式组合。AlphaZero只花了24小时(以及谷歌近乎无限的处理能力)就证明了它优于其他游戏AI模型。

强化学习,在alphazero中使用的特殊AI技术被人工智能的许多圣杯所考虑,因为它可以创建自治系统,真正自学习的任务,没有人为干预(尽管事物在现实中有点复杂)。www.yabovip4

机器学习的快速入门

强化学习是机器学习,这是人工智能的一个分支,在过去几年变得流行起来。创建AI的经典方法要求程序员手动编写定义软件行为的每个规则。

一个生动的例子是鳕鱼干这是一个开源人工智能象棋引擎,由数百名程序员和象棋专家贡献开发而成,他们将自己的经验转化为游戏规则。

与基于规则的人工智能相比,机器学习程序通过检查大量的示例数据并发现有意义的关联来发展自己的行为。当创建一个基于机器学习的国际象棋引擎时,工程师们不是提供每一个游戏规则,而是创建一个基本的算法,并用收集到的数据来训练它人类棋手玩过成千上万种棋类游戏

人工智能模型将仔细研究这些数据,并找出赢家所采取的行动之间的相似性。当出现一款新游戏时,AI将根据之前所看到的例子来决定哪一步行动最有可能导致胜利。

而机器学习,及其更高级的子集深度学习,可以解决以前认为超出计算机的许多问题,它们依赖于大量的质量,注释培训数据。这使得其应用程序限制在标记数据稀缺的域中。

这就是强化学习发挥作用的地方。

强化学习是如何起作用的

AI AlphaStar星际争霸2
DeepMind开发的人工智能AlphaStar使用强化学习来掌握复杂的实时战略游戏《星际争霸》(Starcraft)

与其他类型的机器学习不同,加固学习不需要大量的训练示例。相反,加强学习模型被提供了一个环境,他们可以执行的一组动作,以及他们必须追求的目标或奖励。

AI代理必须尝试着做出能够最大化其奖励或使其更接近目标的行动。一开始,AI对环境一无所知,只会做出随机行动,在q表中衡量奖励并记录每个行动的质量。基本上,q表是一个函数,你给它环境的当前状态和一个动作,它返回动作将产生的奖励。

深入学习模型的培训越多,它的环境收集的数据越多,其Q-Table的精确度就越精确。

Q-Learning_Matrix_Initialized_and_After_Training
一个用于强化学习的q表的例子(图片来源:维基百科

通过足够的训练,一个强化学习模型将能够开发一个丰富的q表,可以预测每个给定状态的最佳行动。

例如,在下面的示例中,AI正试图学习Atari游戏突破。其行动包括向左或向右移动桨(或无效)。如果球到达屏幕的底部,它会收到最终的惩罚和游戏结束。如果它保持球活着,它会收到奖励。它击中的每一块砖都会收到额外的奖励,如果它摧毁了所有的砖块,它会收到最终的奖励并赢得比赛。

随着视频显示,在开始时,AI使随机决策,探索空间并将环境的响应称为其动作。它越是扮演游戏,越好,预测其移动的结果并制定可能提供最奖励的决定。在玩600场比赛后,AI学会了,如果它将球推到角落,它会陷入困境,并自动摧毁许多砖块。

同样地,象棋强化学习模型从一个干净的棋盘开始,只给出了移动棋子的基本规则和最终目标,即将对手对位。一开始,AI并不知道游戏的战术,只会做出随机移动。

但在与自己进行了成千上万次的对抗之后,它开始建立一个统计模型,来预测每一种情况下可能获胜的移动顺序。

为什么这很重要?与其他机器学习技术不同,强化学习不受人为标记数据的限制。AlphaZero是根据自己的数据创建和训练的,而不是依赖于人类玩的游戏。这也意味着我们可以将强化学习应用于训练数据不存在、缺乏或受监管限制的领域。

强化学习的另一个好处是,人工智能不必学习人类的工作方式。因此,它可以想出全新的方法来解决人类可能没有想到的问题。许多观察的人都证实了这一点DeepMind的AlphaGo打败了围棋世界冠军李世石(注意:强化学习是alphago中使用的几种技术之一,是alphano零和alphazero的前兆)。

亚博ios彩票什么是深度强化学习

神经网络概念
图像信用:Depositphotos

用q表强化学习在状态和行动有限的情况下效果很好。但对于更复杂的问题,比如可能性几乎是无限的开放环境,很难创建一个全面的q表。

为了解决这个问题,研究人员提出了深度强化学习的想法。首先由DeepMind推出,深增强学习结合了强化学习和深度学习的概念,以创建一个更通用的AI模型,可以学习解决州的复杂环境中的问题,其中州非常多,信息通常不完整。

深度强化学习用“深度Q神经网络”代替了Q表。你将当前状态提供给神经网络,它将返回一个包含可预测奖励的可能操作列表。

在过去的一年中,深度强化学习已经被用来掌握各种复杂的游戏,包括雅达利,星际争霸2和队伍2.AlphaZero及其前身也使用深度强化学习来掌握各自的技能。

强化学习的应用

教授AI举行国际象棋,去竞争有趣的科学挑战,但还有更多的加强学习而不是掌握游戏。如今,科学家和研究人员正在申请强化学习来解决现实世界问题。

机器人是强化学习非常有用的领域之一。创造能够处理对象的机器人是一项非常复杂的任务,需要大量的尝试和错误。

DARTYL是由研究实验室Openai开发的AI系统,使用加强学习来教导一个机器人手来处理具有令人印象深刻的灵巧性的物体(实际上,它在你的期望附近,这是由人类的期望,但它是通过机器人标准令人惊叹的)。

与此同时,有多种努力旨在将加强学习应用于不同的域,例如交通灯管理,资源管理和个性化建议。

然而,需要注意的是,强化学习只能解决可以分解为目标和奖励的问题,这就限制了它的应用领域,需要一般的解决问题,而不是优化一个单一的目标。

为了克服这一限制,研究人员正在结合其他人工智能技术使用强化学习。www.yabovip4例如,在DeepMind的AlphaStar中,掌握复杂的实时策略游戏星际II的AI在美国,强化学习是使用的多种人工智能技术之一。

强化学习的挑战

服务器机房室内
强化学习模型需要访问巨大的计算资源,使其获得限制为大型研究实验室和公司。

一些人和媒体把强化学习与人工通用智能这类人工智能可以解决像人脑一样的抽象和常识性问题。

这不可能远离真相。当前的混合物人工智能与人类智能非常不同无论强化学习有多先进,它都有明显的局限性。

强化学习需要大量的计算资源。这就限制了对大型科技公司和研究实验室的使用,这些公司要么拥有这些资源,要么可以烧钱而不担心下一轮融资。

例如,根据DeepMind的AlphaStar博客文章该公司使用16个谷歌TPU v3来训练每个代理14天(这只是开发人工智能的几个阶段之一)。在当前定价率(8.00美元/ TPU小时),该公司花了4.3万美元培训每个人工智能特工,根据该报纸,至少有18名特工,总计77.4万美元——仅仅是培训!(当然,DeepMind归谷歌所有,这意味着它的成本可能会低得多。)

OpenAI的Dota 2机器人每天消耗800千万亿秒,持续了10个月。英伟达超级强大的DGX-2人工智能电脑,售价高达40万美元,给你2千万亿次。这并不意味着Open AI 5的培训成本是(800 / 2 * 40万美元),但它仍然可以很好地说明此类项目的价格。

强化学习的另一个问题是,在许多情况下,设计一个合适的奖励函数是非常困难的。在现实生活中,人工智能必须在不同的奖励和权衡之间找到平衡,在这些情况下,强化学习常常会做出错误的决定,以牺牲主要目标为代价优化短期奖励。

例如,在下面的例子中,游戏奖励AI击中检查点和收集升级道具。但AI却陷入了累积这些小奖励的循环中,而错过了最终目标,即赢得比赛。

因此,虽然强化学习不需要收集有标记的训练数据,但它需要其他类型的由人类主导的努力,比如调整AI模型以适当地探索其环境,而不是利用本地奖励。

我们离自我学习、通用解决问题的AI模型还有很长的路要走。但每一项创新都让我们更亲近。

留下一个回复

这个网站使用Akismet来减少垃圾邮件。了解如何处理评论数据