进化,奖励和人工智能www.yabovip4

8分钟阅读

本文是“人工智能的哲学www.yabovip4这一系列帖子探讨了人工智能在当今和未来的伦理、道德和社会影响

上周,我写了一个对“奖励足够的”分析,这是深刻的科学家的论文。正如标题所表明的那样,研究人员假设正确的奖励是所有您需要创建与智能相关的能力,例如感知,电机函数和语言。

这与试图复制的AI系统相比自然智能的特殊功能比如对图像进行分类、导航物理环境或完成句子。

研究人员迄今为止,暗示具有明确的奖励,复杂的环境和正确的加强学习算法,我们将能够达到人工综合智力,在人类中发现的解决问题和认知能力和在动物中的较小程度。

文章和论文引发了社交媒体的激烈辩论,从完全支持这个想法就完全拒绝了反应。当然,双方都做出了有效的索赔。但事实在于中间的某个地方。自然演变是证明奖励假设科学有效。但实施纯粹的奖励方法来达到人力级智能,有一些非常令人满意的要求。

在这篇文章中,我将尝试用简单的术语来澄清理论和实践之间的界限。

自然选择

在他们的论文中,DeepMind科学家们展示了以下假设:“智力,以及其相关能力,可以理解为占据其环境中的代理人的奖励的最大化。”

科学证据支持这一说法。

人类和动物欠他们的智慧,以非常简单的法律:自然选择。我不是主题的专家,但我建议阅读盲人手表制造商通过生物学家理查德Dawkins,它提供了一个非常可访问的演变如何导致所有形式的生命和智力。

简而言之,大自然偏爱那些更适合在其环境中生存的生命形式。那些能够承受环境(天气、食物短缺等)和其他生命形式(捕食者、病毒等)带来的挑战的动物将存活下来,繁殖,并将它们的基因传递给下一代。那些没有被淘汰的。

道金斯说:“在自然界中,通常的选择因素是直接、直白和简单的。它是死神。当然,原因对于生存来说是简单的 - 这就是为什么自然选择可以积聚这种突起复杂性的动物和植物。但是,关于死亡本身有一些非常原本和简单的东西。选择表型,无论是死亡,都需要选择表型,因此它们本质上包含它们的基因。“

但是不同的生命形式是如何出现的呢?每一个新生的有机体都继承其双亲的基因。但与数字世界不同的是,有机生命中的复制并不是一件精确的事情。因此,后代经常会发生突变,基因的微小变化会对后代产生巨大影响。这些突变可能产生简单的影响,比如肌肉结构或皮肤颜色的微小变化。但它们也可以成为发展新器官(如肺、肾、眼)或去除旧器官(如尾巴、鳃)的核心。

如果这些突变有助于改善生物体生存的机会(例如,更好的伪装或更快的速度),它们将被保存并传递给后代,其中进一步的突变可能会加强它们。例如,开发解析光线信息能力的第一个有机体对所有没有的所有其他人都有巨大的优势,即使它的观察能力与今天的动物和人类的能力相当。这种优势使其能够更好地生存和重现。由于其后代转载,那些突变改善了他们的视线,并从他们的同龄人中脱颖而出。通过数千(或数百万)的代,这些变化导致了一个复杂的器官,如眼睛。

突变和自然选择的简单机制已经足以引起我们在地球上看到的所有不同生活方式,从细菌到植物,鱼类,鸟类,两栖动物和哺乳动物。

同样的自我加强机制也创造了大脑及其相关的奇迹。在她的书中良心:道德直觉的起源,科学家Patricia Churchland探索了自然选择如何导致皮质的发展,大脑的主要部分,使哺乳动物能够从环境中学习。皮质的演变使哺乳动物能够发展社会行为,并学会生活在牧群中,骄傲,军队和部落。在人类中,皮质的演变引起了复杂的认知能力,发展丰富语言的能力以及建立社会规范的能力。

因此,如果您认为生存作为最终奖励,那么深入的科学家制造的主要假设是科学的声音。但是,在实现这一规则方面,事情变得非常复杂。

强化学习和人工一般智能

在他们的论文中,DeepMind的科学家们声称,奖励假说可以通过强化学习算法这是人工智能的一个分支,智能体通过与环境的互动逐渐发展其行为。强化学习代理从随机行动开始。基于这些行为如何与它试图实现的目标相一致,代理将获得奖励。在许多情节中,代理学习开发一系列行动,以最大化其环境中的奖励。

根据深度科学家的说法,“足够强大和一般的加强学习代理人最终可能会产生智力及其相关能力。换句话说,如果代理商可以不断调整其行为,以便提高其累积奖励,那么其环境一再需要的任何能力必须最终在代理的行为中产生。“

在A.12月在线辩论一位论文的共同作者之一,计算机科学家理查德·萨顿(Richard Sutton)表示,“加强学习是智力的第一个计算理论......在加固学习中,目标是最大限度地提高任意奖励信号。”

DeepMind有很多经验可以证明这一点。他们已经开发出了强化学习代理凌驾于人类在围棋、国际象棋、雅达利、星际争霸和其他游戏中。他们还开发了强化学习模型来取得进展一些最复杂的科学问题

科学家们在论文中进一步写道:“根据我们的假设,一般智力可以被理解为最大化,并通过最大化来实现。单一复杂环境中的单一奖励(强调我)。”

这是假设与实践分开的地方。这里的关键字是“复杂”。深度的环境(及其准竞争对手OpenAI迄今为止,探索了强化学习并不像物理世界那样复杂。他们仍然需要金融支持和巨大的计算资源非常富有的科技公司。在某些情况下,他们仍然不得不愚弄环境,加快培训他们的加强学习模型,减少成本。在其他人中,他们必须重新设计奖励,以确保RL代理商没有陷入错误的本地最佳状态。

(值得注意的是,科学家们确实承认他们的论文,他们无法为加强学习代理的样本效率提供“理论保证”。)

现在,想象一下用强化学习来复制进化并达到人类水平的智力需要什么。首先,你需要模拟这个世界。但是你会在什么层次上模拟这个世界呢?我的猜测是,任何低于量子尺度的东西都是不准确的。我们也没有足够的计算能力来创建量子尺度的世界模拟。

假设我们确实有能力创建这样一个模拟。我们可以从大约40亿年前,第一批生命形式出现的时候开始。你需要对当时地球的状态有一个精确的描述。我们需要知道当时环境的初始状态。我们还没有一个明确的理论。

另一种选择是创造一条捷径,从800万年前开始,那时我们的猴子祖先还生活在地球上。这将减少训练时间,但我们将有一个更复杂的初始状态开始。那时,地球上有数百万种不同的生命形式,它们是紧密相关的。他们一起进化。排除其中任何一种可能会对模拟过程产生巨大影响。

因此,您基本上有两个关键问题:计算电源和初始状态。您正在及时返回,计算仿真所需的计算功率就越多。另一方面,您向前移动,初始状态的复杂越复杂。并且演变已经创造了各种智能和非智能生活方式,并确保我们可以重现导致人类智能的确切步骤,而无需任何指导,只有通过奖励就是一个艰难的赌注。

机器人在厨房里工作
图片信用:Depositphotos

许多人会说你不需要对世界进行精确的模拟,你只需要近似你的强化学习代理想要运作的问题空间。

例如,在他们的论文中,科学家们提到了一个房屋清洁机器人的例子:“为了使厨房机器人最大化清洁,可能会有感知的能力(以区分干净和肮脏的用具),知识(要理解器具),电机控制(以操纵器具),记忆(以召回器具的位置),语言(从对话中预测未来的混乱),以及社会智力(鼓励幼儿做出更少的混乱)。因此,最大限度地清洁的行为必须产生那种单一目标的所有这些能力。“

这一说法是正确的,但低估了环境的复杂性。厨房是人类创造的。例如,抽屉把手、门把手、地板、橱柜、墙壁、桌子,以及你在厨房里看到的所有东西的形状,都已经为人类的感觉运动功能进行了优化。因此,想要在这样的环境中工作的机器人需要发展类似于人类的感觉运动技能。您可以创建快捷方式,例如避免复杂的两足行走或有手指和关节的手。但这样一来,机器人和使用厨房的人类之间就会出现不协调。对人类来说很容易处理的许多情况(从翻倒的椅子上走过)对机器人来说就变得不可接受了。

此外,其他技能,如语言,将需要在机器人和共享环境的人类之间建立更相似的基础设施。智能代理必须能够开发彼此的抽象心智模型,以便在共享环境中进行合作或竞争。语言忽略了许多重要的细节,如感官体验、目标、需求。我们用我们对对话者精神状态的直觉和意识知识来填补空白。我们可能会做出错误的假设,但这些都是例外,不是常态。

最后,制定“清洁度”的概念作为奖励非常复杂,因为它与人类知识,生活和目标非常紧密。例如,从厨房中取出每一块食物肯定会使它更清洁,但是使用厨房的人会对它感到高兴吗?

已经针对“清洁度”进行了优化的机器人将难以与生存所经过优化的生存的艰难时期和合作。

在这里,你可以通过创建层次目标,用先验知识装备机器人和它的强化学习模型,并利用人类的反馈来引导它朝着正确的方向前进,从而再次走捷径。这将大大有助于使机器人更容易理解人类和人类设计的环境,并与之互动。但这样一来,你就在奖励方式上作弊了。你的机器人代理从预先设计好的四肢、图像捕捉和声音发射设备开始,这本身就是先验知识的整合。

从理论上讲,奖励对任何类型的智力来说都是足够的。但在实践中,环境复杂性、奖励设计和代理设计之间存在权衡。

在未来,我们可能能够实现一定程度的计算能力,可以通过纯奖励和加强学习来实现一般情报。但是对于时间来说,有效的是混合方法,涉及奖励和AI代理架构的学习和复杂工程。

1条评论

  1. 构建一个通过强化学习变得智能的人工智能是艰巨的,但并非不可能,尽管可能不会在不久的将来。有几件事可能是真的,这让任务变得不那么困难。首先,不需要模拟整个环境,只需要模拟那些对个体有影响的方面,然后也许只模拟这些事物类别的代表。其次,如果一个人是纯粹主义者,那么给人工智能装备那些机制(程序)可能是可以的,这些机制(程序)允许它做进化构建在人类大脑中的事情(例如,感知物体图像的增大表明它越来越近,利用台球式的因果关系,从先前的事件预测后来的事件——这两种认知方式在刚出生的婴儿中都很明显)。除此之外,可能还会有其他一些功能(比如面部识别)。第三,生物在真实环境中的学习是随机的,被非学习事件打断,比如睡觉、吃饭、休息,在熟悉的环境中执行先前强化的行为,而不是学习新的东西。对于机器来说,不一定是这样。第四,人类可能有一些基于遗传的不适应行为,这些行为在以前的环境中是适应的,但在适应当前环境的机器中不会出现。第五,为了达到智能的标准,机器可能只需要在新生儿或黑猩猩(甚至可能是德国牧羊犬)的水平上做出反应,但随着遇到更多情况,它会继续变得更聪明。

发表评论

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据