建立人工智能:奖励www.yabovip4是不够的

11分钟阅读

由Herbert Roitblat.

在最近的一篇论文中,DeepMind团队银等人,2021年)争论奖励足以满足各种智力。具体来说,他们认为“最大化奖励足以推动呈现最多的行为,如果不是所有智力的所有属性。”他们认为,富裕环境中的代理商需要简单的奖励,以开发实现人为总智能所需的分类的多属性智能。这听起来像是一个大胆的索赔,但事实上,几乎毫无意义地是如此含糊。他们支持他们的论文,而不是通过提供特定的证据,但通过反复断言,奖励足够,因为观察到对问题的解决方案是符合解决问题的。

Silver等人的论文代表了至少第三次提出了一个严肃的建议,以证明通用的学习机制足以解释所有的学习。这一理论进一步提出,这足以实现智能,特别是足以解释人工一般智能。

我知道的第一个重要项目试图表明所有需要的学习机制都是必要的,这是B.F. Skinner的行为主义版本,如他的书所代表言语行为.这本书是毁灭性的批评通过诺姆·乔姆斯基(1959),他把斯金纳试图解释人类语言产生的尝试称为“在科学上表演”的一个例子。第二项主要建议的重点是过去时态的学习英语动词的Rumelhart和McClelland.(1986),受到了严厉的批评拉切特和贝弗(1988)。Lachter和Bever证明,Rumelhart和McClelland选择的特定方式代表了他们的连接主义系统正在学习转换的单词的音位属性,其中包含了允许系统成功的特定信息。

这两个先前的尝试都失败了,因为他们屈服于确认偏误.作为银等人。做,他们报告了与他们的假设一致的数据,而不考虑可能的替代解释,并且它们将模糊数据解释为支持。所有三个项目都未能考虑其模型内置的隐含假设。如果没有这些隐含的特性(LACHTER和BEVER的“这是”这令人遗憾的是“,那么这一系统就没有智力,这些系统就会没有智慧。

Silver等人的论点可以概括为三个命题:

1 - 最大化奖励足以产生智能:“最大化奖励的通用目标足以推动表现出最自然和人工智能的所有能力的行为。”www.yabovip4
2-智力是实现目标的能力:“智力可能被理解为实现目标的灵活性。”
通过最大化奖励来衡量3-取得成功:“因此,通过最大化奖励来衡量的成功”

简而言之,他们提出智力的定义是奖励最大化的能力,同时他们用奖励最大化来解释智力的出现。17岁后th世纪作者莫利,一些哲学家会称之为这种争论Virtus Dormativa(一种睡眠诱导的美德).当被问及为什么鸦片会导致睡眠时,莫里哀的回答是虚构的无效的响应它具有宿舍属性(睡眠诱导性能)。即当然,只是一个名称的财产,正在寻求解释。奖励最大化在银的假设中起着类似的作用,这也是完全是通函。实现目标是聪明的过程,并解释了聪明的过程。

b.f.斯金纳言语行为
美国心理学家伯勒斯·弗雷德里克·斯金纳(Burrhus Frederic Skinner),以其在行为主义方面的研究而闻名。维基百科,修改)

Chomsky也批评了Skinner的方法,因为它假设对于任何展出的行为,必须有一些奖励。如果有人看着一幅画并说“荷兰语”,Skinner的分析假定表明,话语“荷兰语”的绘画必须有一些特征。但是,乔姆斯基辩称,这个人可能会说别的什么,包括“歪曲”,“丑陋”,或“让我们午餐”。Skinner无法指出绘画的具体特征,导致任何这些话语或提供任何证据表明话语在该特征存在下奖励。引用18岁th世纪法国作家(伏尔泰),他的潘格罗斯医生(在老实人)说:“你看,鼻子是为戴眼镜而造的——所以我们才有眼镜。”任何特征都必然会解决一个问题,在这种情况下,他声称,鼻子的形成就是为了能举起眼镜。潘格罗斯还说:“这是可以证明的……事情不可能有别的改变;因为一切皆为目的而生,一切必然都是为了最好的目的。”对于Silver等人来说,目的是解决问题的方法,而智能只是为了这个目的而学习的,但我们不一定知道这个目的是什么,或者是什么环境特征导致了它。肯定有什么。

古尔德和Lewontin(1979年)着名的庞洛斯博士批评他们称之为“适应主义者”或“庞克罗斯”的进化生物学的范例。核心适应性代码是任何特征都必须具有自适应解释。他们指出了高度装饰的都能威尼斯圣马可大教堂(两个拱门交汇处近似三角形的形状)的建筑特色是选择四个拱门之后的建筑特色,而不是建筑设计的驱动因素。拱肩是根据拱门的选择而设计的,而不是相反。一旦建筑师选择了拱门,拱肩就成为必要,它们可以被装饰。古尔德和列万廷说:“每个扇形穹顶的天花板必须沿着拱顶的中线有一系列的开放空间,也就是扇形穹顶两侧的柱子之间的交叉点。由于空间必须存在,它们通常被用于巧妙的装饰效果。”

圣马可大教堂的吊带
威尼斯圣马可大教堂的拱肩(来源:迈克尔·瓦登创造性的公共许可证

古尔德和列万廷给出了另一个例子——对阿兹特克人牺牲同类相食的适应性解释。阿芝特克人从事人类的牺牲.适应主义者的解释是,牺牲系统是对肉类慢性短缺问题的解决方案。受害者的肢体经常被社区的某些高地位成员食用。这种“解释”认为,构成这种精心训练谋杀的神话,象征和传统系统是需要肉的结果,而相反可能是真的。每个新的国王不得不超过他的前任,越来越多地阐述更多的人的牺牲,似乎已经越来越紧张了阿兹特克帝国的经济资源。其他蛋白质来源是容易获得的,只有某些特权的人已经有足够的食物,只吃了牺牲受害者的某些部分。如果将肉类进入饥饿人的肚子是目标,那么人们会期望他们将更有效地利用受害者使用,更广泛地传播食物来源。对肉类的需求不太可能成为人类牺牲的原因,相反,似乎是其他文化习俗的结果,其实际适用于阿兹特克文明的生存。

套用西尔弗等人到目前为止的观点,如果目标是变得富有,那么积累很多钱就足够了。积累金钱被解释为富有的目标。富裕的定义是积累了很多钱。强化学习没有解释一个人如何积累金钱,或者为什么应该把它作为一个目标。他们认为,这些是由环境决定的。

然后,奖励,那么,最小,环境也起到了一个角色。但是,适应甚至的适应。适应需要一种可变性的源,从中可以选择某些性格。进化生物学变化的主要来源是突变和重组.在任何生物体中的繁殖涉及将父母的基因复制到儿童中。复制过程小于完美,引入错误。其中许多错误都是致命的,但其中一些不是,然后可以使用自然选择。在性再现物种中,每个父母通过其基因的副本(以及任何潜在的误差),两份拷贝通过重组(来自一个父母的一些基因而来自另一个父母的一些基因,而另一个副本通过其通过转移到下一代)。

奖励是选择。单独,这是不够的。作为道金斯他指出,进化的回报是将特定的基因传递给下一代。奖励是在基因层面,而不是在生物体或物种层面。任何能增加基因代代相传几率的因素都会调节这种奖励,但请注意,基因本身并不能变得聪明。

除了奖励和环境,其他因素也在进化和强化学习中发挥作用。奖励只能从可用的原材料中选择。如果我们把老鼠扔进洞里,它就不会学习飞行并像蝙蝠一样使用声纳。许多世代,也许数百万年将被要求积累足够的突变,即使是那么,也无法保证它会使蝙蝠演变的洞穴问题相同的解决方案。强化学习是一种纯粹的选择性过程。加强学习是增加行动的可能性的过程,这些行动共同形成了应对特定环境的政策。这些操作必须已经存在才能被选择。至少现在,这些行为是由进化中的基因和人工智能方案设计人员www.yabovip4

理查德Dawkins自私基因
英国生物学家Richard Dawkins,“自私基因”的作者(来源:Flickr、修改下创造性的公共许可证

作为Lachter和Bever指出,学习不会以Silver等人声称的塔巴拉Rasa开头,而是一套代表性承诺。基于他大部分理论建立的斯金纳,对动物,特别是鸽子和老鼠的加固学习。他和许多其他调查人员在STARK环境中研究过他们。对于大鼠,这是一个腔室,其包含用于大鼠的杠杆,用于压制和馈线以提供奖励。除了别的距离和漫步并与杠杆接触时,还没有太多。在包含啄钥匙的环境中类似地测试鸽子(通常在墙上的有机玻璃圈,可以照明的墙壁)和谷物饲养者以提供奖励。在这两种情况下,动物有一个预先存在的偏见,以衡量行为主义者所需的方式。老鼠会联系杠杆,结果,鸽子会即使没有奖励,也是一个暗盒中的照明钥匙。这种倾向以一种理想的方式响应,使其容易训练动物,调查员可以研究奖励模式的影响而没有很多麻烦,但它不是多年来发现杠杆或一个选择的选择啄钥匙不仅仅是任意便利,而是一个无法识别的“幸运的选择”。

当Rumelhart和McClelland建立他们的过去式学习者时,同样的幸运选择发生了。他们选择了一种恰好反映了他们想让神经网络学习的信息的表示法。它不是一个完全依赖于一般学习机制的白板。Silver et al. (In另一篇论文通过重叠的作者集合)在他们开发的Alphazero的发展中也得到了“幸运”,他们在本文中引用。

在上一篇论文中,他们提供了更详细的alphazero账户以及本声明:

“我们的结果表明,通用强化学习算法可以学习,塔卢萨拉 - 没有域特定的人类知识或数据,这可以通过相同的算法在多个挑战游戏中取得的多个域 - 超人性能所证明的。”

他们还注意到:

“alphazero替换了具有深度神经网络,通用强化学习算法和通用树搜索算法的传统游戏节目中使用的手工制作的知识和域特定的增强。”

它们不包括明确的游戏特定的计算指示,但他们确实包括对解决问题的大量人类贡献。例如,它们的模型包括“神经网络fθ(年代)占据董事会的位置年代作为移动概率向量的输入和输出。”换句话说,他们不希望电脑知道自己在玩游戏,或者游戏是轮流进行的,或者不能把棋子堆成一堆,或者把棋盘扔到地板上。它们还提供了许多其他限制,例如,让机器与自己对抗。他们使用的树代表曾经是代表游戏玩法的一个巨大创新。树的分支对应于可能的移动范围。没有其他行动是可能的。计算机还提供了一种使用蒙特卡罗树搜索算法来搜索树的方法,并提供了游戏规则。

去董事会
图片来源:Depositphotos

那么,Alphazero远远没有成为塔卢萨,它得到了实质性的先验知识,这大大限制了它可以学习的可能事物的范围。因此,即使在学习播放的背景下,也不清楚“奖励足够”的意思。为了奖励足够,它必须在没有这些限制的情况下工作。此外,目前尚不清楚甚至是普通游戏系统是否将作为较少约束环境中的一般学习的示例。alphazero是对计算智能的实质性贡献,但其贡献主要是设计它的人类智能,以识别它将运作的限制,并减少将游戏播放到定向树搜索的问题。此外,它的约束甚至不适用于所有游戏,而是只适用于所有游戏,而且只有有限类型的游戏。它只能播放某些类型的棋盘游戏,该游戏可以被称为树搜索,其中学习者可以将电路板位置作为输入和输出概率向量。没有证据表明它甚至可以学习另一种棋盘游戏,例如垄断甚至是Parchisi。

如果没有这些约束,奖励就不能解释任何事情。AlphaZero不是所有学习类型的模型,当然也不是一般智力的模型。

Silver等人。将一般情报视为定量问题。

“一般情报,人类拥有的综合情报,也许也是其他动物,可以被定义为在不同背景下灵活地实现各种目标的能力。”

需要多少灵活性?各种目标有多宽?如果我们有一台可以互换的电脑,跳棋和国际象棋,那么这仍然不会构成一般情报。即使我们添加了另一场比赛,Shogi,我们仍然会通过查找“拍摄板位置的模型来仍然有用的电脑仍然存在。年代作为移动概率向量的输入和输出。”计算机完全不能容纳任何其他“想法”或解决任何不能以这种特定方式表示的问题。

人工综合情报中的“一般”并不是其可以解决的不同问题的数量,而是通过解决许多人的能力类型问题。一般情报代理必须能够自主地制定自己的陈述。它必须发明自己的解决问题,选择自己的目标,表示,方法等。到目前为止,这就是人类设计师的全部涵义,这些人的设计师减少了通过调整模型参数来解决计算机可以解决的问题。我们无法达到一般情报,直到我们可以删除对人类实现问题的依赖.强化学习作为一种选择性过程,不能做到这一点。

结论正如行为主义和认知主义之间的对抗,以及回溯传播是否足以学习语言的过去式转换的问题一样,这些简单的学习机制只有在我们忽视其他往往未被承认的约束所带来的沉重负担时才显得足够。奖励在可用的选择中进行选择,但它们不能创造这些选择。行为主义的奖励只要人们不太仔细地观察现象,只要人们认为一定存在某种奖励来强化某些行为,就会起作用。它们可以在事后“解释”任何观察到的行为,但它们不能帮助实验室以外的人预测哪些行为将会出现。这些现象与奖励是一致的,但如果认为它们是由奖励引起的,那就错了。

与银等人相反。奖励是不够的。

关于作者

Herbert Roitblat是作者算法是不够的:如何创造人工通用智能(麻省理工学院出版社,2020)。

3评论

  1. 至少有一半的心理世界并不同意Chomsky“毁灭”Skinner关于语言学习的主张。In fact, if the tables were turned, as they have been by many critics of Chomsky, his alternative of a Language Acquisition Device lacks any more evidence than Skinner’s claims and rests on findings, such as irregular past tenses, which Rummelhart and McClelland at least challenged, that can be explained in ways that do not assume an internal, rule-based deep language structure processing device. The fallacy of this paper is that it attacks a straw man. Neither Skinner nor the DeepMInd group, as well as others such as Daniel Dennett, argue that our brains at birth are a tabula rasa. They all assume genetically-based learning mechanisms (algorithms being the computations they carry out) that are necessary to guarantee that reward learning is based on things such as selecting the critical elements of the environment to attend to, weighting recency more heavily than simple cumulative totals, and many built-in behavioral responses to expected environments. Their point, however is that rewards, in this case survival and reproduction, have shaped the development of these inherited structures and mechanisms. Roitblat is right is that a tabula rasa brain could not learn much by rewards, but the DeepMInd group suggests that a tabula rasa AI could develop learning algorithms that allowed it to learn virtually anything. In Evolution, we didn’t develop fully wired brains that had nothing built in, then use them to learn things, we probably built our brains out of learning devices that began as very simple reinforcement learning mechanisms supporting survival (e.g. amoebic avoidance mechanisms). One error in the “rewards are enough” model is that we learn a lot by association without reward, based on exposure to an environment that contains predictable interdependencies among its components. It’s the distinction between learning and performance that psychologists such as Bandura talked about. What we learn may not require rewards to learn it, but we don’t use it except when it pays off to use it by gaining us a reward.

  2. 严重......智力是最大化的影响。亚博ios彩票什么是影响?嗯...观看“通过Hebbian学习”的“AGI解决的咖啡店”或“影响最大化”这是AGI世界上最好的方法。

发表评论

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据