什么是递归神经网络?

5
字
图片来源:Depositphotos

本文是的一部分神秘的人工智能(试图)消除围绕人工智能的术语和神话的歧义。

人类思想具有处理各个信息和序列的不同机制。例如,我们有一个“喜欢”这个词的定义。但我们也知道如何在句子中使用“喜欢”取决于它之前和之后的单词。考虑如何在以下两种句子中填写空白:

你想要咖啡吗?

你想散步吗?

我们随处可见序列。视频是图像的序列,音频文件是声音样本的序列,音乐是音符的序列。在所有情况下,序列的各个成员之间都存在时间依赖性。改变视频中的帧序将使其失去意义。改变句子或文章中单词的顺序可以完全改变它的意思。

与人脑一样,人工智能算法有不同的机制来处理个人和顺www.yabovip4序数据。第一代人工神经网络,在过去几年中获得普及的AI算法是为了应对单个图像或信息的固定长度记录而创建的。但它们不适合可变长度,顺序数据。

复发性神经网络(RNN)首次提出在20世纪80年代,对神经网络的原始结构进行了调整,使其能够处理数据流。

前馈与递归神经网络

多层的感知(MLP)和卷积神经网络(CNN),两种流行的ann类型,被称为前馈网络。在前馈网络中,信息朝着一个方向移动。它们在一端接收输入,在其隐藏层中处理数据,并产生输出值。例如,图像通过一端,图像内容的可能类别从另一端出来。

前馈神经网络
在前馈神经网络中,信息在一个方向上移动。

在处理一段信息之后,馈通网络忘记它并独立地处理下一个输入。因此,前馈网络对输入之间的序列和时间依赖性一无所知。

另一方面,经常性的神经网络使用通过隐藏层获得的结果来处理未来输入。

递归神经网络
在经常性神经网络中,隐藏层的输出被馈回网络。

进入内层的信息反馈使rnn能够跟踪它过去处理过的信息,并使用它来影响它在未来做出的决策。这就是为什么当循环神经网络将一个单词作为输入来处理时,单词之前的内容会产生不同。

经常性神经网络的不同模式

根据用例的类型,可以将RNN调整为以下模式之一:

当单个输入映射到多个输出时,使用一对多模式。例如,图像标题系统采用单个图像并输出描述。

一对多的rnn
在一对多RNN中,单个输出映射到序列。

当输入序列映射到单个输出到单个输出时,使用多对一模式。例如,感应分析RNN采用一系列单词(例如,推文)并输出情绪(例如,正或负)。

多对一的rnn
多对一RNN将一个序列映射到一个单独的输出

当输入序列映射到输出序列时,使用多对多模式,也已知和序列到序列模型。例如,机器翻译RNN可以将英语句子作为输入,产生法式等效物。

多对多的rnn
许多致许多RNN生成序列的序列。

递归神经网络的应用

RNN的一些最重要的应用涉及自然语言处理计算机科学的一个分支,帮助软件理解书面和口头语言。

电子邮件应用程序可以使用自动句型,智能组件和主题建议等功能使用经常性神经网络。您还可以使用RNN来检测和过滤垃圾邮件。

聊天机器人是循环神经网络的另一个主要应用。作为会话接口,它们必须能够处理长而多变的文本序列,并使用自己生成的文本输出进行响应。这是多对多RNN模式的一个例子。

NLP中RNN的其他用户包括问题应答,文档分类,机器翻译,文本摘要等等。

与自然语言相关的经常性神经网络的另一个用途是语音识别和转录。可以培训RNN以将语音音频转换为文本,反之亦然。

但循环神经网络的使用并不局限于文本和语言处理。rnn可以应用于任何类型的顺序数据。

例如,如果你训练一个循环神经网络爱尔兰的民间传说的音乐,它可以在凯尔特风格中生成自己的笔记序列。

RNN在时间序列预测中也是有用的。例如,在天气数据或股票价格上培训的经常性神经网络可以为未来产生预测。

超出经常性神经网络

原始的RNN遭受称为“消失梯度”的问题。如果没有进入技术细节,消失的梯度问题意味着旧数据失去其效果,因为RNN进入更多循环。例如,如果您正在处理文本,则在开始时出现的单词才能随着序列的增长而导致其相关性。消失的梯度问题不仅限于反复性神经网络,但在RNN中变得更加有问题,因为它们是为了处理长期的数据序列。

要解决这个问题,德国科学家JürgenSchmidhuber和他的学生创造了长期短期记忆(LSTM)网络。LSTM是RNN的一种特殊类型,具有更复杂的结构,解决了消失梯度问题。它已经在大多数主要领域取代了rnn,如机器翻译、语音识别和时间序列预测。

长短期记忆(LSTM)
长短期内存网络

最近,变形金刚,另一种类型的序列处理神经网络2017年推出,越来越受欢迎。变形金刚利用了一种称为“注意机制”的技术,在某种类型的RNN结构中发现,在非常大的数据集中提供更好的性能。

变形金刚已经成为人工智能领域许多卓越成就的关键组成部分,包括巨大的语言模型这可以产生很长的相干文本序列。许多大型科技公司已采用自己的变压器版本,并为公众提供了它们。去年,AI(AI2)的Allen Institute,使用了变压器创建一个能够回答科学问题的人工智能

变压器
变压器网络结构

经常性神经网络的限制

有一点值得注意的是,RNN(如所有其他类型的神经网络)都不会像人脑一样处理信息。它们是统计推理引擎,这意味着它们在顺序数据中捕获重复模式。他们对存在的数据点并不了解这些概念。这就是为什么你需要大量数据来从RNN获得可接受的性能。

例如,Openai的GPT-2是一个1.5亿参数变压器,在非常大的文本语料库(数百万个文件)上培训。当您使用暗示时,它可以产生有趣的文本摘录。但它也可以做出非常愚蠢的错误,例如不能在文本中发出数字和位置。在一个GPT-2的批判性评估,科学家加里马斯库斯扩大了为什么神经网络在处理语言方面都很糟糕。

相比之下,对于我们的人类来说,发现序列中的模式只是我们所提供的许多技巧之一。我们有大量的其他机制来理解文本和其他顺序数据,这使我们能够填充逻辑和常识的空白。

RNN的成就和缺点是我们对创造人工智能有多远的提醒,我们必须走得更远。www.yabovip4

发表评论

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据