理解生物视觉和计算机视觉之间的区别

8.分钟阅读
生物与计算机视觉

欢迎来到AI书评yabet468.cc,一系列探索人工智能最新文献的帖子。www.yabovip4

自从初年的人工智能以来,科学家们梦想着创造了可以“www.yabovip4看到”世界的电脑。随着愿景在我们每天做的许多事情中发挥着关键作用,破解了代码计算机视觉似乎是开发人工智能的主要步骤之一。

但就像人工智能的许多其他目标一样,计算机视觉被证明是说起来容易做起来难。1966年,麻省理工学院的科学家们夏季视觉项目这是一个为期两个月的项目,旨在开发一种能够识别图像中的物体和背景区域的计算机系统。但要实现这些目标,仅仅一个暑假是远远不够的。事实上,直到2010年代早期,图像分类器和目标探测器才足够灵活和可靠,可以用于主流应用。

在过去的几十年里,进步机器学习神经科学帮助计算机视觉取得了巨大进步。但在我们能够构建像我们一样看待世界的人工智能系统之前,我们还有很长的路要走。

生物和计算机视觉一本哈佛医科大学教授Gabriel Kreiman的书,提供了一种可访问的遗体,即人类和动物流程如何看视觉数据以及我们在计算机中复制这些功能的程度。

克里曼的书有助于理解生物视觉和计算机视觉之间的区别。这本书详细描述了数十亿年的进化如何让我们拥有了一个复杂的视觉处理系统,以及研究它如何帮助激发出更好的计算机视觉算法。克里曼还讨论了当代计算机视觉系统与生物视觉系统的区别。

我建议大家阅读一下生物和计算机视觉对于那些对该领域感兴趣的人,我已经尝试过在这里(来自Gabriel本人的一些帮助)铺设了一本书的一些关键的外卖。

硬件差异

大脑vs集成电路
生物视觉是靠有机物和皮层细胞运作的。计算机视觉是在晶体管和电子电路上运行的。

在介绍中生物和计算机视觉,Kreiman写道,“我特别兴奋地连接生物和计算电路。生物视觉是数百万年的进化的产物。在开发计算模型时,没有理由重新发明轮子。我们可以从生物学如何解决视觉问题并使用解决方案作为启示来构建更好的算法。“

事实上,对视觉皮质的研究已经存在是计算机视觉和人工智能的伟大灵感来源.但在能够数字化视野之前,科学家必须克服生物和计算机视觉之间的巨大的硬件差距。生物视觉在互连的皮质细胞和有机神经元网络上运行。另一方面,计算机愿景在由晶体管组成的电子芯片上运行。

因此,必须在可以以与生物相当的方式在计算机中实施的水平来定义视力理论。Kreiman称之为“Goldilocks解决方案”,这是一个抽象级别,既不详细也没有太简单。

例如,计算机愿景中的早期努力试图以一种非常抽象的水平解决计算机愿景,以一种忽略人类和动物大脑如何识别视觉模式的方式。这些方法已被证明是非常脆弱和低效的。另一方面,分子水平的研究和模拟大脑将证明是计算效率低下。

“我不太喜欢我所谓的‘复制生物学’,”克里曼说TechTalks..“生物学有很多方面可以,应该抽象出来。我们可能不需要具有20,000个蛋白质和细胞质和复杂的树突形象的单位。这将是过多的生物细节。另一方面,我们不能仅仅研究行为 - 这是不够的细节。“

生物和计算机视觉,Kreiman将新奇电路的金发姑娘定义为每毫秒的神经元活动。神经科学和医疗技术的进步使得可以在毫秒的时间粒度下研究个体神经元的活动。

这些研究的结果有助于开发不同类型的人工神经网络这种人工智能算法松散地模拟了哺乳动物大脑皮层区域的工作。近年来,神经网络已被证明是视觉数据中最有效的模式识别算法,并已成为许多视觉数据的关键组成部分计算机视觉应用程序

体系结构的差异

生物和计算机视觉书籍封面
Gabriel Kreiman的生物和计算机愿景

近几十年来看过局面的创新工作深度学习,这有助于计算机模仿生物视觉的一些功能。卷积层他们受到动物视觉皮层研究的启发,在寻找视觉数据中的模式方面非常高效。池化层有助于泛化卷积层的输出,使其对视觉模式的位移不那么敏感。层叠在一起,卷积和池化层块可以从寻找小的模式(角,边等)到复杂的对象(脸,椅子,汽车等)。

但是,人工神经网络的高级架构与我们对哺乳动物视觉皮层的了解之间存在不匹配。

“不幸的是,‘层次’这个词有点模糊,”克里曼说。“在计算机科学中,人们用层来表示不同的处理阶段(层主要类似于大脑区域)。在生物学中,每个大脑区域包含六个皮层层(和细分)。我的直觉是,六层结构(它的连通性有时被称为标准微电路)非常关键。目前还不清楚我们应该把这种回路的哪些方面包括在神经网络中。有些人可能会争辩说,六层母题的各个方面已经被合并(例如,规范化操作)。但这里可能缺少大量的财富。”

同样,正如克里曼在书中所强调的生物和计算机视觉,大脑中的信息在几个方向上移动。光信号从视网膜移动到V1,V2和视觉皮层的其他层的下颞皮质。但是每层还向其前辈提供反馈。在每层内,神经元在彼此之间交互并传递信息。所有这些交互和互连有助于大脑在视觉输入中填充间隙,并在具有不完整信息时进行推断。

相反,在人工神经网络中,数据通常在一个方向上移动。卷积神经网络是“前馈网络”,这意味着信息仅从输入层到更高和输出层。

有一种叫做“反向传播”的反馈机制,可以帮助纠正错误,调整神经网络的参数。但是反向传播在计算上非常昂贵,而且只在神经网络的训练中使用。现在还不清楚反向传播是否直接对应于皮层层的反馈机制。

另一方面,复发性神经网络,将较高层的输出组合到其先前层的输入中,仍然在计算机视觉中使用有限。

视觉皮层vs神经网络
在视觉皮层(右图),信息向多个方向移动。在神经网络中(左图),信息是单向移动的。

在我们的谈话中,KReiman建议横向和自上而下的信息流动对将人工神经网络带到其生物对应物至关重要。

“水平连接(即,图层中的单元的连接)对于某些计算(例如模式完成)可能是至关重要的,”他说。“自上而下的连接(即,从下层的图层中的单元中的单元的连接)可能是使预测,因为注意上下文信息等必需的。

他还说,神经元有“当前网络中缺失的复杂的时间综合性质”。

目标差异

进化已经成功地发展出一种可以完成许多任务的神经结构。几项研究表明,我们的视觉系统可以动态调整其对目标的敏感性我们想要完成。然而,创建这种灵活性的计算机视觉系统仍然是一个重大挑战。

目前的计算机视觉系统旨在完成单一任务。我们有神经网络可以将对象,本地化对象,段图像分类为不同的对象,描述图像,生成图像等。但每个神经网络都可以单独完成一个任务。

加布里埃尔·克里曼
哈佛医科大学教授加布里埃尔·克里曼。“生物与计算机愿景”的作者。

“核心问题是理解‘视觉例程’,这是西蒙·厄尔曼(Shimon Ullman)创造的术语;我们如何以任务依赖的方式灵活地传送视觉信息?”Kreiman说。“你可以在一张图片上回答无数个问题。你不仅可以标记对象,还可以计算对象,可以描述它们的颜色,它们的交互作用,它们的大小等等。我们可以建立网络来做每一件事,但我们没有可以同时做所有这些事的网络。有一些有趣的方法可以通过问答系统实现,但这些算法虽然令人兴奋,但仍然相当原始,尤其是与人类的表现相比。”

集成差异

在人类和动物中,视力与嗅觉,触摸和听觉感应密切相关。视觉,听觉,躯体感觉和嗅觉树皮与彼此相互作用并拿起暗示来调整他们对世界的推论。另一方面,在AI系统中,这些内容中的每一个都是单独存在的。

我们需要这种集成来制造更好的计算机视觉系统吗?

克里曼说:“作为科学家,我们经常喜欢通过分解问题来解决问题。”“我个人认为这是一个合理的开始方式。我们不用嗅觉和听觉也能看得很清楚。想想卓别林的电影(去掉所有的音乐和文字)。你可以理解很多.如果一个人天生失聪,他仍然能看得很清楚。当然,有很多不同模式之间有趣的互动的例子,但我认为我们将在这种简化中取得很多进展。”

然而,更复杂的问题是视觉与大脑更复杂区域的整合。对人类来说,视觉与大脑的其他功能,如逻辑、推理、语言和常识紧密相连。

“一些(大多数?)视觉问题可能‘花费’更多的时间,需要将视觉输入与现有的世界知识结合起来,”克里曼说。

他指出,遵循前美国总统巴拉克奥巴马的照片作为一个例子。

奥巴马图片
了解它的情况这幅画需要世界知亚博ios彩票识,社会知识和常识。

为了理解这张照片里发生了什么亚博ios彩票,一个人工智能代理需要知道天平上的人在做什么,奥巴马在做什么,谁在笑,他们为什么笑,等等。回答这些问题需要大量的信息,包括世界知识(秤是衡量重量的)、物理知识(秤上的脚产生力量)、心理知识(许多人对自己的体重很敏感,如果他们的体重远远高于正常水平,他们会感到惊讶)、社会理解(有些人在开玩笑,有些人没有)。

“目前没有一个建筑可以做到这一点。所有这一切都需要动态(我们不能立即欣赏所有这些,通常使用许多固定来理解图像)和自上而下信号的整合,”克里曼说。

语言和常识等领域本身就是人工智能领域的巨大挑战。但这些问题能否单独解决,并与愿景一起整合,还是整合本身就是解决所有问题的关键,还有待观察。

“在某些时候,我们需要进入认知的所有这些方面,并且很难想象如何在没有任何引用语言和逻辑的情况下整合认知,”Kreiman说。“我希望多年来将在愿景模型中纳入更多的语言和逻辑,并相反地将视觉纳入语言模型的逻辑将会有重大令人兴奋的努力。”

留下一个回复

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据