亚博ios彩票什么是计算机愿景?

8.
计算机视觉目标检测
计算机视觉技术使计算机能够检测图像中的人员和对象(来源:YouTube)

如果我让你说出下面图片中物体的名字,你可能会不假思索地想到一系列词语,比如“桌布、篮子、草、男孩、女孩、男人、女人、橘子汁瓶、西红柿、生菜、一次性盘子……”。现在,如果我让你描述下面的图片,你可能会毫不犹豫地说,“这是一张家庭野餐的图片”。

一家人一起野餐
来源:Depositphotos

这些是两个具有低于平均智力的人,六到七岁以上的任何人都可以实现。然而,在背景中,发生了非常复杂的过程。The human vision is a very intricate piece of organic technology that involves our eyes and visual cortex, but also takes into account our mental models of objects, our abstract understanding of concepts and our personal experiences through billions and trillions of interactions we’ve made with the world in our lives.

数字设备可以在分辨率下捕获图像,并详细涵盖人类视觉系统。计算机还可以检测和测量颜色之间的差异,精度非常高。但是,对这些图像的内容进行了解是计算机几十年来挣扎的问题。到计算机,上图是像素数组,或表示颜色的数值。

计算机视觉是计算机科学的一个领域,专注于复制人类视觉系统的部分复杂性,使计算机能够像人类一样识别和处理图像和视频中的物体。直到最近,计算机视觉只能在有限的能力下工作。

由于人工智能和创新的进步www.yabovip4深度学习和神经网络近年来,这一领域取得了巨大的飞跃,并在一些与探测和标记物体有关的任务上超越了人类。

计算机愿景的应用

人类的脸部检测与识别。电脑愿景和町
来源:Depositphotos

计算机愿景的重要性在它可以解决的问题中。它是使数字世界与物理世界互动的主要技术之一。

计算机视觉使自动驾驶汽车以了解周围环境. 摄像机从汽车周围的不同角度拍摄视频,并将其输入计算机视觉软件,然后计算机视觉软件对图像进行实时处理,找到道路的尽头,读取交通标志,检测其他汽车、物体和行人。自动驾驶汽车可以在街道和高速公路上行驶,避免撞上障碍物,并(希望)安全地将乘客送到目的地。

计算机视觉在人脸识别应用中也扮演着重要的角色,这种技术使计算机能够将人脸图像与他们的身份匹配。计算机视觉算法检测图像中的面部特征,并将其与人脸轮廓数据库进行比较。消费设备使用面部识别来验证其所有者的身份. 社交媒体应用程序使用面部识别来检测和标记用户。执法机构还依靠面部识别技术来识别视频中的罪犯。

计算机视觉也起着重要的作用增强和混合现实,这项技术使得诸如智能手机,平板电脑和智能眼镜等计算设备以覆盖和嵌入真实世界图像上的虚拟对象。使用计算机视觉,AR齿轮检测现实世界中的对象,以便确定设备显示屏上的位置以放置虚拟对象。例如,计算机视觉算法可以帮助AR应用检测桌面,墙壁和地板等平面,这是建立深度和尺寸的非常重要的部分,并将虚拟物体放在物理世界中。

像Google照片这样的在线照片库使用计算机愿景来检测对象,并通过它们包含的内容的类型自动对图像进行分类。这可以为您节省一段时间,以否则将花费添加到图片中的标签和描述。电脑愿景还可以帮助注释视频内容,并使用户通过键入他们正在寻找的内容类型而不是手动查看整个视频来搜索视频的录像。

电脑愿景也是一个重要的部分的进步健康技术员.计算机视觉算法可以帮助自动化工作,如在皮肤图像中检测癌变的痣,或在x光和核磁共振扫描中发现症状。

计算机视觉还有其他更微妙的应用。例如,想象一个智能家庭安全摄像头,它不断地将你家里的视频发送到云端,让你可以远程查看视频。使用计算机视觉,您可以配置云应用程序,以便在发生异常情况时自动通知您,例如入侵者潜伏在您的房屋周围或房屋内发生火灾。这可以为你节省很多时间,因为你可以保证有一只眼睛一直盯着你的家。美国军方已经在使用计算机视觉来分析和标记由摄像机和无人机捕获的视频内容(尽管这种做法已经成为许多争议).

将上面的示例更进一步,您可以指示安全应用程序仅存储计算机视觉算法标记为异常的片段。这将帮助您在云中节省大量存储空间,因为在几乎所有情况下,您的安全摄像头捕获的大部分视频都是良性的,不需要审查。

此外,如果您可以部署边缘的计算机视觉对于安全摄像头本身,你可以指示它,只有在它标记其内容需要进一步审查和调查的情况下,才会将视频发送到云端。这将使您能够通过只向云发送必要的内容来节省网络带宽。

计算机愿景的演变

神经网络

在深度学习之前,计算机愿景可以表现的任务非常有限,开发人员和人类运营商需要大量的手动编码和努力。例如,如果要执行面部识别,则必须执行以下步骤:

  1. 创建数据库:必须以特定格式捕获要跟踪的所有主题的单独图像。
  2. 注释图像:然后,对于每一张图像,您必须输入几个关键的数据点,如眼睛之间的距离,鼻梁的宽度,上唇和鼻子之间的距离,以及其他几十种定义每个人的独特特征的测量。
  3. 捕获新图像:接下来,您必须捕获新图像,无论是来自照片或视频内容。然后,您必须再次通过测量过程,标记图像上的关键点。您还必须考虑到图像的角度。

在所有本手法工作之后,应用程序最终能够将新图像中的测量与存储在其数据库中的新图像进行比较,并告诉您它是否与其跟踪的任何配置文件相对应。事实上,涉及的自动化很少,大部分工作都是手动完成的。并且错误边缘仍然很大。

机器学习为解决计算机视觉问题提供了一种不同的方法。通过机器学习,开发人员不再需要手动将每一条规则编码到他们的vision应用程序中。取而代之的是,他们编写了“功能”,即可以检测图像中特定模式的小型应用程序。然后,他们使用统计学习算法,如线性回归,逻辑回归,决策树或支持向量机(SVM)来检测模式和分类图像,并检测其中的对象。

机器学习帮助解决了许多对传统软件开发工具和方法具有历史挑战性的问题。例如,几年前,机器学习工程师能够开发出一种比人类专家更能预测乳腺癌存活时间的软件。然而,作为人工智能专家杰里米·霍华德解释说在美国,软件功能的构建需要数十名工程师和乳腺癌专家的努力,并花费了大量时间。

经典的机器学习乳腺癌检测
经典的机器学习方法涉及许多复杂的步骤,需要数十位领域专家、数学家和程序员的协作

深度学习提供了一种完全不同的机器学习方法。深度学习依赖于神经网络,这是一种通用函数,可以解决任何可以通过示例表示的问题。当你为神经网络提供特定类型数据的许多标记示例时,它将能够提取这些示例之间的共同模式,并将其转换为数学方程,从而帮助对未来的信息进行分类。

例如,使用深度学习创建一个面部识别应用程序只需要开发或选择一个预先构建的算法,并用它必须检测到的人脸的例子来训练它。只要给出足够的例子(大量的例子),神经网络就能够检测人脸,而无需对特征或测量进行进一步的指示。

深度学习是一种非常有效的计算机视觉方法。在大多数情况下,创建一个好的深度学习算法归结为收集大量标记训练数据,并调整参数,如神经网络的类型和层数和训练时代。与以前的机器学习类型相比,深度学习的开发和部署更容易、更快。

目前大多数计算机视觉应用,如癌症检测、自动驾驶汽车和面部识别,都利用了深度学习。由于硬件和云计算资源的可用性和进步,深度学习和深度神经网络已经从概念领域进入了实际应用。然而,深度学习算法有其自身的局限性,其中最显著的是缺乏透明度和可解释性

计算机视觉的极限

由于深度学习,计算机视觉已经能够解决本文开头提到的两个问题中的第一个,即图像和视频中目标的检测和分类。事实上,深度学习在图像分类方面已经超过了人类的能力。

然而,尽管神经网络的命名让人联想到人类智能,但它的功能确实如此从根本上不同于人类思想. 人类视觉系统依赖于基于我们在头脑中建立的三维模型来识别物体。我们还能够将知识从一个领域转移到另一个领域。例如,如果我们第一次看到一种新的动物,我们可以很快辨认出大多数动物身上的一些部位,比如鼻子、耳朵、尾巴、腿…

深度神经网络有没有这样的概念他们对每一类数据都有自己的了解。从本质上讲,神经网络是一种统计模型,用来比较成批的像素,尽管方式非常复杂。这就是为什么他们需要看到很多例子,才能发展出必要的基础来识别每一个物体。因此,神经网络可以使愚蠢(和危险如果没有得到适当的训练,就会犯错误。

但是计算机视觉真正困难的地方是理解图像的上下文以及它们所看到的对象之间的关系。我们人类可以毫不犹豫地迅速分辨出文章开头的画面是家庭野餐的画面,因为我们对它所代表的抽象概念有了理解。我们知道什么是家庭。我们知道一片草地是一个令人愉快的地方。我们知道人们通常在餐桌上吃饭,而坐在地上围着桌布的户外活动很可能是一种休闲活动,尤其是当照片中所有的人都很开心的时候。当我们看到画面时,所有这些以及我们生活中其他无数的小经历很快就会在我们的脑海中浮现。同样地,如果我告诉你一些不寻常的事情,比如“冬季野餐”或“火山野餐”,你可以很快在脑海中勾勒出这样一个异国情调的事件会是什么样子。

对于计算机视觉算法,图片仍然是彩色像素的阵列,可以统计映射到特定的描述。除非你专门用家庭野餐的照片训练神经网络,否则它无法将照片中看到的不同物体联系起来。即使经过训练,该网络也只会有一个统计模型,它可能会把任何有很多草、几个人和桌布的图片贴上“家庭野餐”的标签。它不知道野餐的上下文是什么。因此,它可能会错误地将一幅愁眉苦脸、满脸煤烟的贫困家庭在户外吃饭的照片归类为快乐的家庭野餐。它可能看不出下面这幅画是动物野餐。

在野餐的动物在森林里

一些专家认为,真正的计算机视觉只有当我们破解密码时才能实现一般艾,具www.yabovip4有人类思维的抽象和常识能力的人工智能。我们不知道什么时候——或者是否——会发生。在那之前,或者直到我们找到其他的方式来表示概念的方式也可以利用神经网络的优势,我们必须把越来越多的数据在我们的计算机视觉算法,希望我们可以为每一个可能的账户类型的对象和背景他们应该能够识别。

1评论

  1. 什么是废话。
    CS能做这个CS能做那个
    你连一句话都没解释过CS是怎么工作的。

留下一个回复

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据