智能扬声器和基于语音的AI助手的根本问题

6.

亚马逊回声alexa

本文是其中的一部分贬低艾..,一系列帖子(尝试)消除术语术语和神话的神话。

自2014年底亚马逊Echo上市以来,智能音箱和语音助手一直被宣传为下一个大产品。近四年后,尽管售出了数百万台设备,但很明显,就像科技行业的许多其他愿景一样,这种看法有些言过其实。事实证明:大多数人并不使用Alexa购物这是亚马逊的人工智能语音助手的主要广告使用案例之一。

语音助手在Echo出现之前就已经存在了。2011年,苹果为iOS设备发布了Siri。但Echo是第一个将语音作为唯一用户输入媒介的设备。多年来,声音的局限性变得更加突出。

需要说明的是,语音助手非常有用,它们的应用将继续扩大,并集成到我们日常生活中越来越多的领域,但不会像人工智能助手那样无处不在。声音的未来是在充足的狭隘环境中整合人工智能www.yabovip4而不是一个宽泛的、通用的AI助手,它可以完成你能想到的任何事情。

语音助理的技术

声音waves.jpg

为了更好地了解语音助手的功能,我们需要了解其背后的技术。和许多尖端软件一样,语音助手是由狭窄的人工智能www.yabovip4,这类AI在执行特定任务时非常有效,但无法做出笼统、抽象的决定就像人类的大脑。

更具体地说,语音助手利用了人工智能的两个特定分支:语音识别和自然语言处理(NLP).当用户向Alexa发出命令时,语音识别部分就会将声波转换成书面文字。然后,NLP部分接收这些单词并处理它们包含的命令。

语音识别和自然语言处理已经存在很长一段时间了。但进步机器学习,深度学习和神经网络近年来,从根本上改变了语音认可和NLP工作的方式。例如,当您提供具有数千个和数百万个语音样本的神经网络及其对应的单词时,它会学习创建可以将语音命令转换为书面文本的底层软件。

这是对传统软件开发方式的一个重大转变,在传统的软件开发方式中,开发人员必须手动编写解析声波的规则,这个过程既费力又容易出错。

同样,NLP使用同样的实例学习方法来解析人类语言的不同细微差别,并理解底层命令。这种技术为当今许多强大的应用提供了动力,比如聊天机器人和谷歌的高度准确的翻译引擎

将太多命令集成到智能扬声器中的问题

路标
图片来源:Depositphotos

语音识别是一个相对狭窄的领域。这意味着给出了足够的样本,您可以创建一个模型,该模型可以在不同的情况下识别和转录语音命令,并在不同的背景噪音和口音。

然而,自然语言处理是智能扬声器具有挑战性的部分,因为这不是一个狭窄的领域。假设你有一个可以执行三到四个特定命令的语音助手。你为它的AI提供足够的用户可能发出这些命令的不同方式的样本,它就会开发出一个几乎完美的模型,可以理解和执行所有发送这些命令的不同方式。

只要智能扬声器能执行这三种特定的任务,并且用户知道这些是它的唯一功能,这种模式就可以工作。但亚马逊Echo及其同类产品谷歌Home和苹果HomePod却不是这样工作的。例如,亚马逊允许开发者为其alexa驱动的设备创造新技能,自发布以来,Echo已经创造了一个拥有3万多项技能的巨大技能市场。

给语音助手添加太多技能的问题在于,用户无法记住它可以或不能给人工智能助手的语音命令列表。因此,当一个人工智能助手可以执行太多任务时,用户会期望它能够理解并完成他们告诉它的任何事情。

但无论您添加到AI助手如何添加多少个功能和功能,您只会刮伤人类大脑可能会提出的任务列表的表面。和语音助理遭受了已知深度学习算法的限制,这意味着他们只能在自己受训的特定领域工作。一旦你给了他们一个他们不知道的命令,他们要么失败,要么开始以古怪的方式行动。

另一种方法是创建一个可以做任何用户告诉它的通用AI。但这是一般的AI,至少几十年的东西,超出了AI的当前混合物的能力。通过当今的技术,如果你试图解决一个太广泛的问题域,你最终需要将人类添加到循环中来弥补你AI的失败。

语音助手的视觉限制

移动显示apps.jpg

技能问题是你在台式电脑、笔记本电脑和智能手机上不会遇到的问题。这是因为这些设备有一个显示器和一个图形用户界面(GUI),它清楚地定义了每个应用程序的功能和边界。当你打开一台Windows或Mac电脑时,你可以迅速看到安装在上面的应用程序列表,并大致了解你可以用它们执行哪些任务。

在智能音箱上,您可以使用计算机或移动设备查看已安装在音箱上的技能列表。但这就意味着你必须走自己的路,使用另一种设备,它可能已经可以完成你最初想用智能扬声器完成的任务。

另一种选择是给你的智能扬声器增加一个显示屏,就像Echo Show和Echo Spot所做的那样。但当你在智能扬声器上安装显示屏时,你可能还会给它添加触摸屏功能。接下来,主用户界面变成了显示屏和触摸屏,语音功能变成了可选的次要功能。这正是Siri在iOS和MacOS设备上的运行方式。

语音的另一个问题是,它不适合复杂的、多步骤的任务。以本文开头提到的购物示例为例。在购物时,用户希望能够浏览不同的选择,并权衡不同的选择。当你没有显示器的时候,这是很难做到的。因此,在购物的情况下,智能扬声器或语音助手可能适合购买日常家居用品,如洗涤剂和卫生纸,但不适合购买衣服或电子设备,因为它们有很多种类和差异。

当在基于屏幕的设备上执行时,在基于屏幕的设备上执行时,将需要在不同屏幕或菜单项之间来回来回进行的其他任务将在移植到语音助手时同样具有挑战性。

对于大多数智能扬声器的用户来说,播放音乐、设置计时器和日程表、开灯和其他简单的任务构成了他们的大部分互动。

人工智能和语音助手的未来

互联网汽车.JPG.

综上所述,我认为语音助手在短期内不会消失。但是在用户希望执行简单任务的环境中,它们会发现它们的真正用途。我们可能会看到许多设备能够执行有限数量的语音命令,而不是单个设备能够执行许多语音命令。随着硬件成本的下降,这将变得越来越可能优势AI处理器市场发展

以智能家居为例。许多专家认为,很快,计算和连接将成为大多数家用电器的固有和不可分割的特征。很容易想象像灯泡,烤箱和恒温器可以通过与云连接或本地硬件进行处理语音命令。Unlike a smart speaker sitting in your living room, there are very few commands you can give to a light bulb or an oven, which means there’s little chance that users might become confused about their options or start giving commands that the voice AI doesn’t understand.

我预计基于语音的人工智能将在酒店领域取得成功,因为客户希望执行的功能范围有限。我还可以想象,用户可以将他们的人工智能助手(如Alexa或Cortana)插入酒店房间,这些助手将能够更好地解析他们的语音命令,并拥有他们照明和空调偏好的数字档案,并可以自动应用。

汽车也是语音助手的另一个适合环境。同样,用户在车内执行的功能是有限的(打开后备箱、锁车门、播放音乐、打开雨刷、设置导航路线……),在这样的设置中,许多用户会喜欢语音助手的免提体验,更喜欢它而不是手动执行任务。

但是AI和语音助手的真正潜力可以在AR耳机中表现出来.在增强现实环境中,用户必须在与现实世界互动的同时完成不同的复杂任务,这意味着他们将不能使用键盘和鼠标等输入设备。在眼球追踪和脑机接口(BCI)等其他技术的帮助下,人工智能助手将使用户能够以一种无摩擦的方式与虚拟环境和物理环境进行互动。

语音识别和语音助手是AI的非常有前途的分支。但他们的潜力可能与我们的期望不同。

1评论

留下一个回复

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据