Tesla Ai首席解释了为什么自动驾驶汽车不需要LIDAR

9分钟阅读

亚博ios彩票您需要创建完全自治车辆的技术堆栈是什么?公司和研究人员分为该问题的答案。自动驾驶范围的方法是从相机和相机的自主驾驶范围计算机视觉到计算机视觉和高级传感器的结合。

特斯拉一直是一个声乐冠军基于纯粹的视觉驾驶方法在今年的计算机视觉和模式识别大会(CVPR)上,该公司的首席人工智能科学家安德烈·卡帕西解释了原因。

在2021年CVPR无人驾驶研讨会上发言,Karpataly,在过去几年中一直领导Tesla的自动驾驶努力,详细说明了该公司如何开发深度学习系统,只需要视频输入来理解汽车的环境。他还解释了为什么特斯拉在最好的位置,使基于视觉的自动驾驶汽车成为现实。

一个通用的计算机视觉系统

深神经网络是自动驾驶技术栈的主要组成部分之一。神经网络分析车载摄像头提供的道路、标志、车辆、障碍物和人的信息。

但深度学习也可以在检测图像中的对象时犯错误。这就是为什么大多数自动驾驶汽车公司,包括字母附属公司Waymo这是一种通过向各个方向发射激光束来绘制汽车周围三维地图的设备。激光雷达提供了补充信息,可以填补神经网络的空白。

然而,在自动驾驶系统中添加激光雷达也有其复杂之处。卡帕西说:“你必须用激光雷达预先绘制环境地图,然后你必须创建一个高清地图,你必须插入所有的车道,它们如何连接,以及所有的交通灯。”而在测试阶段,你只需要根据地图进行定位,就可以开车了。”

为自动驾驶汽车将要行驶的每个地点建立精确的地图是极其困难的。卡帕西说:“收集、建造和维护这些高清激光雷达地图是不可扩展的。”“要保持基础设施的更新是极其困难的。”

Tesla在自动驾驶堆栈中不使用LIDAR和高清地图。“在汽车中首次发生的事情发生了一切,这是基于围绕汽车的八个摄像机的视频,”卡尔甘露说。

自动驾驶技术必须弄清楚车道在哪里,交通灯在哪里,它们的状态是什么,以及哪些与车辆相关。亚博ios彩票而且它必须在没有任何预先定义的道路信息的情况下完成所有这些操作。

Karpataly承认基于视觉的自主驾驶在技术上更困难,因为它需要基于视频馈送的难以置信的神经网络。“但是一旦你实际上可以工作,它就是一般的愿景系统,并且主要可以部署地球的任何地方,”他说。

有了通用的视觉系统,你的车将不再需要任何辅助齿轮。卡帕西说,特斯拉已经在朝着这个方向前进。此前,该公司的汽车在自动驾驶时结合了雷达和摄像头。但是最近没有雷达开始运输汽车

“我们删除了雷达和独自行驶在视觉在这些汽车,“Karpathy说,并补充说原因是特斯拉深学习系统已经达到了临界点,一百倍比雷达,现在雷达开始阻碍事情,“开始贡献噪音。”

监督式学习

针对纯电脑视觉方法的主要论点是,无需激光雷达深度映射的无帮助,无论神经网络是否可以进行范围查找和深度估计,存在不确定性。

卡帕西说:“很明显,人类用视觉开车,所以我们的神经网络能够处理视觉输入,了解我们周围物体的深度和速度。”“但最大的问题是,人工神经网络能否做到同样的事情。我认为在过去的几个月里,我们内部给出的答案是肯定的。”

特斯拉的工程师想要创造一个可以执行的深度学习系统agent yabovip168 还有深度、速度和加速度。他们决定把这个挑战当作监督学习问题,在对标注的数据进行训练后,神经网络学习检测目标及其相关属性。

为了训练他们的深度学习架构,特斯拉团队需要一个由数百万个视频组成的庞大数据集,并仔细标注它们包含的对象及其属性。为自动驾驶汽车创建数据集尤其棘手,工程师必须确保包括一套多样化的道路设置和不经常发生的边缘情况。

卡帕西说:“当你有一个大的、干净的、多样化的数据集,你用它训练一个大的神经网络,我在实践中看到的是……成功是有保证的。”

自动标记的数据集

随着全球数百万辆配备摄像头的汽车的销售,特斯拉在收集训练汽车视觉深度学习模型所需的数据方面处于有利地位。特斯拉无人驾驶团队收集了包括100万个10秒视频和60亿个物体在内的1.5 pb的数据,这些物体都用边界框、深度、速度进行了标注。

但标记这样的数据集是一个很大的挑战。一种方法是通过手动注释数据标签公司或亚马逊土耳其人等在线平台。但这需要大规模的手工努力,可能会花费一笔财富,并成为一个非常缓慢的过程。

相反,Tesla团队使用了一种自动标记技术,涉及神经网络,雷达数据和人类评论的组合。yabet468.cc由于数据集正在脱机被注释,因此神经网络可以运行视频,并将其预测与地面真相进行比较,并调整它们的参数。这与测试时间推断形成对比,其中一切都在实时发生,深度学习模型无法追索。

离线标记也使工程师能够应用非常强大和计算密集型的对象检测网络,这些网络不能部署在汽车上,并用于实时、低延迟的应用程序。他们使用雷达传感器数据进一步验证神经网络的推论。所有这些都提高了网络标签的精度。

卡帕西说:“如果你离线了,你有事后诸葛亮的好处,所以你可以更好地平静地融合(不同的传感器数据)。”“此外,你可以让人类参与进来,他们可以做清理、验证、编辑等等。”

根据卡帕西在CVPR上展示的视频,物体探测网络通过碎片、灰尘和雪云保持一致。

特斯拉物体跟踪自动标记
特斯拉的神经网络可以在各种能见度条件下一致地检测物体。

Karpathy并没有说需要多少人力努力,以便对自动标签系统进行最终修正。但人类认知在向右方向转向自动标签系统方面发挥了关键作用。

在开发数据集时,特斯拉团队发现了超过200个触发点,表明物体检测需要调整。这些问题包括不同相机的检测结果不一致,或者相机和雷达之间不一致。他们还确定了可能需要特别注意的场景,如隧道入口和出口,以及顶部有物体的汽车。

我花了四个月的时间来开发和掌握所有这些触发因素。随着标识网络的改善,它被部署在“影子模式”,即安装在消费汽车上,不向汽车发出命令,默默地运行。该网络的输出将与传统网络、雷达和驾驶员行为的输出进行比较。

特斯拉团队经历了七次数据工程迭代。他们从一个初始数据集开始训练他们的神经网络。然后,他们在真实汽车的阴影模式下部署了深度学习,并使用触发器来检测不一致、错误和特殊场景。然后对错误进行修订和更正,如果有必要,还会向数据集添加新的数据。

“我们一遍又一遍地旋转这个循环,直到网络变得令人难以置信的好,”卡尔达斯说。

因此,该体系结构可以被更好地描述为一个半自动的标签系统365.com亚搏彩票 在这种情况下,神经网络做重复性的工作,而人类负责高级认知问题和疑难问题。

有趣的是,当其中一个与会者询问Karpathy,如果触发器的生成可以自动化,他说:“[自动化触发]是一个非常棘手的场景,因为你可以有一般触发器,但它们无法正确代表错误模式.例如,它非常难以自动使用触发器触发进入和退出隧道。这是一个像一个人对Intuit的人一样的语义[强调我的]这是一个挑战......这不清楚这将如何工作。“

分层深度学习架构

特斯拉的自动驾驶团队需要一个非常高效、设计良好的神经网络,才能充分利用他们收集到的高质量数据集。

该公司创建了一个分层深度学习架构,由不同的神经网络组成,处理信息并将其输出提供给下一组网络。

深度学习模型使用卷积神经网络从安装在车周围的八个摄像头的视频中提取特征,并用变压器网络.然后,它会随着时间的推移融合它们,这对轨迹预测和消除推断的不一致性等任务很重要。

然后将空间和时间特征送入神经网络的分支结构,该分支结构是卡尔卑斯称为头部,树干和终端。

“你想要这个分支结构的原因是因为您对每个输出的每个输出都无法为每个输出提供单一的神经网络,所以您负担不足的原因是有很多输出,”Karpathy说。

分层结构使得组件可以用于不同的任务,并在不同的推理路径之间实现特征共享。

网络模块化体系结构的另一个好处是可以进行分布式开发。特斯拉目前正在雇佣一个由机器学习工程师组成的大型团队来研究自动驾驶神经网络。他们每个人都在网络的一小部分工作,然后将他们的结果插入到更大的网络中。

“我们有一个大约20人的团队,全职培训神经网络。他们都在一个神经网络上合作,“Karpathy说。

垂直整合

在CVPR的演讲中,卡帕西分享了特斯拉用来训练和调整其深度学习模型的超级计算机的一些细节。

计算集群由80个节点组成,每个节点包含8个Nvidia A100图形处理器,80g显存,总计5760个图形处理器和超过450tb的VRAM。这台超级计算机还拥有10pb的NVME超高速存储和640 tbps的联网能力,可以连接所有节点,并允许对神经网络进行有效的分布式训练。

特斯拉还拥有并制造安装在其汽车内的人工智能芯片。卡帕西说:“这些芯片是专门为我们希望用于(完全自动驾驶)应用的神经网络设计的。”

特斯拉的最大优势在于它的垂直整合。特斯拉拥有整个自动驾驶汽车堆栈。该公司生产用于自动驾驶的汽车和硬件。该公司在从其售出的数百万辆汽车中收集各种各样的遥测和视频数据方面处于独特的地位。它还利用自己专有的数据集和特殊的内部计算集群来创建和训练神经网络,并通过对汽车的阴影测试来验证和微调这些网络。当然,它有一个非常有才华的团队,由机器学习工程师、研究人员和硬件设计师组成,把所有的部件组合在一起。

卡帕西说:“你要参与所有层面的设计和工程师工作。“没有第三方阻止你。你完全掌握了自己的命运,我认为这是不可思议的。”

这种垂直集成和重复循环创建数据,调整机器学习模型以及将它们部署在许多汽车上,将特斯拉放在一个独特的位置,以实现唯一的自动驾驶汽车能力。在他的演讲中,Karpataly展示了几个例子,其中单独的新神经网络单独突出与雷达信息相结合的传统ML模型。

如果系统继续提高,因为卡尔巴伐说,特斯拉可能是在轨道上制作莱达已经过时。而且我没有看到任何其他公司能够重现特斯拉的方法。

开放的问题

但问题是,目前的深度学习是否足以克服自动驾驶的所有挑战。当然,目标检测、速度和距离估计在驾驶中起着重要的作用。但人类的视觉也执行许多其他复杂的功能,科学家称之为视觉的“暗物质”。这些都是对视觉输入和不同环境导航的有意识和潜意识分析的重要组成部分。

深度学习模式也是如此努力做出因果推断,当模型面临他们从未见过的新情况时,这可能是一个巨大的障碍。所以,虽然特斯拉已经成功创建了一个非常庞大和多样化的数据集,但开放道路也是非常复杂的环境,随时可能发生新的和不可预测的事情。

AI社区分为是否需要明确地将因果关系结合到深神经网络中,或者如果您可以克服因果关系障碍“直接装在那里,一个庞大而分布良好的数据集将足以实现通用的深度学习。特斯拉基于愿景的自动驾驶团队似乎更倾向于后者(尽管考虑到他们对堆栈的完全控制,他们总可以在未来尝试新的神经网络架构)。这项技术如何经受住时间的考验将是一件有趣的事情。

10评论

  1. 他们做的大部分事情都是相当明显的。早在20年前我还在学习人工智能的时候,我就写了很多类似的想法。在学习AI之前,我已经学习了物理学,我想我在处理空间、时间、动量和因果关系方面比大多数计算机专业的学生更有优势。

    如今,包括特斯拉在内的许多想法都已付诸实施,但他们正在犯几十年前在人工智能领域所犯的错误,甚至在我决定进入这个领域之前,人工智能就已经失宠了。无论是过去还是现在,公司都想先飞后爬,而高层情报根本不是这样运作的。即使是人,如果没有系统所缺乏的许多其他功能,也无法驾驶汽车。然而,当涉及到视觉模型时,他们坚持与人类进行比较。如果它们能复制人类在驾驶前需要学习的所有其他东西,那就好了,但事实并非如此。

    我不会梦想尝试在不受约束的重型机械上实施这些模型,如机动车,而无需多年的验证,在涉及与人类和人为控制的设备的互动的生产环境中的危险,更小的车辆/机器人。

    驾驶必然涉及与道路上的其他人类的沟通(主要是非口头上)沟通(主要是非口头上的)沟通和隐含地理解道路上的其他人。这不仅仅是在道路规则之后盲目的问题。如所谓的“边缘情况”在考虑时,不能降至有限数量。这样的情况,就像我们人类经历的一个组成部分,也是为什么我们不允许人们驾驶,直到达到一定的年龄,尽管他们可能是完全能够驾驶的技术方面。

    最不负责任的部分是,我确信他们知道得更好,但还是不顾他人的代价去做。他们通过免责声明来证明这一点,以及他们如何把他们的付费客户(和其他在路上的人)当作小白鼠,而对结果不承担任何责任。

    他们还应该知道,他们用来影响公众意见的统计数据是垃圾。首先,人们无法将他们的系统与人工操作员的安全记录进行比较,因为他们限制了系统何时是自主的,并要求在系统出现故障时由人工接管。如果你能分离出人类最容易驾驶的情况,并据此确定安全记录,那么这些统计数据将会大不相同。

    此外,必须在生产率的背景下考虑安全性。换句话说,如果这样做,安全是毫无意义的,这会花费人们一个无法接受的时间来达到目的地。这不仅包括他们的客户,而且包括其他车辆的客户。他们的制度,如果众所周心的自主实施,几乎肯定会在许多情况下导致误解的流量噩梦,因为他们的车辆和人类运营商在许多情况下导致死锁/僵局。唯一的解决方法是允许他们的车辆更大的风险来避免这种情况,但是安全记录会很大。他们目前从部署的低密度中受益,但随着数字的增加,这会发生巨大变化。

    我想我可以理解为什么那么多人认为特斯拉将在大规模生产全自动汽车方面取得成功,并主宰整个行业。这可能是因为他们不了解人工智能的第一件事,或者他们认为自己的思维过程中有多少是理所当然的。他们很容易被一家不道德的公司操纵,这家公司的老板用一个更糟糕的借口来欺骗他们,而这个人碰巧对事情的理解只够让他们相信他,而实际上他们应该尽快与他保持距离。

    • 你钉了它。我在科技产业中工作,令人沮丧的是,大多数行业都是无知的。特斯拉认为他们只需要大量的数据来训练能够完全自主驾驶的模型。当然,它可能会比他们今天拥有足够的数据,地面追踪和模型调整,但它只是在一天结束时的模式匹配和基本的启发式规则。当你拍摄一个情况的那一刻,其中足够的输入与接受训练的内容没有关联,它就取决于绝对狗屎。人们争辩“但它非常不太可能发生”但这不是。人类能够在新的视觉输入上比训练的视觉模型更好地合理化,这是因为人类的大脑不仅仅是模式匹配。我不确定为什么人们称之为Tesla自主驾驶解决方案“人工智能”,因为智慧是FAAAAAR比模式匹配和启发式规则更多。www.yabovip4我们至少有十年,实际上有一个合理的人会称之为人为“智力”。当人们从终结者系列中谈论Skynet时,我必须笑,因为它显示了他们是多么不知情的完全; we are still sooooo far from that.

  2. 卡帕西的论点是基于这样一种观点,即使用激光雷达意味着用激光雷达预先绘制环境地图,但这种观点是完全错误的。现在有激光雷达解决方案,已经有能力检测道路,车道和固定/非固定障碍,并将上述障碍分类。使用激光雷达不需要预先绘制驾驶区域的地图。

    从整体上看,特斯拉似乎也认为基于摄像头的视觉和基于激光的视觉是相互排斥的解决方案,所以他们专注于解释为什么摄像头更好。但它们并不是相互排斥的。这两种技术是互补的,在另一种技术失败的地方各有优势。相机更便宜,更容易买到,分辨率更高,用相机数据训练神经网络也更容易,但它们总是容易受到光照条件变化和恶劣天气的影响,而激光雷达基本上不受这些因素的影响。使用这两种技术是实现传感器冗余的唯一途径,在涉及到对人类生命负责的自动驾驶汽车时,这是绝对必要的。拥有多个摄像头并不符合这个条件,因为它们可能会因为相同的原因而同时失效(比如从隧道出口进入阳光下)。

    我了解Tesla的(和麝香)的立场。他们销售了数万辆,只有相机(和雷达),并承诺客户和投资者这些车将通过软件更新获得L3自动驾驶。他们致力于Lidar-Dlull L3,并承认他们的错误会让很多人生气。但是,你无法帮助,但听到他们的别有用动机不会在每个陈述或文章中伤害他们的股票价值。

  3. 任何在英国潮湿的天气里开过特斯拉(比如我的Model 3 Performance)的人都知道,只有摄像头的自动驾驶几乎是不可能的。在潮湿的高速公路上开车时,“多台相机需要清洗”是一个非常流行的仪表板信息。

  4. 这很好,但那些关注的人会记得,当这种转变发生时,新系统甚至还没有准备好,汽车失去了一些功能。当转变导致他们失去能力时,谈论他们如何不需要它是荒谬的。

    他们不断地告诉我们人工智能系统有多优越,而他们却越来越远离自己的时间轴。记住,我们现在应该有很多特斯拉无人驾驶出租车了。相反,我们拥有的是一个所谓的完全自动驾驶系统,他们急于向监管机构解释这一点。

    第一个3级驾驶员助攻来自本田。特斯拉得到了所有的炒作,但他们落后了。他们的自动驱动系统的当前状态是一种大规模复杂和不可靠的玩具。我被炒作的尝试是多么伟大的,以及如何解决未来的一切,因为我多年来一直从他们那里听到这个,但它永远不会发生。

  5. “开放的道路也是非常复杂的环境,随时可能发生新的和不可预测的事情。”
    这就是事故发生的时候,不管是自主的还是人类的。
    只有有了电脑,你才能让每个人都能实现一次。人类更加顽固和自主。

  6. 所以他们说人类没有激光裙,因此,汽车也不需要。但人类确实形成了周围环境的回忆,然后使用这些记忆来导航。在熟悉的街道上比在不熟悉的街道上更容易。人类可以在陌生的街道上驾驶,但它更加紧张。

留下一个回复

本网站使用AkisMet减少垃圾邮件。了解如何处理您的评论数据