“模型”起猛了,自动驾驶模型学会解说车技了

2023-09-18 19:05:26来源:创业邦

今天,很高兴为大家分享来自创业邦的起猛了,自动驾驶模型学会解说车技了,如果您对起猛了,自动驾驶模型学会解说车技了感兴趣,请往下看。

来源:创业邦

来源丨智能车参考(ID:AI4Auto)

作者丨一凡

“我现在停车了,因为排头那辆车也停了。”

“前面畅通无阻,咱们加速就行了。”

做个驾驶动作还要给你解释一句,是不是让你回想起了科目三前被驾校教练支配的恐惧?

其实开头两句话全部来自AI,是自动驾驶模型LINGO-1在行车时生成的,LINGO-1将自然语言引入自动驾驶模型提高了模型的可解释性。

开发团队来自英国初创公司Wayve,创始人为剑桥大学机器学习博士,今年3月比尔·盖茨曾试乘过过Wayve的自动驾驶汽车。

比尔盖兹与Wayve创始人比尔盖兹与Wayve创始人

那么LINGO-1具体都能做什么?都有哪些好处?

LINGO-1能做什么

LINGO-1主要能实现行车解说和视觉问答两大功能。

首先是行车解说,当LINGO-1在操控车辆时,其会用语言描述自己的驾驶行为并对自己的决策做出解释。

比如上图中,LINGO-1要驾驶车辆超过一辆停靠在路边的车时,先后输出文字:

由于交通缓慢,我正在缓慢靠近

我正在超越一辆停在路边的车

我正在加速,因为前面道路畅通无阻

除了车辆这种庞大障碍物,还能够识别地面标识,比如斑马线。

可以从图中看到依然会做出解释:

因为道路仍然畅通,所以保持匀速

正在减速制动,停在了斑马线前

起步后道路畅通,加速

在路口这种复杂场景也是“停不下嘴”:

我停车了,因为领头车辆停了

我在加速,遇到路口了,刹车

车道恢复畅通,按照路线左转

同时还有问答功能,你可以像在驾校问教练那样向他提出各种驾驶场景的问题,来评估该模型的场景理解能力和推理能力。

如在下图中,可以根据询问LINGO-1在该十字路口模型正在注意什么。LINGO-1说自己看到红灯了所以停车了。

接着又向其询问你停车时最注意的三件事物是什么,模型解释自己最关注的是信号灯、停在前面骑自行车的人和要过马路的行人。

此外还可以询问天气对驾驶的影响:

可以看到LINGO-1可以识别出雨天,并称由于小雨了自己会开的更小心些。

并坦承“我无法预测雨什么时候会停。”

通过演示,相信你已经明白了LINGO-1与其他自动驾驶模型的最大不同——

LINGO-1会解释。

LINGO-1输出的文字并不同于普通的聊天机器人,都是在解释“为什么这个场景我会做这样的驾驶操作”。

虽然也能问答,但全都是根据驾驶场景做出的理解。

Wayve将LINGO-1称作VLAM(视觉-语言-动作模型),最大的创新之处在于将自然语言引入了自动驾驶。

不久前,马斯克在直播FSD V12时接管了一次车辆,因为车辆在过路口时程序没有做出正确识别,路灯显示可以左转,结果车辆却启动直行。

马斯克之后表示解决问题的办法是回去“喂更多左转红绿灯的视频数据”。

而在LINGO-1的训练过程中虽然也有“视频数据”,但同时还有很多老司机的“语音包”。

Wayve在训练LINGO-1模型时请来了很多专业司机,其中有一部分就是驾校教练,Wayve要求他们在驾驶测试车辆做操作的同时大声说话,解释自己为什么这么做。

这才有了开头大家熟悉的一幕。

LINGO-1的出现,使得自动驾驶由过去的“感知->驾驶操作”的逻辑变为“感知->文本推断->驾驶操作”。

这样有什么好处呢?

有什么好处

主要是两个方面:提高模型的可解释性和加快模型完善自身。

首先最大的好处是提高了模型的可解释性。

自动驾驶是基于神经网络的程序,而神经网络长期以来都是一个“黑箱”,即人们知道神经网络可以做哪些事,可以通过调整参数来提高神经网络的效率和准确率。

但是很难解释背后具体的原因,不了解为什么程序会这么做。

而信任往往来自了解,LINGO-1在做出操作时会解释自己的行为,因为这个场景里有什么所以LINGO-1做出了这些操作。这有助于提高人们对自动驾驶的信任。

加快模型完善可以从发现问题和加速训练两个角度来看。

LINGO-1引入自然语言处理有助于定位自动驾驶模型的问题,加快完善模型。

如果自动驾驶的模型出现问题,很难像过去开发程序那样一行行的“Debug”,定位问题具体出现在哪行代码。

只能是发现“识别左转路灯”有问题,那就回去喂对应数据。

LINGO-1犯错了可以根据驾驶场景让它自己解释,假设同样过路口,本来路灯显示左转结果它控制车辆直行,那么可以根据它的解释“为什么我会直行”来更精确判断问题。

最后是自动驾驶落地无法绕开的“边缘场景”问题,“边缘场景”无穷无尽,总会有自动驾驶没有遇到过的场景,只能后续通过“喂数据”完善。

LINGO-1还可以想象训练数据中没有发生过的场景,然后推断怎样正确处理。

当然,它有了自己的推断后还是会形成文字输出,可以判断它做的是否正确。

这让模型能够接触更多的“边缘场景”,而不只是等现实慢慢收集。

开发团队简介

Wayve成立于2017年,投资方有微软等,估值已经达到了独角兽。

创始人为现任CEO亚历克斯·肯德尔和艾玛尔·沙(公司官网领导层页已无其信息) ,两人都是来自剑桥大学的机器学习博士。

Wayve CEO亚历克斯·肯德尔Wayve CEO亚历克斯·肯德尔

技术路线上,和特斯拉一样,Wayve主张利用摄像头的纯视觉方案,很早就抛弃高精地图,坚定的走“即是感知”路线。

此前曾发布过GAIA-1模型,可以输入视频、文本和动作生成逼真的驾驶视频。

可能也正是借助这项技术,LINGO-1能够想象没有遇到过的驾驶场景。

尽管目前来看LINGO-1还有很大局限性,官方承认和人类司机相比验证正确率是60%(如上图),但是已经有技术大牛对此给予肯定,比如英伟达高级AI科学家Jim Fan博士,称其为“一段时间来在自动驾驶领域读到最有趣的工作”。

好了,关于起猛了,自动驾驶模型学会解说车技了就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章