今天,很高兴为大家分享来自机器之心Pro的对话理想智驾VP郎咸朋: 轻地图、GPT将如何改变自动驾驶?,如果您对对话理想智驾VP郎咸朋: 轻地图、GPT将如何改变自动驾驶?感兴趣,请往下看。
作者 / 曹锦
在车企争先恐后推送城市NOA的节点,大家对这一功能的实际效果却是褒贬不一。在这一背景下,理想汽车在上海车展宣布,AD Max 3.0的城市NOA导航辅助驾驶,将于第二季度开启推送,并于年底前完成100个城市的落地,且对用户终身免费。
在这套城市NOA算法中,使用了三种神经网络大模型算法:静态BEV网络算法,动态BEV网络算法以及Occupancy网络算法。
在通过此套方案宣布其进入「智驾3.0时代」后,理想汽车智能驾驶副总裁郎咸朋,以及理想智能驾驶产品负责人赵哲伦接受了我们的访谈,他们不仅进一步解释了理想城市NOA的特点,还对现下流行的技术方案、后续的升级问题,以及未来的路线给出了自己的见解。
关于对城市NOA的「信任感」
据介绍,AD Max 3.0的城市NOA所采用的静态BEV,可以在部分摄像头被遮挡,车道线模糊时依旧补充出道路结构,解决高精地图数据实时性的问题。
动态BEV神经网络也具备了一定的「脑补」能力,例如当车辆同时出现在多颗摄像头视野内时,动态BEV可以稳定追踪并感知出物体的距离与速度。
Occupancy网络算法则可以对物理世界进行数据化建模,通过纯视觉还原真实场景,例如路侧垃圾桶、临时的施工牌等「通用障碍物」。同时,理想汽车还使用NeRF技术,进一步提升了Occupancy在远距离的分辨率,加强系统的感知能力。
针对这套方案的特点和思考,郎咸朋和赵哲伦与我们进行了深入的讨论。
Q:您可否对「静态BEV、动态BEV」这两个名词加以解释?
赵哲伦:所谓静态BEV,就是将静态世界用BEV算法还原出来,也就是车道线和道路的结构,可以理解为这些即是用高精地图做的部分,也是变化较少的部分(除了施工改道等变化)。
而动态就是指不断变化的交通参与者,例如人,骑车人,车,偶尔还会有一些动物之类的元素。
另外,除了静态和动态,我们还提出了「通用障碍物」,即那些不需要区分类型,但依然需要避让的元素,我们用Occupancy算法去完成这部分的识别。
实际上,向城市NOA发展动态参与者会非常复杂,虽然静态来讲相对稳定,但是识别也需要非常准确。理想将这三种算法整合在一起,对其进行预测。
Q:如何选择推送城市NOA的城市,需要有什么先决条件?
郎咸朋:我们的基础架构不受限于高精地图,城市NOA的开放逻辑是基于训练里程的,这就取决于这座城市里的车主保有量及开车频率。哪里的训练量足够多,实际路口的通行次数够多,哪里就可以开放。
(理想汽车智能驾驶副总裁 郎咸朋)
Q:这套系统可以适应哪些场景?
赵哲伦:关于城市NOA适应的场景,这是行业共同的问题,也就是长尾问题:要覆盖大部分的生活场景并不是很难的事,但剩下的小部分场景却非常难解决。
整个物理世界被分割成三个部分:第一部分是静态的道路结构,第二部分是动态的交通参与者;第三部分是障碍物——中国存在非常多的改道和施工,第二与第三部分在这里尤为复杂,与北美相比是数量级的差别。
这些因素导致最后的10%乃至1%,会需要比较长的迭代周期。
如果以「接管率」作为要求,我们认为初期做到「单次行程接管一次以内」就算是较好的用户体验。再往后是一天接管一次,一周接管一次……如果能做到一周接管一次,那就非常有用户价值了。
Q:如果可以量化疲劳度,什么时候城市NOA的体验能达到比较安心的状态?
赵哲伦:在高速路的固定场景中,我们很容易掌握别的车和自己车的边界在哪里,但城市的场景中有很多需要预测的部分,如果人对车的决策无法预知,就容易心慌。
所以,理想在城市NOA的环节,为了让用户提高信任度,会进一步优化整个交互上的显示,让驾驶员能更理解AI的思维方式。
例如,在车机的EID上,你可以看到车辆有没有预测到会和别车交汇,也就明白车辆将会制动,你也就会更有安全感。其实现在特斯拉在北美最新的交互上已经有这样的展示了,它会预告车的加减速或者制动,这样会在很大程度上提升信任感。
另外还有接管率的问题,虽然城市场景比高速难很多,但是我们基本上能做到20-30公里接管一次。
Q:年底规划开发100个城市,这是个恐怖的速度。反过来在安全层面,我们在人机互驾上有没有考虑过优化升级?
赵哲伦:人机互驾对用户的要求也是比较高的。大家如果关注现在的高速辅助驾驶,目前至少在理想的用户中,使用率还是比较高的,日活能达到30%,是一个比较高的数字。
但用户需要清晰地掌握它的边界,才能很好的使用。如果放眼整个汽车行业,依然有大部分用户没怎么真正使用过这样的系统。
所以,在城市NOA的推送过程中,也会参考从核心高频率使用、至少是对辅助驾驶有深刻了解的用户来首先推送。
Q:理想的城市NOA方案没有收费,可是友商都在收费,这样做的逻辑是什么?
赵哲伦:如果订阅,每年基本需要付数千元,到卖车的时候也付了数万元了,但这笔费用其实完全没有任何的保值作用。
我们考虑的是,如何让在用户卖二手车的时候,车整体上仍是他的「资产」,而不是他的「消费」,所以我们会选择前期以一个低成本的硬件BOM价格去预埋在车上,硬件的成本是在车里面的。
但是在卖车的时候,这个价值依然能得到体现,而且其软件功能其实更强大了,价值体现得更加充分。
关于高精地图的痛点与思路
Q:我想知道理想对于高精地图的态度是怎样的?
郎咸朋:如果你说有一张高精地图,它覆盖了中国所有的道路,每分钟就能更新一次,而且还很便宜,1块钱就能用一天,我肯定会非常赞同使用高精地图。
但是,我刚才提到高精地图有三个特点:
1、高精度
2、高鲜度
3、数据的信息量、丰富度高
这3个特点又恰恰是高精地图的制约点:如果想获得高鲜度,势必要频繁更新;如果想获得元素丰富的信息,制作工艺又势必会非常复杂。
还有一个原因是我们国家实在是太大了,所有的道路一共有1000万公里左右。(其中高速公路只有30万公里的高速,所以说在高速场景利用高精地图还是能实现的。)
如果想把这1000万公里的道路全都做一遍高精地图,需要花费上亿元的成本。因为每做1公里高精地图,大概是100元的成本。
所以,为什么大家都不用高精地图了,并不是说其本身不好,而是我不具备使用它的条件。
同时,还有另一个问题,之前做高精地图,是因为还没有静态BEV、动态BEV等算法。这两年,因为大家认为高精地图存在使用痛点,而且随着算法能力变强、车身传感器增多,逐渐就有了静态特征信息的检测算法。利用静态BEV算法,相当于在开着车的同时,局部图就构建好了。
现在我们做的并不是高精地图,而是智能驾驶所需的元素、特征、信息的一张图,它不需要反馈道路边界在哪,具体入口位置在哪,因为我们具备自己的实时感知能力,只需要自己去判断车道线在哪就好了。
例如,当车辆左转弯,转过去之后是否有道路连接,左转道路与后续直行道路是否有拓扑关系,这个关系比「确定道路边界在哪」更重要。
这种智能驾驶需要了解的信息,我觉得只做地图的人可能会了解得少一点。
Q:可否理解为,BEV解决的其实是单车单点的问题,但是地图有定位,二者相辅相成?
郎咸朋:之前大家想用规则式的、写得特别清楚的方式去做智能驾驶,所以才有了高精地图。
但现在有越来越多的人理解到:要想最终实现自动驾驶,要从人工智能角度来解。我们想教会系统像人一样思考和开车:你开车的时候也并不是要把整个中国地图全装到脑子里,才会开这辆车,而是边开边判断。
其实在做高精地图的时候,还有一个细节:图商希望能绘制出智能驾驶的规划路径,就是智能驾驶知道该怎么开,只要沿着地图上画的线开就好了。
但是哪有那么容易的事,路上有各种各样的复杂交通参与者,尤其在城市场景里面,这种思路是错误的。
Q:目前大家说不依赖高精地图的城市NOA,是真的一下把高精地图丢开,还是逐步将其降权?
郎咸朋:我们也看到了不依赖地图或者重感知、轻地图的说法,其中有几种方案:大家在高精地图和非高精地图之间,或者导航地图和非高精地图之间制作地图,叫HD Map-或者叫SD Map+。
HD Map-,其实还是用了高精地图,只不过是少用了几个元素而已;而SD Map+就是在导航地图的基础上,增加了一点匹配智能驾驶的元素。
大家都说轻地图,要看轻的是什么,是从高精地图上做简化,还是从SD Map上做加法?这是感知区别,我比较倾向于后者。
Q:刚才提到的道路拓扑关系,现在在理想的城市NOA的技术栈里面是由谁来负责?
郎咸朋:这种拓扑关系在国内还是由图商负责。我们与高德也会展开一些讨论和合作,高德会发布OEM图层的逻辑,方便在合作时将智能驾驶特征相关的信息在OEM里面进行体现。
Q:目前在城市NOA,理想的技术栈里面,道路的连接关系是怎么获得的?
郎咸朋:实际上关于拓扑关系,我们有自己的生产方式。
举一个红绿灯路口的例子:在实车体验时可以发现,位于路口时会有一个小的神经网络去做端到端的训练——给我一张图,我就告诉你这里该转向还是直行,而不是说根据红绿灯与道路的关联,再根据道路拓扑做判断,这还是有本质区别的。
关于大模型的潜能与趋势
Q:关于大模型算法,据说新势力第一梯队的表现不是理想,您怎样看待这个问题?
郎咸朋:这是低估我们了。如果不是以大模型算法训练为前提,我们不可能有那么多训练里程。从一开始,理想就将智能驾驶当成长期AI的问题对待。
在车展现场公布训练里程时,最早的是2019年的数据。也就是说,从那时起我们就已开始了算法训练。
在做第一代产品时,大家用的都是供应商的方案,那时理想就已经开始做训练里程和算法的积累。在2021年,理想有了AD1.0,那是我们第一次全栈自研,已经积累了1亿多里程的训练里程。
到了AD2.0,也就是去年,我们是全球第一个交付Orin X芯片的高速NOA,这样的速度都是源于训练里程的积累。
理想一直坚持认为,对于所谓的「自动驾驶」,要看成人工智能问题,那么关键点就是三要素:算法、算力、数据。我们认为最终竞争的决胜点是数据,是拥有多少训练里程。
建立这个思路之后,大家就不难理解:为什么要标配AD?因为只有标配才能有最大规模的量,而且训练里程中的样本种类也丰富。之所以BEV网络的训练迭代速度会非常快,其实也是源于数据。现在我们有4亿公里的训练里程,而且都是挖掘出来的真正有用的数据。
还有一点,就是总量大不大,也就是产品销量也必须要高,这两点相乘才是最终获取到的训练里程规模。
Q:对于端到端的基础战略,理想是怎么看的?你们对AI和神经网络的应用会到什么程度?
郎咸朋:端到端有可能是根据一张图就能出结果,但也有可能是局部的端到端。随着算力的增大,确实大家的想象空间会变大。
原来因为算力不足,必须把感知、决策、规划和控制分开做,而现在算力高了,于是可以尝试将一些东西合在一起做端到端。我们会保持探索这一方向,但对于现在的产品而言,我们还是要用自己的大模型确保感知、BEV等。
在规控上,理想主要有两方面的考虑:一是控制结果要确保安全,这可以以规则去做,最终规控是Rule-Based和Neural-Based的结合,而不是完全Rule-Based的东西,因为我们一定要把智能驾驶以体验作为驱动。
第二点考虑,是控制结果要与人类驾驶体验吻合。基于此,我们的想法是用小的神经网络去做。
Q:有人说GPT范式看起来是人工智能的边界,它会否改写智能驾驶的基础范式?例如拉一个很大的模型,基于这个模型做出很有常识的东西,然后把它拿来适应驾驶任务。
郎咸朋:目前看来,这是一个合理的趋势。GPT最大的好处是可以用大量的弱标注或者粗标注的样本,来获取一定的基础能力;然后再用精标的小数据去做调整,在某些任务上得到更好的结果,我们现在也在这么做。
举一个例子,比如数学考试,肯定是先掌握各种各样的数学知识,来补充基础素质。之后在临考前,做一下历年真题,掌握解题技巧;最终在考试时,分数就可能会比较好。但之前因为没有大模型这种思路,大家就是拼命刷题、精标数据。这样万一题型有改变,那考试成绩就会变得很差。这是GPT范式和非GPT范式的区别,我认为前者是有一定合理性的。
Q:您是如何看待特斯拉的Dojo,还有友商小鹏的「扶摇」这种大型的用于数据训练的机型?
郎咸朋:其实Dojo和扶摇都是很好的训练集群,但我理解它们只是算力底座或算力基建,上面搭载的是整套虚拟闭环和数据闭环。
特斯拉这套系统最强大的是车端数据的采集和训练,是一个非常高效迭代的闭环,小鹏的扶摇可能只是一个训练集群,但搭载的数据闭环是否效率很高,他们没有讲过,我们也不得而知。
Q:理想现在认为自己的硬件,到2025年这段时间,对于应用需要的感知和计算能力是否能够满足?
赵哲伦:理想最早使用的是单模摄像头+单毫米波雷达,再到后来的环视摄像头。目前从L系列来说,无论是Pro还是Max都具备周视相机和大算力的芯片,这点已经带给开发很大的自由度。
至于是否能够支持到2025年,目前看来肯定是可以的。
Q:刚才提到了,原来咱们跑CNN,需要的是带宽密集型芯片;现在跑Transformer,需要的是算力密集型芯片,我想向您确认一下,这种说法是否准确?
郎咸朋:带宽密集型还是算力密集型,与硬件本身的设计是强相关的。英伟达在设计芯片的时候,其实还没有Transformer,但现在它也做了很多相关的优化补丁。
我们与英伟达之间的互动其实非常多,我们提了很多意见和建议,现在反馈得到的优化也很显著。在它下一代的芯片里面,也会更好地解决硬件加速和优化的问题。
关于机器智行
机器智行为机器之心推出的智慧出行垂直媒体,关注自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用,透过技术以洞察产品、公司和行业,帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。
好了,关于对话理想智驾VP郎咸朋: 轻地图、GPT将如何改变自动驾驶?就讲到这。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。