盘点自动驾驶的技术发展趋势

自动驾驶技术在不断发展变快,我们之前提过算法岗如今越来越卷,从今年的就业局势看,前年还属于蓝海行业的自动驾驶,今年就已经满满关上了招揽之门——呈红海之势。作为在这个行业中摸爬滚打的一以子,我们到底该如何纵观大局来解决个人困境呢?

1. AI技术发展规律:总分总的回溯

自动驾驶及AI领域的老玩家都知道,当下这些前沿技术领域的落地,翻来覆去无非是三个关键点——「场景」「数据」「算力」

「 场景」顾名思义就是指技术所要应用到的地方,有资历的工程师想必都深知:哪怕是同样的一套技术架构,在应用到不同场景时,由于侧重点或需求的不同,会导致硬件软件以及相关运营方面都会产生非常不同的效果。

就像西红柿有各种不同的做法,炒、煮、生食……不同的目的都会有不同的口感。

场景是我们在进行技术架构设计上时必备的最底层基础。

在此基础之上,就有了「数据」的概念。

由于目前的算法几乎都是以大算力的方式来进行推演,因此我们不难发现,现行的所有方法几乎都在逐步向「数据驱动」的标准靠拢。一旦某个技术在数据上升时依然能维持一个良好甚至更好的表现,那么就说明这个算法在行业里的发展一片光明,反之则堪忧。

庞大的数据库需要强大的算力支撑,何为「算力」?

如果技术升级有修炼阶梯,那「算力」就是其中的「宗师」元素。算力,具体来说就是「计算能力」(Computing Power),是通过对信息数据进行处理,实现目标结果输出的计算能力。

前不久召开的GTC大会上,英伟达CEO黄仁勋就向全球展示了他们所构建的强盛算力王国。但也有不少资深大佬觉得对「算力」和「芯片」的期待逐渐演变成了“华尔街式的炒作”。

当下的「芯片」顶尖资源基本都被英伟达等极少数顶尖企业垄断,依笔者酌减,其发展依旧是迷雾重重。

纵观技术的整体发展趋势,我们会发现其前进逻辑都是按照专项技术→通用技术→专用技术来走。这一理论从工业革命时代到如今的AI与自动驾驶领域都适用。

在这里插入图片描述
▲图1|「场景」「数据」「算力」三者发展相互制约相互成就©️【深蓝AI】

如图1所示,当一个算法拥有极小的数据或算力时,按理来说它不会有比较好的场景应用,但如果该算法处于专项设计阶段,那由于它针对性的设计思路,在场景上面就能得到一个不错的体现。因此当我们早期「算力」与「数据」的资源严重贫瘠的时候,像图1中A这种专项型设计必然是一个不二选择。

但是随着整个硬件技术的迅速迭代,我们会发现:虽然算法在「数据」和「算力」上有了明显的增强,但是可以看到A曲线后期增长已十分乏力,也就是说它在「场景」表现上近乎止步不前。

这时就应该走向「通用」的设计阶段,也就是B曲线。B模型要处理的是通用场景,所以大多时候它面对的是一个通用的问题,处理的也是通用的数据集。同时因为其模型设计往往也更大,也就是数据流量池更大,它自然会应用到更多的数据和算力的资源。正如B曲线所展示的,在与A同样算力的情况下,这项技术可以获得场景上面的快速增长。

而当B架构也慢慢达到了它所能获得的数据和算力的顶峰之后,又会陷入瓶颈——此时,我们又重新回到小数据+小算力的专用场景的状态。但是不同于早先的A曲线,这时我们的标准变成了C曲线。由于之前 B阶段的基础,这时算法已经蕴含了大数据+大算力带来的优势,但设定专用式的小模型,又可以更好地运用小数据和小算力,以提升场景应用。

我们通过不断地进行A到B到C的这种迭代,就可以看到技术整体呈向上发展的趋势。

以机器人领域的发展为例,在人形机器人概念提出之前,机器人已经有了各种各样不同的形态:工业方面有机械臂,运输方面有四足及轮式机器人……我们针对不同场景的任务进行相应的设计,但相应的,这种设计也只有在特定的领域上才能获得效果,很难处理通用的复杂问题。比如我们可以专门做一个切面条的机器人,也可以做一个这个拧螺丝的机器人,但我们一直没能产出一个做完整家务的机器人。「居家」这一场景包含着成百上千种细节的场景,而针对每一个细节场景进行相应机器人的制作设计,不用思考这都是不可能且不实际的。

而人形机器人的出现就是为了解决这一难题,顾名思义我们对这种机器人的期待更全面更类人,我们期望它能解决通用的所有问题,完成多种复杂任务。最开始它拥有的数据量可能很少,但是当我们将其任务数量扩展到类似「居家」场景的成千上百种,甚至拓展到「户外」场景中,那么针对这庞大的任务量,数据集自然就会丰富起来。而基于目前领域内算力蓬勃发展的趋势,人形机器人必然将会走向通用的曙光。

当然这只是一个概念的畅想,距离其落地还有很长的一段距离。但刚才的假设正是映证了上面的技术发展脉络。GPT与自动驾驶领域的技术发展也遵循此种规律。

2. 自动驾驶技术到底在卷什么?

自动驾驶领域的总体技术发展可以概括为Transformer、端到端和世界模型这三大阶段。

■2.1 Transformer里程碑

在这里插入图片描述
▲图2|Transformer在自动驾驶领域中的发展历程©️【深蓝AI】

首先以Transformer为讨论点,以2017年作为分界线,我们将其发展阶段分别称作前Transformer时期和后Transformer时期。前Transformer时期关心更多的是attention机制,2014~2017年的这段时间里的工作更多是基于这种注意力机制,来让我们所生成的模型在CV识别过程得到更好的效果。到2017年之后,尤其是2020年Doso提出了ViT(Vision Transformer)之后,业界逐渐产生了这样的共识——Transformer这样暴力解决问题的方法,在CV领域是完全可行的。因而,也就逐渐出现了许多诸如BEV+Transformer一类的延展工作。这其中最值得注意的就是ViT和BEV+Transformer了。

ViT堪称是Transformer的一项开创性工作。当然ViT同样也十分简单粗暴,它直接将图像进行分块以后,按序列直接进行排列就可以。接着,将排列好的图像输入进Transformer Encoder架构中继续分类。最后得出一个效果非常不错的输出。

值得注意的是,这一过程体现了NLP与CV领域处理问题的一大不同:是否通用。CV领域处理问题时更偏向「专用型设计」,而NLP的处理方式就更加大包大揽,甚至可以说有点粗暴,但其结果依旧令人满意。另外一点值得注意的是,ViT在处理图像的过程中用的是encoder而不是decoder,原因在于Transformer的输入是定长的,encoder处理定长的信息相对比较合适一些。

而BEV+Transformer处理问题的思想也并不复杂,总的来说就是引入了几个Attention的相关量: 中间层的Spatial Cross-Attention、下层的History BEV和BEV Queries。

我们可以通过Spatial Cross-Attention来获得多个传感器各自对应的不同位置,及其之间的相关性,从而得到一个好的映射效果。此外,History BEV能获得一个“穿越时间”的attention概念,BEV Queries则是针对当前BEV结合历史BEV获得一个Querie。基于此,我们就可以获得某一物体在不同图像上的相关性,以及在时间次序上的相关性,达到跟踪定位的目的。

■2.2 端到端的里程碑

在这里插入图片描述
▲图3|端到端发展历程©️【深蓝AI】

端到端可以说是现在时下最火热的一个话题,其产业和学术两方面的发展都十分可观。无论是特斯拉汽车端到端技术的超强交互,还是获得CVPR2023 最佳paper的UniAD ,都印证了端到端的产学“两开花”,是整个行业中的一个新宠儿。

但端到端的概念并不是最近才提出的,早在1988年神经网络一经提出,许多学者就曾基于图像进行过相应的车辆控制的工作。但由于各种因素,后来自动驾驶领域相对比较落寞,同时神经网络很长时间也没有十分突出的进展,一直到了如今才被业界热议。

■2.3 行业新星:世界模型

在这里插入图片描述
▲图4|世界模型发展历程©️【深蓝AI】

开年爆火的Sora让「世界模型」这一概念走入了我们的视线,不过需要注意,在不同领域,其意义也就不同——自动驾驶领域的世界模型与 NLP领域的世界模型主要关注点有明显的差异,甚至可以说是两种不同的世界模型。

自动驾驶领域更关注的是通过前续状态能够对后续有一个可靠的预测,这个可靠的预测涵盖了一定的物理规则、人性交互及心理博弈;而NLP领域强调的更多是这个世界模型如何理解这个世界。

世界模型通过感知获取环境中的数据,并将其转化为可理解的形式。这些数据可以包括图像、声音、文本等多种形式,通过数据处理和分析,世界模型能够更好地理解环境中的实体和事件;在感知数据的基础上,世界模型通过机器学习和深度学习等技术对数据进行建模和学习。模型通过大量数据训练以掌握环境中的规律和模式,并逐渐形成对世界的认知和理解;基于学习到的模型,世界模型可以生成对未来环境的预测和仿真。通过模拟不同场景和行为的结果,它能够帮助决策者做出准确的判断和预测。

和「端到端」一样,其实「世界模型」的概念也不是空穴来风,早在2018年,LSTM被提出的同时,该工作的研究者也带出了word model(世界模型)的雏形构思。

英国自动驾驶著名企业Wayve所研究的世界模型包含了Transformer的多项延伸,预测一系列token,继而获得一系列video model,其中也涉及到扩散模型的一些相关原理。

3. 自动驾驶玩转市场了吗?

当下自动驾驶的工程化落地主要分为两方面:通用场景与特定场景下的应用。

通用场景的应用方面,如今做得最成熟的企业当属“地大华魔”(也就是地平线、大疆、华为和Momenta)。这几家公司几乎都采用了一个当下比较火热的概念来进行研发——“软硬合一”,也就是软硬件耦合,更具体来讲就是工程软件与芯片层面的耦合。目前看来,这已是自动驾驶算法领域的大势所趋。

或许未来随着产业的进一步发展,也会更细致地分化出独立的软件公司与硬件公司,但至少目前「软硬合一」已久是智驾企业的统一理念。因为目前全球市面上可用的智驾芯片并不多,前面也提到几乎被英伟达垄断,那么如果想开辟自己的硬件道路,资源技术等资源短时间内很难得到创新,那自然就没有企业竞争力。这就是行业目前的生态。

如今,特定场景方面的落地速度比预期的快了许多:主要为矿山、无人配送、港口、园区这四大应用场景。

2023年应该是智驾在矿山赛道投入最多的一年,无论是在政策方面的驱动还是其本身属于能源行业的天然优势,都成就了矿山在智驾的「龙头」地位。此外,矿山场景的场景控制力比其他几个场景都要强,其中大部分的作业状况都可以被精细化地小区快管理到。

第二阶梯就是无人配送了,这一赛道最大的特点就是极致的性价比要求。无人配送的一大目的就是要替代目前电三轮完成更高效率的运输配送作业,但这些工具的成本极低,那无人配送就必须也要把成本压到极致,才能让技术发挥最大的价值。而如BEV一类的技术恰好可以达到降本增效的目的。无人配送目前的另外两个况是敏感度低、上下游适配需求高。这个不难理解,因为「配送」是一项需要快速且强调各环节高度配合的工作,需要流程熟悉所以敏感度不必太高,保证每一环节不出问题最终送达目的地。

技术发展影响着产业的落地,而产业的实际应用也与行业的经济走向紧密相关。

自动驾驶企业从2015年如雨后春笋般逐渐出现以来,到目前为止,在技术创新方面其实整个领域已经逐渐进入一个瓶颈期,取而代之的是对成本的控制,关注的重点变成了怎么完成一个更高质量的交付。

如今的自动驾驶技术都面临着一个难点:效率陷阱。在任何事情的运行效率达到60%-80%的时候,会陷入一个两难的状态:我们还确保是否能100%做到替换旧的体系或者概念,但另一方面,目前效率还不错,我们又觉得按照这个思路进行下去是没问题的,如果不投入量产,担心会错过时机。

想拥有更好的效益,势必会放弃一部分东西,不论是技术上的通用或专用性,还是人员上的配比。此外,政策的驱动对于市场的影响也是重中之重,当然这是时代发展的必然因素,也包含一些“玄学”,如果某个大力推动行业发展的政策突然上线,那就是“忽如一夜春风来”,必然会乘风而上。

纵观这一路的科技变革,或许在近几年现实环境的紧逼下,我们还是很难从中找出自己的突破口,但是前段时间的车展的爆火,及特斯拉与中国的潜在合作,无不向我们昭示着:自动驾驶是还在活跃着的红海领域。顺应局势走,一定能顺利起飞。

笔者|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3032012.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

agiletc部署

数据库创建及运行 启动命令 cd /AgileTC/case-server&& nohup mvn spring-boot:run &查看是否启动成功 http://192.168.101.:8094/case/caseList/1需要安装java javac等 一、安装java 1 安装java11 sudo yum install java-11-openjdk-devel -y2 切换到java11 …

c++ 获取机器码

看到网上代码代码都没什么好的&#xff0c;自己备用一个 #include <iostream> #include <string> #include <sstream> #include <iomanip> #include <Windows.h> #include <iphlpapi.h> // 包含这个头文件以获取 PIP_ADAPTER_INFO #inclu…

【NodeMCU实时天气时钟温湿度项目 4】通过NTPClient库获取实时网络时间并显示在TFT屏幕上

今天是【实时天气时钟温湿度项目】第四专题&#xff0c;主要内容是&#xff1a;学习导入NTPClient库&#xff0c;通过这个库获取实时网络时间&#xff0c;显示在1.3寸TFT液晶屏幕上。此前三个专题&#xff0c;请选择查看以下链接。 第一专题内容&#xff0c;请参考 【N…

阿里云和AWS负载均衡服务对比分析

在云计算时代,负载均衡作为一种关键的网络基础设施,承担着在多个服务器之间分发网络流量的重要任务。作为全球两大主要的云服务提供商,阿里云和Amazon Web Services(AWS)都提供了强大的负载均衡解决方案。本文将从性能、功能、可用性和成本等方面对两者进行对比分析。我们九河云…

this指针详解

目录 this指针this指针的引出this指针的特性this指针相关例题例题1例题2 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 &#x1f412;&#x1f412;&#x1f412; 个人主页 &#x1f978;&#x1f978;&#x1f978; C语言 &#x1f43f;️&#x1f43f;️…

【UE Niagara】在UI上生成粒子

效果 步骤 1. 在虚幻商城中将“Niagara UI Render”插件安装到引擎 2. 打开虚幻编辑器&#xff0c;勾选插件“Niagara UI Renderer”&#xff0c;然后重启编辑器 3. 先创建一个控件蓝图&#xff0c;该控件蓝图只包含一个按钮 这里设置尺寸框尺寸为200*50 4. 显示该控件 5. 新…

3月笔记本电脑行业线上市场销售数据分析

笔记本电脑市场在过去几年中经历了起伏&#xff0c;但总体上呈现出稳定增长的态势。特别是随着远程办公、在线学习等需求的增加&#xff0c;以及消费者对于便携性、高性能等方面的追求&#xff0c;笔记本电脑市场得到了进一步的发展。 据鲸参谋数据统计&#xff0c;线上平台&a…

杰理AC632N 通过写flash修改蓝牙名字

杰理修改蓝牙名字一般有他自己的一个工具的,如下图,在编译前修改 现在用写flash的方式更改: 主要看杰理CFG_BT_NAME这个宏里面的.c文件 杰理给这里的flash都定义好每个宏的信息,你需要读写就行,修改后记得重启上电才能生效.如果你要自定义数据写进去flash断电不丢失,估计就是在…

企业微信集成H5授权登录相关知识(二)

流程&#xff1a; 1.前端请求企业微信获取code&#xff1a;官网网页授权链接 2.企业微信返回的code请求后端判断是否已绑定系统账户 3.后端根据企业微信code&#xff0c;accessToken获得userId 4.userId获取user进行oauth2授权方式进行免密登录 相关知识&#xff1a; 一&a…

QT——tableWidget-跳变之舞V1.0-记录学习【1】

QT——tableWidget-跳变之舞V1.0-记录学习【1】 文章目录 QT——tableWidget-跳变之舞V1.0-记录学习【1】前言一、利用QT创建项目文件1.1 完整项目文件如下图所示:1.2 演示&#xff1a; 二、声明文件&#xff1a;2.1 主界面声明文件:mainwindow.h&#xff1b;2.2 控制窗口声明文…

【详细教程】基于pyEchart的封装(附代码)

目 录 一、项目结构 二、文件封装 2.1echart.py 2.2pyechartMock.py 三、结果 3.1柱状图 3.2折线图 3.3饼状图 最近在学习pyechart&#xff0c;老师要我们画几个简单的图&#xff0c;比如折线图&#xff0c;柱状图&#xff0c;饼状图&#xff0c;我这里在参考pyechart…

答辩PPT设计无从下手?哪些AI工具可以提供帮助

本科毕业论文答辩PPT该怎么做&#xff1f; 在我原本的认知里面&#xff0c;答辩PPT是要包含论文各个章节的&#xff0c;在答辩时需要方方面面都讲到的&#xff0c;什么摘要、文献综述、实证分析、研究结果样样不落。但是&#xff0c;这大错特错&#xff01; 答辩PPT环节时长…

luceda ipkiss教程 70:合并GDS版图

通过代码拼版&#xff1a; 所有代码如下&#xff1a; from si_fab import all as pdk from ipkiss3 import all as i3class Design1(i3.GDSCell):def _default_filename(self):return "Ring_Test.gds"def _default_name(self):return "Design1"class Des…

大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW

近日&#xff0c;由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。 论文成果是阿里云与华东师范大学、浙江大学、南京大学等高校共同研发&#xff0c;涉及时间序列与智能运维结合的多个应用场景。包括基于P…

recycleview和banner新闻列表轮播图

说明&#xff1a;最近碰到一个需求&#xff0c;弄一个新闻列表和轮播图&#xff0c;在首页显示&#xff0c;并且需要json解析&#xff0c;图片下载&#xff0c;轮播图和新闻列表一起滑动 ui效果图&#xff1a; 文件说明&#xff1a; step1:引用依赖包 图片下载 json解析 轮播…

Java入门基础学习笔记4——开发Helloworld入门程序

Java程序开发的三个步骤&#xff1a; 1&#xff09;编写代码 2&#xff09;编译代码 3&#xff09;运行代码 注意事项&#xff1a; 第一个java程序建议使用记事本来编写。 建议代码文件名全英文、首字母大写、满足驼峰模式&#xff0c;源代码文件的后缀必须是.java 注意&a…

企业破产重整:从“至暗时刻”到“涅槃重生”

今天我们不谈星辰大海&#xff0c;而是要潜入商业世界的深海区&#xff0c;探索那些濒临绝境的企业是如何借助“破产重整”的神秘力量&#xff0c;实现惊天大逆转的&#xff01; 一、破产重整&#xff0c;到底是个啥&#xff1f; 想象一下&#xff0c;企业像是一位远航的船长…

数据增强,迁移学习,Resnet分类实战

目录 1. 数据增强&#xff08;Data Augmentation&#xff09; 2. 迁移学习 3. 模型保存 4. 102种类花分类实战 1. 数据集 2.导入包 3. 数据读取与预处理操作 4. Datasets制作输入数据 5.将标签的名字读出 6.展示原始数据 7.加载models中提供的模型 8.初始化…

从静态PPT到智能演讲——人工智能在演示文稿中的应用

1.概述 在这个信息过载的时代&#xff0c;能够吸引并持续吸引观众的注意力无疑成为了一项艰巨的任务。公众演讲领域正经历着一场由人工智能&#xff08;AI&#xff09;引领的革命。AI不仅在制作引人入胜的内容方面发挥作用&#xff0c;而且在分析演讲的传递方式上也起着关键作…

【C++】 类的6个默认成员函数

目录 1. 类的6个默认成员函数 一.构造函数 1.基本概念 2 特性 注意&#xff1a;C11 中针对内置类型成员不初始化的缺陷&#xff0c;又打了补丁&#xff0c; 3.构造函数详解 3.1构造函数体赋值 3.2 初始化列表 3.3 explicit关键字 二.析构函数 1 概念 2 特性 两个栈实…