端到端将重塑智驾?获10亿美金融资,解密英国AI独角兽Wayve

‍作者 |张马也

编辑 |德新

ebfb9dffde350dd0592fafddd3ea76df.jpeg

就在前两天,英国AI公司Wayve宣布获得新一轮10.5亿美元融资,投资方为软银、英伟达和现有投资人微软,可以说是顶级豪华阵容。

作为一家英国公司,Wayve这轮融资也创造了英国AI公司有史以来最大的单笔融资。甚至英国首相也在一份声明中表示,它「巩固了英国作为人工智能超级大国的地位」。

在通用人工智能领域,Open.ai在过去两年成为全球顶级的热门标的;而智能驾驶领域,曾经获得过10亿美金级融资的公司不多,只有Waymo、Argo、Cruise等少数几家。

Wayve的巨额融资也勾起人们对于未来的强烈好奇:它有没有可能成为智能驾驶领域的Open.ai,又或者说,成为端到端这代技术上的Waymo/Cruise?

到目前为止,Wayve已完成三轮融资,累计融资金额超过13亿美元。除了资本大鳄和商业巨头,有「深度学习三巨头」美誉、现Meta首席人工智能科学家Yann LeCun,也是Wayve的投资人。

Wayve上一次引发关注是在不久前3月份,原Mobileye中国区的负责人 Erez Dagan加入Wayve担任总裁,主要负责产品、业务和战略。

本轮融资后,Wayve将加速推出首款用于量产车辆的自动驾驶软件,包括L2+智驾软件以及实现完全自动驾驶的软件系统。Erez加入后,其重点关注的方向也是面向OEM的交付。据说,Wayve正在与全球前几大车厂商洽谈合作。

一、自动驾驶2.0:押注端到端

Wayve由Alex Kendall(联创兼现任CEO)和Amar Shah(已离开)于2017年共同创立,两为均来自剑桥大学。

其公司总部英国伦敦,目前约有300名左右的员工。

be7f0df21813e191958de452c4324657.jpeg

Wayve称自己是第一个在公共道路上,开发和测试端到端深度学习自动驾驶系统的公司。

2015年,Alex Kendall与Vijay Badrinarayanan(现任AI副总裁)、Roberto Cipolla等人,一起提出了SegNet,这是第一个使用端到端深度学习进行语义分割的实时方法,无需高精地图即可理解复杂环境

从2017年开始,Wayve就在汽车上对神经网络强化学习的一些早期成果进行了应用。公司把这套系统在道路上进行了模拟部署,随后逐渐扩大规模,最终实现在伦敦市中心的交通环境下进行真实驾驶。

Wayve将自己的智驾系统称为AV2.0

e333a3a6321c380aa8810f9e52356083.jpeg

Wayve认为,基于传统机器学习方法的AV1.0架构,所面临的根本问题是技术可扩展性。

因为它依赖复杂的传感器、高精度地图和手工编码的规则,使得系统成本居高不下,在行为预测、规划和处理长尾场景问题上,效果很难提升。

AV2.0不依赖传统的高清地图和手工编码的规则,而是专注于构建数据驱动的学习型驾驶系统,而且可以扩展、适应、推广到系统从未见过的场景。

AV2.0的特点如下:

  • 采用端到端深度学习网络架构;
  • 无需高精地图;
  • 以安全为核心设计,符合行业安全期望;
  • 传感器灵活性,兼容纯视觉到包括雷达和激光雷达的多种架构;
  • 通过数据驱动进行泛化扩展;
  • 在全球范围内,经济适用;

其中最重要的,就是端到端架构

它抛弃传统的「感知 - 规划 - 执行」的架构,将车辆传感器原始的输入数据,直接转换为驾驶操作输出。

在行业内,端到端的方法已经得到了初步的验证。特斯拉此前发布的FSD v12,就采用了端到端架构。国内外很多用户试用过后,普遍的评价是,基本达到了人类驾驶的水准。

这种方法的核心是自我监督学习。就像大语言模型LLM预测下一个单词一样,驾驶系统可以从原始的、未标记的数据中进行无监督学习。

自动驾驶和大型语言模型之间有许多相似之处,从根本上讲,它们都是大型的、高数据量的、复杂的决策问题。输入模型的数据越多,AI模型的特定应用就越丰富,越具有表现力,无需人工输入即可对大量驾驶记录进行训练。

二、核心技术栈:解决可解释性,建立人机信任

Wayve为自动驾驶的迭代升级开发了一个快速、连续和无缝的学习循环系统Fleet Learning Loop,不断记录数据、训练模型、评估性能和部署更新的模型,以此循环。

在量产车队中,它能从OEM的各种车辆中收集真实世界的驾驶数据,然后上传到云端处理,再将迭代后的模型部署到车端,升级车辆的自动驾驶功能。

Wayve还一直在开发智能驾驶基础模型(foundation model for driving)。该模型利用多模态数据,包括文本和非驾驶视频源,来优化对驾驶环境的内部表征。

Wayve认为,这能增强AI模型的驾驶能力,允许从不同来源交叉学习与驾驶相关的概念,并提高与驾驶任务目标的一致性。

简单来说,就是通过从多个数据源学习,可以提高车辆对传感器流中最有意义和可操作性的方面的理解,从而提高智能驾驶的流畅度和安全性。

除此之外,Wayve还开发了LINGO和GAIA两个模型,用来解决智驾场景的可解释性和信任等问题

行业内对端到端架构的其中一大担忧是它是一个黑盒方案,其过程不可解释。LINGO能用自然语言描述自己的驾驶决策,并解释决策的原因。

例如在行驶过程中,LINGO做出了绕行路边停靠车辆的判断时,它可以向用户输出判断依据:由于交通堵塞,我正在缓慢靠近;我正在经过一辆停在路边的车;因为前方道路畅通,所以我加速前进。

Wayve在去年下半年推出过LINGO-1,当时该模型以视觉和语言信息为输入,但只能输出语言结果。LINGO-2的输入和输出都可以是视觉和语言信息,甚至也包括驾驶行为,也就是能控制车辆的行驶。

按官方说法,LINGO-2是一种将视觉、语言和行动综合起来,以解释和确定驾驶行为的驾驶模型,是第一个在公开道路上测试的,闭环「视觉-语言-行动」驾驶模型(VLAM)。

838eb941d5248ce792a4b9f27d9dbe4d.jpegLINGO-2 架构

LINGO-2 的亮点在于:通过语言提示,调整驾驶行为

可以使用一些限定的导航命令,如「靠边停车」、「右转」等,让LINGO-2调整车辆的行为。这也能帮助模型训练,并且增强人车交互。

aee314fe765465d53dfb2834a45835fd.jpegLINGO-2在指令的要求下停车

 

b8183e80130845ddaadd2ecd69783d91.jpegLINGO-2回答场景问题,并解释驾驶操作

通过直接将语言和动作联系起来,LINGO可以一定程度上揭示出AI系统如何做出决策,使得自动驾驶模型不再是一个「黑盒子」。

更重要的是,LINGO可以增强人类对智能驾驶系统的信任

目前,LINGO-2还只在Ghost Gym模拟器中进行了验证,在现实世界中用语言控制汽车的行为是否可以可靠、安全地完成,还需要更多研究。

三、将世界模型融入驾驶模型

对于长尾场景,Wayve给出的一个解决方法是GAIA-1,一个为智能驾驶打造的生成式世界模型

1872a7186480c3c3e8eeb5a4306a16a1.jpegGAIA-1架构

GAIA-1首先是一个多模态生成模型,利用视频、文本和动作输入,生成逼真的驾驶场景视频。它能够对车辆的行为和其他基本场景特征,进行细粒度控制。无论是改变车辆的行为,还是修改整体场景,模型都能完成。

这样,GAIA-1可以作为仿真模拟中的重要一环,生成无限的数据,来训练和验证自动驾驶系统,解决极端场景,特别是在获取真实世界数据成本高或风险大的情况下。

7afdb40651f3b60eac4b0e04cf96ebe8.jpegGAIA-1可根据各种提示,生成驾驶场景

它还是一个真实的世界模型,可以学习、理解驾驶中的重要概念,比如什么是卡车、公共汽车、行人、骑自行车的人、道路布局、建筑物和交通信号灯。

所谓世界模型,是对环境及其未来动态的表征,能实现对周围环境的结构化理解,就像人类对自己周围的环境进行建模理解一样。

将世界模型整合到驾驶模型中,使得自动驾驶车辆能够预测未来事件,从而提前规划行动,在复杂或未知的情况下做出更加明智的决策。

目前版本的GAIA-1拥有超过90亿个可训练参数,训练数据集包含了2019年至2023年在伦敦收集的4700小时的专有驾驶数据。模型可以预测视频序列中的后续帧,从而在不需要任何标签的情况下,实现自回归预测能力。

四、迈向商业化量产

目前,Wayve在商业化上的作为不多。

此前,它一直在英国生鲜配送公司Ocado的车上训练模型,这家公司也是投资方之一,曾投资了1360万美元。

a83bc29e288e2f0bf5306352799b30db.jpeg

据称,Wayve已经在全球100多个城市开始了系统测试。

本轮融资后,Wayve将加速推出首款用于量产车辆的自动驾驶软件,包括L2+智驾系统,以及实现完全自动驾驶的软件系统。

它也在与全球前几大车厂商洽谈合作,但具体名单未知。

原Mobileye中国区的负责人Erez Dagan加入Wayve担任总裁,其重要的关注方向也是面向OEM的交付。Erez在Mobileye工作了20年,是全世界第一款纯视觉ADAS产品的创始团队成员,后来担任产品和战略执行副总裁,并在Mobileye被收购后担任英特尔集团副总裁。

联系到此前马斯克表示,特斯拉将于今年8月8日发布Robotaxi,种种迹象似乎表明完全自动驾驶的技术路线正在逐渐清晰。

Wayve的目标甚至不止于此。在最近Techcrunch的一次采访中,Alex Kendall说到,Wayve的驾驶大模型不仅在驾驶数据上进行训练,还对互联网规模的文本和其他来源进行训练,甚至使用英国政府的PDF文档来训练模型

Wayve正在构建具身AI(Embodied AI)基础模型,一个基于非常多样化的数据进行训练的通用系统,能够在复杂的现实世界环境中感知、行动、学习和适应人类行为。智能驾驶只是这一系统目前最大的应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3032357.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

北斗卫星在农田测量中的广泛应用

北斗卫星在农田测量中的广泛应用 随着科技的不断发展和进步,北斗卫星在农田测量中的应用也越来越广泛。北斗卫星系统是我国自行研制的卫星导航定位系统,具有全球覆盖、高精度和高可靠性的特点,是农田测量领域不可或缺的重要工具。 首先&…

Laravel框架使用图片处理简单教程

PHP图片处理扩展包使用 文中使用的是Laravel框架,更多框架扩展包请点击传送门-》更多框架集成 Intervention Image 是一个开源的 PHP 图像处理和操作 库。它提供了一个更简单也更优雅的方式来创建/编辑/组合图像,并且支持最常见的两个图像处理库 GD Library 和 Im…

静态分析-RIPS-源码解析记录-01

token流扫描重构部分,这一部分主要利用php的token解析api解析出来的token流,对其中的特定token进行删除、替换、对于特定的语法结构进行重构,保持php语法结构上的一致性 解析主要在lib/scanner.php中通过Tokenizer这个类来实现,也就是在main…

机器学习面试篇

如何理解机器学习数据集的概念 数据集是机器学习的基础,它包括了用于训练和测试模型所需的数据。数据集通常以矩阵的形式存在,其中每一行代表一个样本(或实例),每一列代表一个特征(或属性)。…

SpringAMQP Work Queue 工作队列

消息模型: 代码模拟: 相较于之前的基础队列,该队列新增了消费者 不再是一个,所以我们通过代码模拟出两个consumer消费者。在原来的消费者类里写两个方法 其中消费者1效率高 消费者2效率低 RabbitListener(queues "simple.queue")public voi…

学习网络需要认识的各种设备

网桥(bridge) 网桥工作在数据链路层,可以把多个局域网连接起来,组成一个更大的局域网 以太网中,数据链路层地址就是mac地址,网桥与集线器的区别就是,网桥会过滤mac,只有目的mac地址…

draw.io 网页版二次开发(2):开始修改代码

目录 一 说明 二 打开开发环境 1. 代码调整 2. 修改访问链接 3. 注意 三 部分功能的代码汇总 1. 保存功能 2. 菜单栏折叠按钮功能 3. 顶部菜单栏 4.在顶部菜单栏中的【文件】菜单中新增选项 (1) 方法一:单独增加 (…

calllback回调函数:同步调用,异步调用,异步回调

纯python代码的异步回调 # _*_ encoding:utf-8 _*_ import time import threading callback_value None onFlag Truedef add(a, b, num):print(f"I am the function: %s, please wait for %d" % (add.__name__, num))time.sleep(num)c a bprint("a b 1 &…

K8S搭建

文章目录 K8S搭建配置要求 安装 Kuboard-Spray加载离线资源包规划并安装集群访问集群重启Kubernetes集群Worker节点不能启动许多Pod一直Crash或不能正常访问 containerd配置网络代理 常用的 kubectl 命令: K8S搭建 安装高可用的Kubernetes集群 配置要求 对于 Kub…

Springboot+mybatis-plus+dynamic-datasource+继承DynamicRoutingDataSource切换数据源

Springbootmybatis-plusdynamic-datasource继承DynamicRoutingDataSource切换数据源 背景 最近公司要求支持saas,实现动态切换库的操作,默认会加载主租户的数据源,其他租户数据源在使用过程中自动创建加入。 解决问题 1.通过请求中设置租…

软件产品检测认证是什么?

软件产品检测认证是软件企业、系统集成商或软件商为了提高自身产品的竞争力,增强客户信心,通过第三方机构对企业的软件产品质量和可靠性进行全面测试与评估的过程。这一过程主要关注软件产品的功能、性能、安全性、可维护性等方面,确保软件产…

FileLink跨网文件传输医疗行业解决方案

随着医疗行业的快速发展,医疗机构之间的信息共享和文件传输需求日益增加。然而,由于网络环境的复杂性和数据安全性的要求,传统的文件传输方式已经无法满足医疗行业的需求。为此,我们推出了FileLink跨网文件传输医疗行业解决方案&a…

炫酷个人主页(源码免费)

炫酷个人主页 效果图部分代码领取源码下期更新预报 效果图 部分代码 <!DOCTYPE html> <!--哪怕是深爱之人 对我们的痛苦一无所知&#xff01;* ░░░░░░░░░░░░░░░░░░░░░░░░▄░░* ░░░░░░░░░▐█░░░░░░░░░░░▄▀▒▌░* ░…

智能座舱语音助手产品方案

一、用户调研与痛点分析 1.目标用户分析 用户画像 性别女性年龄50地域2-3线城市职业退休或退居二线教育中专、 大专、 本科财务家庭财务管理者爱好享受生活、 照顾家庭标签有闲有小钱二、产品定位与卖点提炼 购车目的 愉悦自我&#xff0c; 专属于自己的座驾&#xff1a; 家…

26-ESP32-S3 的 FLASH分区表以及 SPIFFS 文件系统 和spiffsgen.py工具

ESP32-S3 的 SPIFFS 文件系统 ESP32-S3的ROM&#xff0c;RAM&#xff0c;FLASH 存储器类型描述容量内部存储器ROM用于存储固定的程序代码和数据384KBSRAM用于存储运行时的程序数据512KBRTC SRAM在深度睡眠模式下仍然保持数据16KB外部存储器PSRAM片外用于存储运行时的程序数据…

【生信技能树】数据挖掘全流程

R包的安装&#xff0c;每次做分析的时候先运行这段代码把R包都安装好了&#xff0c;这段代码不需要任何改动&#xff0c;每次分析直接运行。 options("repos""https://mirrors.ustc.edu.cn/CRAN/") if(!require("BiocManager")) install.packag…

vue 点击平滑到指定位置并绑定页面滑动效果

1.html元素 写出对应的数据块&#xff08;注意添加ref) 用于获取元素位置 <template><div class"index-page" ><div class"top-head" ref"index"><img src"logo.png" style"height: 40px;margin-right: 2…

大模型面试常考知识点1

文章目录 1. 写出Multi-Head Attention2. Pre-Norm vs Post-Norm3. Layer NormRMS NormBatch Norm 4. SwiGLU从ReLU到SwishSwiGLU 5. AdamW6. 位置编码Transformer位置编码RoPEALibi 7. LoRA初始化 参考文献 1. 写出Multi-Head Attention import torch import torch.nn as nn …

【VMware】vSphere 8.0 安装和设置简介

本信息的目标读者为熟悉虚拟机技术和数据中心操作并具有丰富经验的 Windows 或 Linux 系统管理员。 vSphere 8.0 提供了各种安装和设置选项&#xff0c;这些选项定义了相应的任务序列。 vSphere 的两个核心组件是 ESXi 和 vCenter Server。ESXi 是可用于创建和运行虚拟机和虚拟…

【算法】最短路问题 bfs 到 dijkstra

1976、到达目的地的方案数 你在一个城市里&#xff0c;城市由 n 个路口组成&#xff0c;路口编号为 0 到 n - 1 &#xff0c;某些路口之间有 双向 道路。输入保证你可以从任意路口出发到达其他任意路口&#xff0c;且任意两个路口之间最多有一条路。 给你一个整数 n 和二维整…