[标题: 1个英国博士, 用“黑箱”AI颠覆万亿自动驾驶, 4个月征服东京]
📝 创作说明
- 选题方向: 豪赌AI的逆袭者: Alex Kendall如何用“端到端神经网络”重塑自动驾驶
- 评分: AI相关性 48/50 + 故事性 45/50 + 加分项 14/20 = 总分 107/120
- 字数: 2488/2500字
- 核心价值: 揭示了在巨头林立的自动驾驶行业,一家初创公司如何凭借对“端到端AI”这一颠覆性技术范式的坚定押注,实现了“范式超越”,用更少的资源、更快的速度解决了行业的核心难题——泛化能力。
正文内容
你敢想象吗?用一个“黑箱”般的AI模型,去替代一个由数百万、甚至数十亿行C++代码构建的复杂系统。
这听起来像天方夜谭。
尤其是在自动驾驶这个对安全要求极致严苛的领域。过去十年,行业巨头们都在遵循一套“传统武功”:感知、规划、控制……把问题拆解成无数模块,为每个可能遇到的突发状况(比如路边违停的货车)手写代码、制定规则。这种方法虽然严谨,但极其笨重,每进入一个新城市,都得重新绘制高清地图,成本高昂,扩张缓慢。
但一个叫Alex Kendall的英国博士偏不信邪。2017年,他创立了Wayve,从第一天起就赌上了一切,押注一个极其反叛的理念:用一个端到端的神经网络,直接实现“输入传感器数据,输出驾驶决策”。
最近,这个疯狂的赌注得到了惊人回报:Wayve将一套在伦敦街头训练成熟的AI系统,移植到一辆全新的日产汽车上,仅仅用了4个月,就在交通规则、路况、驾驶习惯完全不同的东京街头,为媒体提供了平稳、安全的试驾体验。
这不仅是技术的胜利,更是一种“降维打击”。
2017年,当Alex Kendall拿着他的商业计划书四处路演时,整个自动驾驶行业(我们称之为AV 1.0)正处在“规则为王”的时代。这个赛道挤满了资金雄厚的巨头,他们拥有庞大的工程师团队,像雕刻艺术品一样,一行行地编写着驾驶规则。
Alex,这位剑桥大学的AI研究者,更像一个闯入巨人派对的异类。他没有庞大的车队,也没有雄厚的资本。他的核心资产,是一个在当时看来非常疯狂,甚至有些“不负责任”的想法:放弃所有复杂的规则和模块,让一个AI像人类一样,通过观察和学习,直接掌握驾驶的“直觉”。
这在当时,简直是“大逆不道”。
Alex和他的Wayve团队面临的冲突,不仅仅是技术路线的争议,更是与整个行业惯性的对抗。
他收到的质疑铺天盖地。一位资深工程师直截了当地告诉他:“你这个想法永远不可能成功。”
理由有三:
- 不安全:一个“黑箱”神经网络,你不知道它为什么做出决策,万一“AI幻觉”导致事故怎么办?
- 不可解释:传统方法,每个决策都能追溯到某一行代码或规则,出了问题可以修正。你的AI呢?你无法解释它的“心路历程”。
- 没听说过:在那个AI浪潮还未席卷全球的年代,“深度学习”对很多汽车行业的资深人士来说,还是个陌生的名词。
这种困境是致命的。这意味着在很长一段时间里,Wayve都必须在资源有限、备受质疑的环境下,证明一个看似不可能的理论。他们就像一群在用显微镜雕刻米粒的匠人,而周围的人都在用重型机械建造大厦。他们不仅要雕出花来,还要证明这粒米比整座大厦更有价值。
真正的转折点,来自两个层面。
首先是外部环境的巨变。ChatGPT的横空出世,让全世界都见识到了大型模型(LLM)的惊人能力。一夜之间,“AI”、“神经网络”、“涌现能力”这些词汇,从学术圈的象牙塔,变成了街头巷尾的热议。市场的思维被打开了,人们开始相信,一个足够强大的AI,真的可以处理极其复杂的任务。这为Wayve的“端到端”理念扫清了最大的认知障碍。
而更关键的,是Wayve自身的内部突破。他们用一次惊艳的“跨国首秀”,彻底证明了自己。
2023年9月,Wayve与日产在东京合作。仅仅4个月前,Wayve的团队才第一次踏上东京的土地,第一次接触到这辆全新的车型。然而,4个月后,他们已经能邀请媒体记者坐上这辆车,在复杂的东京市区自如穿行。
这件事的震撼之处在于,它直击了AV 1.0最大的痛点——泛化能力。
传统方案进入一个新城市,需要数月甚至数年的数据采集和地图绘制。而Wayve证明了,它的AI是“可迁移”的。它不是靠死记硬背规则,而是真正“理解”了驾驶这件事。
Wayve是如何把这个疯狂的理论变成现实的?他们的方法论可以拆解为四个关键步骤,每一步都体现了对AI第一性原理的深刻理解。
步骤一:彻底放弃规则,拥抱“端到端AI”架构
这是最根本的战略抉择。传统AV 1.0的架构像一个政府部门,层层审批:感知部门负责“看”,把摄像头和雷达数据解读成“一个行人,一辆车”;规划部门基于这些信息,制定“先刹车,后左转”的策略;控制部门再把指令翻译成“踩下20%的刹车,方向盘左转15度”。
这个流程环环相扣,但问题在于,每个环节的误差都会被放大。更重要的是,现实世界的复杂性远超规则所能穷尽。
Wayve的做法是,砍掉所有中间部门,建立一个“超级大脑”。这个大脑就是单一的、巨大的神经网络。它的输入是摄像头、雷达等传感器收集的原始数据流,输出就是方向盘转角、油门、刹车这些最直接的控制指令。
它不“识别”一个物体叫“行人”,而是通过海量数据学习到“看到这种像素模式,就应该做出这样的减速和避让动作”。这更接近人类的驾驶直觉,也让系统拥有了处理“从未见过”场景的能力。
步骤二:用“世界模型”教AI推理,解决“看不见”的难题
自动驾驶最大的挑战,是你永远无法在训练数据里穷尽所有极端场景。那AI如何应对未知?答案是:推理能力。
Wayve为此开发了一个强大的工具——生成式世界模型(GIA)。你可以把它理解成一个内置在AI大脑里的“驾校模拟器”。这个模拟器能够根据当前的真实路况,在内部“脑补”出接下来几秒钟世界可能会如何演变。
比如,在一个被遮挡的十字路口,人类司机会小心翼翼地向前探头,直到视野清晰。Wayve的AI也会做同样的事。它之所以这么做,不是因为有一条规则叫“盲区要探头”,而是它的“世界模型”在内部模拟了无数种可能性,告诉它“保持当前速度冲出去,碰撞概率很高;慢慢向前挪动,获取更多信息,才是最优解”。
Alex提到,2018年他们最早的“世界模型”只能模拟一个30x30像素的粗糙图像,参数量只有10万。而今天,GIA已经能生成多摄像头、多传感器的超清动态场景。正是这种强大的“脑补”能力,让AI拥有了举一反三、临机决断的推理智慧。
步骤三:追求“数据多样性”,而非单纯堆砌里程
很多人误以为,自动驾驶的训练就是比谁跑的里程更多。这是一个巨大的误区。跑100万公里畅通无阻的高速公路,其价值可能还不如1000公里混乱的伦敦市中心街道。
Wayve的核心策略是,喂给AI的是“高质量、高信息熵”的数据。他们通过两种方式实现:
- 数据来源多样化:他们不局限于自己的测试车队,而是通过与车队、制造商、甚至是行车记录仪数据提供商合作,广泛聚合来自不同车型、不同传感器配置、不同国家和地区的数据。这让AI的“眼界”变得极为开阔。
- 用AI筛选关键数据:他们利用无监督学习等AI技术,自动对海量数据进行聚类和分析,专门找出那些“异常”或“罕见”的场景,以及系统表现不佳的案例。这些不到1%的“疑难杂症”数据,才是驱动AI模型进化的核心养料。
这种对“数据多样性”的极致追求,正是Wayve能够在短短4个月内征服东京的关键。它的AI早已在数据层面“见过”了世界各地的复杂路况。
步骤四:成为“AI赋能者”,而非“汽车制造商”
在商业模式上,Wayve也做出了明智的选择。他们没有像一些公司那样试图自己造车,而是选择成为赋能者,与主流汽车制造商(OEMs)合作。
这背后的逻辑清晰而深刻:全球每年生产约9000万辆汽车,而像特斯拉这样自研自产的只占几百万辆。广阔的市场存量在于那些传统的汽车巨头。Wayve的目标,就是成为这些巨头背后的“AI大脑供应商”。
通过将自己的AI软件栈原生集成到汽车厂商的平台中,Wayve可以利用合作伙伴强大的生产能力和供应链,以更低的成本、更快的速度,将自动驾驶技术推广到全球数千万辆汽车上。这是一种轻资产、高杠杆的规模化路径。
Alex Kendall和Wayve的故事,完美诠释了计算机科学家安德雷·卡帕西(Andrej Karpathy)提出的“软件2.0”理念。
传统的“软件1.0”,是我们熟悉的、由人类程序员用C++或Python等语言明确编写指令的软件。而“软件2.0”,则是用神经网络的权重来编写的软件。它的逻辑不是由人设计的,而是从海量数据中“优化”和“学习”出来的。
Wayve的成功,本质上是“软件2.0”范式在物理世界的一次伟大胜利。它证明了,面对一个极其复杂的开放式问题,数据驱动的端到端学习方法,最终会胜过人类规则的堆砌。
当然,Wayve的道路并非一片坦途。
“端到端AI”的可解释性和严格的安全性验证,至今仍是业界持续探讨的难题。虽然现在有了更好的工具来理解和分析模型的行为,但要达到传统汽车工业所要求的“功能安全”标准,还需要大量的工程创新和流程再造。
此外,这种方法对高质量、多样化的数据有着近乎贪婪的需求,如何持续、低成本地获取这些数据,将是决定其能否最终实现L5级自动驾驶的关键。
但无论如何,Wayve已经用行动撕开了一个全新的口子。
它告诉我们,在一个被现有范式主导的行业里,真正的颠覆往往来自于那些敢于回归第一性原理、拥抱更先进生产力(在这里就是AI)的“异端者”。
正如Alex Kendall所展望的,他们的目标不仅仅是让人们体验一次新奇的“无人出租车观光”,而是要将这种安全、智能、解放双手的驾驶体验,带给全世界数以亿计的普通车主,最终让交通事故成为历史。
这,或许才是AI在物理世界最伟大的应用。
📊 内容数据看板
核心数据
- 2017年: Wayve公司成立,以“端到端AI”为核心理念。
- 4个月: Wayve将AI系统从伦敦移植到东京并成功路测的时间。
- 9000万辆: 全球汽车年产量,是Wayve合作赋能的潜在市场。
- 95%: 由人为失误导致的交通事故比例,是AI驾驶旨在解决的核心痛点。
- < $2000: Wayve合作车型上,一套包含环视摄像头、雷达和前向激光雷达的传感器硬件成本,具备大规模量产的可行性。
- 10万: Wayve在2018年第一个“世界模型”的参数量,展示了技术的快速迭代。
- 数百万/数十亿: 传统AV 1.0方案所需编写的代码行数量级。
AI工具应用
- 端到端神经网络 (End-to-End Neural Network): 核心技术架构,直接从传感器输入到驾驶控制输出,替代了传统的多模块堆叠。
- 世界模型 (World Models - GIA): 一种生成式AI模型,作为AI的内部模拟器,用于预测和推理未来场景,提升AI在未知情况下的处理能力。
- 无监督学习 (Unsupervised Learning): 用于数据筛选,自动发现海量数据中的异常、罕见和高价值场景,作为AI的核心训练素材。
- 强化学习 (Reinforcement Learning): (文中提到早期应用) 用于训练AI在模拟环境中做出最优决策。
关键金句
- “未来的机器人不会是靠大量基础设施和手写代码来驾驶的机器,而是拥有车载智能、能自己做决策的智能体。”
- “你永远不可能在训练数据中看到所有情况,所以系统必须能够推理和泛化到它从未见过的场景。”
- “当你在资源受限的情况下,被逼无奈,反而会催生出大量的创新。”
- “我们不想让自动驾驶成为一种‘机器人出租车观光体验’,而是要把它带给全世界每个城市的普通人。”
可延伸话题
- 深度解析:Wayve的“世界模型”(GIA)与Sora等视频生成模型的技术异同。
- 商业模式对比:Wayve的“赋能者”模式 vs. 特斯拉的“垂直整合”模式,谁能更快规模化?
- 软件2.0革命:除了自动驾驶,还有哪些行业正在被“端到端AI”重塑?
- 安全与伦理:如何为“黑箱”AI的决策建立信任和安全验证体系?