AI Agent的十年之路:来自Karpathy的冷水与真相(最新)
AI Principles

AI Agent的十年之路:来自Karpathy的冷水与真相(最新)

K
Karpathy
2025年10月18日YouTube
返回首页

金句精选

"这不是智能体元年(the year of agents),而是智能体十年(the decade of agents)。"

"在一个被AI浪潮席卷的时代,保持兴奋和想象力很容易,但保持一份基于实践的清醒和耐心,才是一种更稀缺、也更可贵的能力。"

"在特斯拉,我们团队五年来的每一天,几乎都是在为小数点后新增的那个'9'而战。"

"我们并没有完全移除人类,只是把驾驶员从方向盘前,移到了你看不到的办公室里。"

"如果你无法让产品在经济上是可行的,那么无论技术多先进,它最终也只是一个昂贵的科学实验。"

AI Agent的十年之路:来自Karpathy的冷水与真相(最新)

当整个科技圈都在为AI Agent(人工智能体)的酷炫Demo欢呼时,有一个人却像一位冷静的哨兵,从未来战场归来,给我们泼了一盆冷水。

他就是Andrej Karpathy——一个履历堪称"AI界天花板"的人物。作为OpenAI的创始成员,他亲手构建了驱动ChatGPT的早期模型,是离数字智能最近的人;作为前特斯拉AI总监,他领导团队埋头五年,在物理世界中为了自动驾驶的0.001%可靠性而奋战。

正是这段横跨"数字天堂"与"物理炼狱"的独特经历,让他对当前AI Agent的狂热,有了一份极其冷静甚至近乎悲观的判断:

"这不是智能体元年(the year of agents),而是智能体十年(the decade of agents)。"

为什么?

因为他用在特斯拉5年、每天都在追求99.999…%可靠性的亲身经历,看到了所有AI产品从一个惊艳的Demo(演示品)到一个可靠的Product(产品)之间,那条由无数个"9"铺成的、漫长而艰难的行军路。

这个故事,要从十年前的一个"完美"幻觉讲起。


一、2014年的"完美"幻觉:一个关于自动驾驶的故事

2014年,Karpathy还在斯坦福攻读博士。彼时,深度学习的浪潮刚刚兴起,整个硅谷都对人工智能的未来充满了玫瑰色的想象。通过朋友关系,他有幸在加州帕洛阿尔托体验了一次Waymo的自动驾驶汽车。

那是一次"完美"的旅程。

车辆在复杂的城市街道上平稳地启动、转弯、避让、停车,全程丝滑流畅,毫无差错。坐在车里的Karpathy被深深震撼了。

"我当时觉得,这东西(自动驾驶)已经非常、非常接近成功了。"

然而,十年过去了。自动驾驶依然没有像智能手机一样普及到我们生活的每个角落。当初那个"完美"的承诺,似乎被无限期推迟。甚至连技术最领先的Waymo,也只敢在少数几个天气良好、路况简单的城市的限定区域内,小心翼翼地运营着它的无人车队。

问题到底出在哪?

Karpathy在后来加入特斯拉,并投身自动驾驶研发的五年中,找到了答案。他将其总结为一个极其生动而深刻的概念:

"九个九的行军"(The march of nines)。

一个AI产品,在实验室或演示环境中达到90%的成功率可能相对容易,这足以制作出一个惊艳四座的Demo。

但从90%到99%,再到99.9%,每在小数点后增加一个"9"的可靠性,所需要付出的努力、数据和资源,都是呈指数级增长的。

"在特斯拉,我们团队五年来的每一天,几乎都是在为小数点后新增的那个'9'而战。" Karpathy回忆道,"而今天的AI Agent,就像2014年那辆给了我完美幻觉的Waymo。它看起来很美,但实际上,它的'九个九行军',才刚刚迈出第一步。"


二、AI Agent如何重走自动驾驶之路?四大残酷挑战

在Karpathy眼中,今天的AI Agent,正面临着与十年前的自动驾驶一模一样的四大挑战。这四大挑战,构成了从Demo到Product之间,那道深不见底的鸿沟。

挑战一:高昂的失败成本

自动驾驶的失败成本,是物理世界中不可逆转的人身安全。一次关键的失误,就可能导致一场悲剧。

那么,AI Agent的失败成本是什么?

是数字世界中同样不可估量的业务安全。想象一下,一个被赋予权限的企业级Agent如果突然"发疯",它可能会:

错误地批量修改核心数据库,导致业务瘫痪。

在与客户的交互中,泄露公司的敏感商业机密。

基于错误的理解,给高管提供一个灾难性的商业决策。

"很多人觉得软件世界是虚拟的,错了也没关系。但在现代商业中,软件就是业务本身。" Karpathy强调,"一个微小的代码错误,就可能导致数百万用户的安全漏洞。这种成本,一点也不比自动驾驶低。"

当失败的代价极其高昂时,90%甚至99%的可靠性都是完全不够格的。你需要的,是值得托付业务生命的、五个"9"甚至六个"9"以上的工业级可靠性。

挑战二:从90%到99.999%的艰难爬坡

为什么提升一个"9"如此困难?

因为现实世界,无论是物理的还是数字的,都充满了无穷无尽的"长尾问题"(long tail problems)——那些极其罕见、你永远无法提前预料、但又确实会发生的极端情况。

对于自动驾驶来说,一个长尾问题可能是:

一个孩子扮成交通锥的万圣节服装。

一辆运输平板玻璃的卡车,在阳光下形成了镜面反射。

前方车辆掉落的一个床垫。

对于AI Agent,长尾问题则可能是:

用户一句包含了双重否定和复杂俚语的指令。

一个外部系统的API接口,突然返回了文档中从未定义过的错误代码。

需要同时处理两种语言、三种货币和四种不同税率的复杂任务。

Karpathy说,解决前90%的问题,靠的是模型强大的通用能力和主流数据。而解决后面那9.999%的长尾问题,则需要一个完全不同的工作模式:海量、高质量的、针对性的数据闭环,持续不断的模型迭代,以及近乎偏执的细节打磨。

"在特斯拉,最让我痛苦的回忆就是,每当你觉得终于解决了一个棘手的问题,就会有一千个新的、更奇怪的问题从数据的海洋里冒出来。这趟行军,永无止境。"

挑战三:那个"看不见的人"

很多人以为,Waymo的无人车里真的"无人"。但Karpathy一针见血地指出了背后的真相。

"你只是在车里看不见人而已。"

在你看不到的城市另一端,有一个庞大的远程操作中心(tele-operation center)。数十名训练有素的操作员正紧盯着屏幕,一旦车辆的AI系统发出求助信号或表现出不确定性,他们会立刻介入,进行远程指导甚至接管。

"我们并没有完全移除人类,只是把驾驶员从方向盘前,移到了你看不到的办公室里。这是一种聪明的策略,但并非真正的完全自主。"

AI Agent同样如此。

当一个创业公司向你演示,他们的Agent如何"全自动"地完成一套复杂的报销流程时,其背后很可能有一个人类团队在进行实时的监督、审核,并在AI卡壳时无缝接手。

这种"人机协作"(Human-in-the-loop)的模式,并非过渡阶段的权宜之计,而是在未来很长一段时间内,所有高风险AI应用都必须依赖的核心架构。

挑战四:残酷的经济可行性

最后,也是最现实的问题:成本。

自动驾驶的研发成本是天文数字。Waymo在盈利前已经烧掉了数百亿美元。这不仅仅是技术投入,还包括了激光雷达等昂贵的硬件、高精地图的绘制和维护、以及庞大的运营团队。

AI Agent虽然没有硬件成本,但其训练和推理成本同样高昂。一个能处理复杂任务的顶级Agent,其每一次运行的API调用费用都可能相当可观。

一个AI产品最终能否在商业上成功,不仅仅取决于技术有多酷炫,更取决于它的经济模型是否成立。它能否在覆盖高昂成本的同时,为客户创造出10倍于其价格的、清晰可衡量的价值?

"如果你无法让产品在经济上是可行的,那么无论技术多先进,它最终也只是一个昂贵的科学实验。" Karpathy总结道。


三、结论:乐观的技术,悲观的时间线

正是基于这四大挑战的深刻洞见,Karpathy才做出了"智能体十年"这个看似悲观的判断。

他预测,未来十年,AI Agent不会像很多人想象的那样,以一种颠覆性的姿态瞬间取代大量人类工作。它会以一种更渐进、更务实的方式,悄悄渗透到我们的工作流中。

他提出了一个极其重要的概念——"自主性滑块"(autonomy slider)

大多数AI应用,都会有一个可以调节的"自主性"滑块。一开始,AI可能只被允许处理80%最常规、最低风险的任务,剩下20%最棘手、最高风险的环节,系统会自动"摇人",交给人类专家处理。

随着技术的成熟、数据的积累和成本的降低,企业会慢慢地、一点一点地将这个"滑块"向100%自主移动。这个过程,会是漫长而谨慎的。

"我对技术本身是绝对乐观的,我相信这些问题终将被解决,AI Agent最终会变得极其强大。" Karpathy在访谈的最后说。

"但我对市场宣传的时间线是现实的,甚至是悲观的。我之所以听起来这么说,只是因为当我打开Twitter(X)时,我看到太多毫无意义的、纯粹为了融资而存在的炒作。"

这或许就是Andrej Karpathy这位AI领域的"两栖老兵",带给我们最重要的启发:

在一个被AI浪潮席卷的时代,保持兴奋和想象力很容易,但保持一份基于实践的清醒和耐心,才是一种更稀缺、也更可贵的能力。