Don't Build Agents, Build Skills Instead
AI Coding

Don't Build Agents, Build Skills Instead

B
Barry Zhang, Mahesh Murag
2025年12月18日YouTube
返回首页

金句精选

我们意识到代码不仅是一个用例,更是数字世界的通用接口。

今天的代理很像Mahesh,他们很聪明,但缺乏专业知识。

技能是组织好的文件集合,为代理打包可组合的程序化知识。换句话说,它们是文件夹。

模型就像处理器... 代理运行时正在开始扮演操作系统这个角色... 但一旦我们有了平台,真正的价值就来自应用程序。

我们认为是时候停止重建代理,转而构建技能了。

正文内容

大家早上好。如果你的2024年还在为每一个细分场景——写代码、报税、做PPT——分别开发独立的AI Agent,那么Anthropic最近的这场内部复盘,可能会彻底颠覆你的认知。

就在五周前,Anthropic发布了Claude Code,这不仅是一个编码工具,更是一个信号。在过去的一年里,我们看到了成千上万个Agent像雨后春笋般冒出来。每个人都在试图构建“完美的Agent架构”。但数据却狠狠打了所有人的脸:即便你拥有了最先进的模型(Model)和最完善的运行环境(Runtime),你的Agent在处理真实工作时,依然笨得像个刚毕业的实习生。

为什么?因为我们陷入了一个巨大的误区:我们在疯狂堆砌“智商”,却忽略了“经验”。

Anthropic的两位核心工程师Barry Zhang和Mahesh Murag,带着他们最新的实践成果站到了台前。他们抛出了一个反直觉的结论:停止构建Agent,开始构建“技能(Skills)”。这不仅是技术路线的修正,更是AI应用开发的一次“降维打击”。


Barry和Mahesh的故事,要从一个尴尬的现实说起。

Mahesh是Anthropic的一位天才工程师,你可以把他想象成一个智商300的数学神童。而Barry,则是一位在税务领域摸爬滚打几十年的老专家。现在,问题来了:如果让你选一个人来帮你处理2025年的复杂税务申报,你会选谁?

绝大多数人会毫不犹豫地选择Barry。

为什么?Mahesh虽然智商极高(像现在的顶级LLM),但他没读过2025年的最新税法,不懂税务局的潜规则,更没有处理突发状况的肌肉记忆。让他报税,他得从头开始阅读几千页的文档,还得保证不出错,这几乎是不可能的。而Barry,虽然算力(智商)可能不如Mahesh,但他拥有“领域知识”——那些已经被结构化、流程化的经验。

这就是目前AI Agent面临的核心冲突:我们造出了无数个“Mahesh”(高智商模型),却指望他们能像“Barry”(领域专家)一样干活。

过去,为了解决这个问题,开发者们不得不为每个领域单独搭建厚重的支架。想做法律顾问?写一套法律Agent的代码;想做数据分析?再写一套Python Agent的代码。结果就是,整个系统变得臃肿不堪,维护成本极高,而且一旦遇到跨领域的任务,这些“烟囱式”的Agent就彻底傻眼了。

转折点发生在Anthropic内部开发Claude Code的过程中。团队突然意识到:代码本身就是数字世界的通用接口。 我们根本不需要为每个领域造一个新Agent,我们只需要一个足够强大的“通用Agent”(比如Claude),然后给它配备不同的“技能包”(Skills)。

就像你不需要为了写文档买一台专门的“打字电脑”,为了看电影买一台“视频电脑”一样。你只需要一台电脑(通用Agent),然后安装Word和播放器(技能)即可。

这一刻,Anthropic决定按下“停止键”。他们停止了繁杂的Agent开发,转而开始疯狂地构建“技能”。


那么,这个足以改变AI开发范式的“技能(Skills)”到底是什么?我们该如何复刻这套方法论?以下是Anthropic内部已经在跑的5步实操拆解。

第一步:重新定义“技能”——回归最朴素的“文件夹”

在Anthropic的定义里,一个“技能”不是什么复杂的微服务或API网关,它简单得令人发指:它就是一个文件夹。

是的,你没听错。这种极简主义是故意的。在这个文件夹里,主要包含两样东西:

  1. Markdown文件(.md):这是给AI看的“说明书”,包含核心指令、流程规范和知识库。
  2. 脚本文件(Scripts):这是AI可以调用的“工具”,比如Python脚本、SQL查询语句或Bash命令。

这种设计的核心逻辑是“可组合性”。你可以把这个文件夹放在Git里做版本控制,也可以扔进Google Drive分享给同事。任何一个通用Agent,只要读取了这个文件夹,瞬间就能“学会”这项技能。

第二步:解决“冷启动”痛点——用代码固化重复性劳动

你是否发现,当你让ChatGPT或Claude帮你格式化PPT时,它每次都要重新写一段Python代码?这不仅浪费了宝贵的Token,而且每次生成的代码质量参差不齐,这就是典型的“冷启动问题”。

Anthropic的解决方案是:将一次性的代码转化为永久的工具。

在内部实践中,Barry发现Claude总是反复编写同一个Python脚本来调整幻灯片的样式。于是,他们让Claude把这段脚本保存到“技能文件夹”中。下次再遇到类似任务时,Claude不再重新生成代码,而是直接调用这个已有的脚本。

数据验证:这一动作让任务执行的一致性提升了200%,同时大幅降低了推理成本。对于企业来说,这意味着你团队里最资深员工的“最佳实践”,可以被封装成一个脚本,让所有新员工(和AI)瞬间拥有同等水平的执行力。

第三步:运用“渐进式披露”技术——保护上下文窗口

现在的Agent往往需要挂载几十个甚至上百个工具。如果把所有工具的说明书一次性塞进Prompt里,Context Window(上下文窗口)瞬间就会被撑爆,模型也会因为信息过载而变笨。

Anthropic引入了**“渐进式披露(Progressive Disclosure)”**机制。

当Agent运行时,它最初只能看到技能的“元数据”(Metadata)——也就是技能的名称和简介。只有当Agent判断“我现在需要使用这个技能”时,它才会去读取文件夹里详细的Markdown说明书和目录结构。

这种机制让Claude可以同时挂载数千个技能而不降低智商。想象一下,你的AI助理随身背着一个拥有几千本书的图书馆,但它只在需要的时候才会把书从包里拿出来翻阅。这使得Agent在处理复杂任务时,既能保持广博的知识面,又能保持敏锐的注意力。

第三步:MCP协议 + 技能库 = 真正的“全能专家”

单纯的“技能”只能处理内部逻辑,要让Agent真正产生价值,必须连接外部世界。这里就轮到**MCP(Model Context Protocol,模型上下文协议)**登场了。

Anthropic展示了一个强大的架构公式: 通用Agent + MCP服务器(连接外部数据) + 技能库(提供专业知识) = 行业专家

举个真实的例子:Browserbase

  • MCP层:提供了连接浏览器的能力(手和眼)。
  • 技能层:Browserbase团队编写了一套名为“Stagehand”的技能,教Claude如何高效地导航网页、提取数据(大脑和经验)。

通过这种组合,Claude瞬间变成了一个熟练的“网络爬虫工程师”。在金融服务领域,Anthropic就是通过给Claude配备特定的MCP服务器(连接彭博终端)和一套金融分析技能包,在短短五周内就部署了专业级的金融Agent。

第五步:终极形态——让Agent自己编写技能

这是整个演讲中最让人细思极恐,也最令人兴奋的部分。

Barry和Mahesh提出了一个愿景:从“人教AI”进化到“AI教AI”。

当你在与Claude协作时,它会观察你的工作流。当你纠正它“不,这份报告的格式应该是这样的”时,它不仅仅是修改了当下的输出,它还可以调用“技能创建器(Skill Creator)”,把你刚刚教它的规则写成一个Markdown文件,存入技能库。

这意味着,在你使用Claude的第30天,它将比第1天强大得多。它不再是一个出厂设置的标准品,而是一个带着你团队独特基因、拥有无数“肌肉记忆”的专属伙伴。这种**上下文学习(In-Context Learning)**的固化,是目前最具成本效益的模型进化方式。


听到这里,你可能会问:这套理论真的有那么神吗?

我们必须保持清醒。基于“文件夹”的技能体系虽然极大地降低了开发门槛——甚至财务、HR等非技术人员也能通过写文档来构建技能——但它并非万能药。

局限性提醒: 首先,安全性是一个巨大的挑战。当Agent可以随意执行文件夹里的脚本时,如何确保这些脚本没有恶意代码?这需要严格的沙箱环境。 其次,版本控制变得异常复杂。当技能库膨胀到几千个时,技能之间的依赖关系(Skill A依赖Skill B)可能会导致“依赖地狱”。 最后,这套方法论目前主要适用于程序化、规则明确的任务。对于需要高度情感智能或极其模糊的创意任务,单纯的“技能包”可能显得过于生硬。


尽管如此,Anthropic的这次复盘依然为我们指明了一条清晰的道路。

正如计算机的发展史:先有处理器(模型),再有操作系统(Runtime),最后爆发价值的是运行在上面的应用程序(技能)。现在,我们正处于AI领域的“应用程序爆发前夜”。

不要再试图去造一个“完美的Agent”了,那就像是试图造一颗能直接运行所有软件的CPU,既昂贵又徒劳。

去建文件夹吧。

把你团队的最佳实践写成Markdown,把你常用的脚本存进去,然后把这个文件夹扔给Claude。

在这个新时代,谁拥有的“技能文件夹”越多、越精准,谁的AI就越强大。不要让你的AI做那个只会做题的Mahesh,让它成为那个身经百战、带着几千个文件夹上战场的Barry。