吴恩达YC重磅演讲:如何利用AI代理工作流加速创业产品构建
AI CodingPersonal Productivity

吴恩达YC重磅演讲:如何利用AI代理工作流加速创业产品构建

A
Andrew Ng (吴恩达)
2025年6月17日YouTube
返回首页

金句精选

对于初创企业来说,专注于一个具体的想法(concrete idea)至关重要,而不是停留在模糊的概念上。一个具体的想法能让你迅速开始执行并验证。

代理工作流(Agentic Workflows)和新一代基于代理的编码助手正在重新定义开发效率,它们能让现有的模型发挥出超越其本身能力的巨大价值。

保持技术栈的更新并利用最新的AI工具,能为初创公司带来显著的竞争优势,因为现在的技术迭代速度极快,旧的方法很快就会过时。

[深度改写:别等GPT-5了,Agentic Workflow才是让AI智商翻倍的秘密武器]

📝 创作说明

  • 选题方向: AI Agentic Workflows (AI代理工作流) —— 从"提示词工程"到"系统工程"的进化
  • 评分: AI相关性 50/50 + 故事性 40/50 + 加分项 15/20 = 总分 105/120
  • 字数: 2180/2500字
  • 核心价值: 揭示了Andrew Ng(吴恩达)最新的核心观点——通过工作流设计(而非单纯等待更强的模型),可以让GPT-3.5级别的模型表现超越GPT-4。

正文内容

🛑 别再迷信"更强的模型"了

你是不是也在等?

等着OpenAI发布GPT-5,等着Claude 4,等着那个传说中"无所不知"的AGI降临,好让你手头那个卡在60%准确率的项目突然起死回生?

醒醒吧。

Andrew Ng(吴恩达)最近在Y Combinator的分享中直接抛出了一个反直觉的数据,狠狠打了很多人的脸:一个经过良好工作流设计的GPT-3.5,在代码生成任务上的表现,完爆了直接零样本提问(Zero-shot)的GPT-4。

这不仅仅是技术细节的调整,这是思维方式的地震。

很多人还在疯狂研究怎么写出"完美的Prompt",试图用一句咒语唤醒神龙。但真正的AI大佬们早就换了玩法——他们不再把LLM(大语言模型)仅仅看作一个知识库,而是把它看作一个推理引擎(Reasoning Engine)

如果你还停留在"聊天框"思维,那你正在错过AI领域最大的红利。

👨‍🏫 主角背景:AI教父的"反常识"发现

Andrew Ng,这个名字在AI界不需要过多介绍。从Google Brain的创办人到百度首席科学家,再到Coursera的联合创始人,他几乎定义了过去十年我们学习AI的方式。

但这次,这位总是温文尔雅的"AI教父",带着一种紧迫感来到了创业者的圣地——Y Combinator。

他看到的现状让他担忧:成千上万的开发者和创业者,正陷入一种"模型焦虑"。大家都在卷参数量,卷上下文窗口,卷谁的模型分更高。

然而,在DeepLearning.AI的实验室里,Andrew和他的团队发现了一个奇怪的现象。当他们试图用AI写代码时,如果只是简单地把需求丢给GPT-4,成功率也就那样。但当他们强迫一个"笨一点"的模型像人类程序员一样——先写草稿,再运行,报错了再改,改完再测试——奇迹发生了。

这个发现,直接颠覆了"模型即产品"的传统认知。

📉 核心冲突:卡在"聪明"的陷阱里

想象一下你现在的处境。

你正在开发一个自动写代码的助手,或者一个能自动分析财报的AI。你用了最贵的GPT-4 API,烧了无数Token,但结果总是差强人意。

  • 代码写出来看着挺像样,一运行全是Bug。
  • 财报分析头头是道,但关键数据张冠李戴。

你很绝望。你觉得是模型还不够聪明。你对自己说:"只要GPT-5出来,这些问题就解决了。"

于是你陷入了等待。你的产品卡在"Demo很惊艳,落地全是坑"的死亡谷里。你的用户试用了一次,发现准确率只有70%,然后就没有然后了。

这就是**"零样本思维"(Zero-shot Mindset)**的陷阱。我们习惯了像查百科全书一样问AI问题,期待它一次性给出完美答案。但你仔细想想,作为人类,你在处理复杂任务时,是一次性把代码从头写到尾不出错吗?是一口气写完论文不改一个标点吗?

当然不是。你是迭代的,你是会反思的。

🔄 转折点:Agentic Workflow的觉醒

Andrew Ng指出了破局的关键:Agentic Workflow(代理工作流)

转折发生在DeepLearning.AI测试HumanEval(一个Python代码生成基准测试)的时候。

  • 场景A:直接问GPT-3.5。结果:准确率48%。惨不忍睹。
  • 场景B:直接问GPT-4。结果:准确率67%。好一点,但还是不能用。
  • 场景C:给GPT-3.5设计一个"反思工作流"(让它写完代码后,自己检查一遍,甚至运行一下测试用例,根据报错修改)。

结果?准确率飙升到了95%以上!

看懂了吗?一个"笨"模型 + 好流程 > 一个"聪明"模型 + 坏流程。

这就像是一个智商150的天才(GPT-4),如果让他闭着眼睛盲打代码,他也打不过一个智商100的普通人(GPT-3.5),只要后者被允许反复检查、测试和修改。

AI的未来,不在于造出更强的大脑,而在于教会这个大脑如何**"慢思考"**。


🛠️ 方法论拆解:如何构建你的AI特种部队

好了,道理你都懂了。具体怎么做?Andrew Ng将这种"Agentic Workflow"拆解为四个核心设计模式。你可以现在就打开你的IDE(无论是Cursor还是VS Code),开始改造你的AI应用。

第一步:Reflection(反思与自我修正)

这是最简单、但在代码生成中威力最大的模式。

传统做法: 用户:"帮我写一个贪吃蛇游戏的代码。" AI:"好的,这是代码..."(直接生成,往往包含逻辑错误)。

Agentic做法: 你需要强行插入一个"批评者"角色。

  1. 生成者:先生成第一版代码。
  2. 批评者:Prompt提示——"请检查上述代码的逻辑漏洞、安全性问题和潜在Bug,并给出修改建议。"
  3. 生成者:根据建议,重新生成代码。

实战数据:仅此一步,就能让很多逻辑任务的准确率提升20-30%。这就好比你写完邮件,强迫自己再读一遍,拼写错误自然就发现了。

第二步:Tool Use(工具使用)

不要让LLM在那"干想"(Hallucinate)。

大模型最擅长的是推理,而不是记忆或计算。

  • 遇到数学题,给它计算器(Python REPL)。
  • 遇到实时新闻,给它Google Search API。
  • 遇到具体业务数据,给它数据库查询权限。

具体操作: 使用LangChainSemantic Kernel。当AI发现用户在问"特斯拉昨天的股价"时,它不应该去翻自己的训练数据(那是去年的),而应该触发search_tool,获取信息后,再组织语言回答。

这让AI从"百科全书"变成了"图书管理员"。

第三步:Planning(规划与拆解)

面对复杂任务(比如"帮我开发一个电商网站"),直接生成是必定失败的。

你需要引入**"思维链"(Chain of Thought)**的升级版——规划(Planning)

  1. 让AI先把大目标拆解成子任务列表(1. 设计数据库;2. 写后端API;3. 写前端页面)。
  2. AI逐个执行子任务。
  3. 每执行完一步,更新任务列表(也许中间发现需要新增一个Redis缓存,动态调整计划)。

AI工具推荐AutoGPTBabyAGI就是这个逻辑的早期雏形。现在的OmniParser或者OpenAI Assistant API都能很好地支持这种模式。

第四步:Multi-agent Collaboration(多智能体协作)

这是终极形态。就像经营一家公司,你不能指望CEO一个人干完所有活。

你需要创建不同的"角色"(Persona):

  • 角色A(产品经理):负责把用户模糊的需求转化为具体的功能文档。
  • 角色B(程序员):根据文档写代码。
  • 角色C(测试工程师):专门找茬,写测试用例去跑角色B的代码。

实战案例: 使用CrewAIAutoGen框架。你可以定义:"你是一个资深Python工程师,你的性格是严谨、话少";"你是一个挑剔的测试,你的目标是搞崩程序"。 让他们在后台"吵架"(交互)。你会发现,经过几轮对话后产出的代码,鲁棒性惊人。


📚 理论升华:快思考与慢思考

Andrew Ng的这套理论,本质上是丹尼尔·卡尼曼《思考,快与慢》在AI领域的投射。

目前的LLM生成,大多是系统1(System 1):直觉的、快速的、一次性的反应。 而Agentic Workflow,是在强行构建系统2(System 2):逻辑的、慢速的、反复推敲的思考。

Token成本的极速下降(摩尔定律在AI领域的体现),让这种"慢思考"变得经济上可行。以前让AI反复思考10次可能要1美元,现在可能只要1美分。这意味着,用算力换智商的时代已经到了。

⚠️ 局限性提醒:不要为了Agent而Agent

虽然Agentic Workflow很强,但Andrew也给出了冷静的警告:不要把简单问题复杂化。

  1. 延迟问题:多智能体协作意味着多次往返调用,响应时间可能从1秒变成30秒甚至更久。如果是实时对话(Chatbot),用户等不起。这种模式更适合后台任务(异步处理)。
  2. 死循环风险:如果不加控制,两个Agent可能会陷入无休止的争论,或者规划器会无限拆解任务。一定要设置"最大迭代次数"(Max Iterations)。
  3. 甚至不需要AI:Andrew特别提到,有些创业者为了用AI而用AI。如果你只是想做一个简单的CRUD应用,或者验证一个商业模式,你可能根本不需要复杂的Agent。去咖啡馆找5个人聊聊你的想法(Coffee Shop Validation),往往比写一堆代码更有用。

🌟 金句收尾

AI不会取代程序员,但**"会使用Agentic Workflow的程序员"绝对会取代"只等着GPT-5救命的程序员"**。

当所有人都在盯着模型的参数看时,请你看向工作流。

因为在AI的世界里,勤奋的"笨鸟"(Agent),真的可以先飞。