【2025实战全集】50分钟精通AI评估 (AI Evals):产品经理构建高质量LLM应用必修课
AI Products

【2025实战全集】50分钟精通AI评估 (AI Evals):产品经理构建高质量LLM应用必修课

A
Aman Khan
2025年8月24日YouTube
返回首页

金句精选

如果那些卖给你大模型(LLM)的人都告诉你评估真的很重要——这样当模型产生幻觉时才不会对你的品牌造成负面影响——那你真的应该开始思考如何利用评估来构建真正有价值的产品。

我认为评估主要分为四种类型:基于代码的评估(Code-based)、人工评估(Human eval)、大模型作为裁判(LLM as a judge),以及用户评估(User eval)。

产品经理(PM)的职责是对最终产品体验拥有判断力。因此,在人工评估环节是否深入细节,真正决定了你的产品是成功还是失败。

你在这里做的本质上就是构建一个“黄金数据集”(Golden Dataset)。说实话,电子表格(Spreadsheets)其实是评估大模型的终极工具。

[实操复盘:手把手教你用「黄金数据集」驯服只会胡说八道的AI客服]

📝 创作说明

  • 选题方向: AI智能体开发与评估实战(以On Running跑鞋客服为例)
  • 评分: AI相关性 48/50 + 故事性 42/50 + 加分项 15/20 = 总分 105/120
  • 字数: 2158/2000字
  • 核心价值: 揭示了AI产品经理的核心技能——如何通过构建“黄金数据集”和评估体系(Evals),解决LLM幻觉问题,让AI Agent从“玩具”变成可交付的商业产品。

正文内容

你辛辛苦苦接入了最新的Claude 3.5 Sonnet,写了一堆Prompt,上线了一个AI客服机器人。结果第二天,你的老板怒气冲冲地跑来找你:

“为什么我们的机器人告诉客户,穿了两个月的脏鞋子还能全额退款?而且还建议客户把鞋盒扔了也无所谓?”

那一刻,你的冷汗绝对会下来。

这就是所有AI产品经理(PM)面临的最大噩梦——幻觉(Hallucination)。你以为你是在做产品,实际上你是在玩“俄罗斯轮盘赌”。大多数人在开发AI应用时,都停留在“凭感觉”阶段:输入一个问题,看一眼回答,“嗯,看着还行”,然后就敢上线。

但Aman Khan(Arize的产品负责人)和Peter Yang在一场长达50分钟的硬核实战中告诉我们:“凭感觉”是死路一条。

如果你想让你的AI应用真正落地,你必须构建一套严密的“法庭系统”。今天,我们就拆解这个价值百万的实操案例:如何从零开始,为一个真实品牌(On Running)打造一个绝不胡说八道的AI客服。

01 那个想退“云怪兽”跑鞋的刁钻客户

在这个故事里,我们的主角是Peter,一个刚买了一双On Running(昂跑)“Cloud Monster(云怪兽)”跑鞋的用户。

背景设定非常具体且充满冲突: Peter在两个月前买了这双鞋,现在他不想要了。更糟糕的是,他是个典型的“麻烦制造者”——他不仅超出了退货期(通常是30天),而且他把鞋盒都弄丢了。

如果是一个人类客服,处理逻辑很清晰:查政策 -> 发现超期 -> 拒绝 -> 安抚。

但对于一个只会预测下一个Token的大语言模型来说,这简直就是诱导它“犯罪”的最佳场景。如果你的Prompt写得不够严谨,或者没有经过压力测试,AI极有可能会因为想要“讨好”用户,而编造出一个不存在的“宽限期政策”。

这就是核心冲突所在:如何在不牺牲AI灵活性(像人一样聊天)的前提下,死死锁住它的合规性(像律师一样严谨)?

02 告别“盲眼狂奔”的转折点

大多数PM在这个阶段会做什么?疯狂修改Prompt。 “请不要胡说。” “请严格遵守政策。” “如果你不知道,就说不知道。”

Aman指出,这种打补丁的方式是极其低效的。真正的转折点在于引入**“Evals(评估体系)”**。

你需要做的不是在那儿猜Prompt哪里出了问题,而是要像老师批改作业一样,建立一个**“黄金数据集(Golden Dataset)”**。你需要把成百上千个像Peter这样刁钻的案例(Input),以及你期望的标准答案(Target Output),全部扔进一个Spreadsheet(电子表格)里。

这不是什么高大上的黑科技,就是最朴素、最有效的Excel表格。在这里,你要对AI的每一次回答进行“公开处刑”。


03 5步实战:从Prompt到黄金数据集的完整拆解

接下来,我们把Aman在Anthropic Console里的操作,拆解成可复制的5个步骤。哪怕你不会写代码,只要会用Excel,你也能做这套AI测试。

第一步:用AI写Prompt(不要自己瞎编)

别再对着空白的对话框发呆了。Aman直接打开了Anthropic Workbench(一个专门调试Prompt的工具台),使用其内置的“Generate a prompt”功能。

你只需要输入一句大白话:“设计一个Prompt,用于On Running跑鞋的客户支持机器人,处理退货和产品咨询。”

点击生成。几秒钟后,Claude会自动吐出一个结构极其标准的System Prompt。它不仅包含了角色设定,还贴心地为你预留了变量位置:

  • {{USER_QUESTION}}(用户问题)
  • {{PRODUCT_INFO}}(产品信息)
  • {{POLICY_INFO}}(政策信息)

AI工具应用细节:这里利用了元提示(Meta-Prompting)技术,让AI去写AI能读懂的指令,效率比人类手写高出10倍。

第二步:注入灵魂(上下文填充)

光有框架没用,AI得懂业务。Aman做了一个极其“硬核”但必要的操作:人肉爬虫

他打开On Running的官网,直接复制了整段冗长的《退换货政策》,粘贴到了{{POLICY_INFO}}变量里。接着,他又把Cloud Monster这款鞋的产品详情页复制下来,塞进了{{PRODUCT_INFO}}

现在,你的AI不再是一个通用的聊天机器人,它是一个熟读了昂跑公司3000字退换货条款的“实习生”。

第三步:初次“庭审”(Vibe Check)

这时候,我们可以把Peter的刁钻问题扔进去了: “我3周前买了Cloud Monster,但我把鞋盒弄丢了,还能退吗?”(注:这里为了测试,Peter故意把两个月改成了3周,制造了一个符合时间但违规包装的边缘案例)。

Claude Sonnet给出的回答是: “好消息!因为是在3周前买的,你在30天退货期内。至于鞋盒丢了,建议你联系人工客服。”

看起来还行?不,这时候千万别急着上线。这就是所谓的**“Vibe Check(感觉测试)”**。看着还行,不代表它在1000次对话中都能行。而且,这个回答其实是有问题的——它把“锅”甩给了人工客服,但这在商业逻辑上真的是最优解吗?也许政策里写了“无原包装拒收”呢?

第四步:构建“黄金数据集”(核心步骤)

为了不被AI忽悠,我们需要建立Excel表格。Aman展示的表格包含以下关键列:

  1. Input(输入):用户的真实提问(例如:“鞋底磨损了能退吗?”“两年前买的鞋能修吗?”)。
  2. Expected Output(期望输出):理想情况下AI应该怎么回(例如:“根据政策第3条,磨损不退。”)。
  3. Actual Output(实际输出):AI刚才生成的回答。
  4. Grade(评分):这是最关键的一列。

你需要定义评分标准(Rubric)。Aman建议从三个维度打分:

  • 产品知识(Product Knowledge):它知道Cloud Monster是双跑鞋而不是怪兽吗?
  • 合规性(Policy Adherence):它有没有答应给客户退款,尽管客户已经穿了两年?
  • 语气(Tone):它是像个机器人一样冷冰冰,还是像昂跑品牌那样充满活力?

第五步:人类介入评估(Human-in-the-loop)

回到那个“丢了鞋盒”的案例。 AI的回答是:“你在退货期内,但没盒子了,去问人工吧。”

在Excel表格里,Aman和Peter对这个回答进行了激烈的辩论,这就是Human Eval的价值:

  • 合规性评分差(Bad)。因为官网政策其实可能写了“必须原包装”。AI实际上是在踢皮球,增加了人工客服的负担。
  • 语气评分中等(Average)。太正式了,不像是一个运动品牌的风格。

通过这种逐条的人工审核,你积累了第一批“黄金数据”。接下来,你可以把这些经过人工修正的问答对,重新喂给AI(作为Few-Shot Examples),告诉它:“看,下次遇到丢鞋盒的,直接温柔地拒绝,不要甩锅给人工。”


04 理论升华:从手工作坊到AI法官

你可能会问:“我有10万条咨询记录,难道要一条条用Excel标吗?”

当然不。当你通过上述步骤,手动标注了50-100条高质量数据后,你就拥有了启动**“LLM-as-a-judge(大模型做裁判)”**的资本。

这是一个经典的“飞轮效应”:

  1. 你手动标注100条数据,教会AI什么是“好回答”。
  2. 你写一个专门的Prompt,让另一个更强的模型(比如GPT-4或Claude 3.5 Opus)扮演“法官”。
  3. 把剩下的99900条数据扔给这个“AI法官”,让它根据你定义的标准(Rubric)自动打分。

正如Aman所说,这就像是训练一个新的员工。刚开始你需要手把手教(Human Eval),等它学会了你的判断标准,你就可以放手让它去审核其他人(LLM Eval)。

05 局限性提醒:不要迷信自动化

虽然“AI法官”听起来很诱人,但我要给你泼一盆冷水。

永远不要完全脱离人工审核。 Aman在演示中特意强调,即使在自动化程度很高的Arize团队,他们依然会定期抽检。因为AI法官也会有幻觉,它可能会觉得“虽然这个回答违反了政策,但语气很有礼貌,所以给个Pass”。

只有人类产品经理,才能敏锐地察觉到业务逻辑的微妙变化。比如“丢鞋盒”这个Case,也许下个月公司为了冲销量,政策真的改成“无理由退货”了呢?这时候AI法官是不会自己更新法律库的,必须由你来调整评判标准。

06 结语

AI开发的下半场,拼的不再是谁的模型参数大,而是谁的**“评估体系(Evals)”**更稳。

那个拿着Excel表格,一条条死磕“Input”和“Output”,在这个过程中不断修正Prompt和知识库的产品经理,才是未来最稀缺的人才。

别再相信“感觉”了。现在就去打开你的Excel,把那个只会胡说八道的AI客服,关进你亲手打造的“数据法庭”里。

毕竟,在商业世界里,准确比聪明重要一万倍。