2023年底,Pablo和Luis在YC办公室里做了一个大胆的决定——用AI打电话给卡车司机。
他们的联合创始人Favi(也是Pablo的亲兄弟)当时是全球最大橄榄油分销商的CFO。一个价值百万美元的问题困扰着他:沃尔玛打电话问"我的橄榄油在哪里?",而他只能派人给司机打电话,一个一个问。
物流行业的痛点一目了然,但技术可行性存疑。当时GPT-3.5太快但太笨,GPT-4够聪明但太慢。他们别无选择,只能自己微调Mistral和Llama,硬生生把延迟压到可用水平。
结果证明这条路走对了。今天,Happy Robot服务着美国十大货运经纪商中的九家,十大追踪公司中的七家,两大海运公司,以及DHL——在80个国家部署了超过40个AI Agent。
为什么不能只靠更聪明的模型?
很多人以为,等GPT-5出来,企业AI就能自动搞定。但Happy Robot的经验告诉我们:更聪明的模型≠能干活的Agent。
举个Kuehne+Nagel的例子。一个客户问"我的空运货在哪?",表面上是客服问题,实际上是一连串复杂的协调:
- 先去航空公司网站查(需要浏览Agent)
- 网站上没有?发邮件(需要邮件Agent)
- 两小时没回复?打电话(需要语音Agent)
- 同时要判断是否会违反SLA(需要推理Agent)
这不是单个模型能搞定的。这是一套Agent系统,需要跨渠道共享上下文、协同决策。
另一个例子更反直觉:当10个买家同时打电话竞争同一个货运单,你不能让10个AI Agent各自为战。它们需要共享上下文——"第3个出价最高,坚持住"。这种市场感知不是LLM的"通用智能"能提供的,而是需要专门构建的协调层。
Happy Robot的解决方案是:**不让AI看到不该看的东西。**最大购买价格不会暴露给Agent,而是通过外部算法控制。Agent会说"让我问一下老板"——这其实是调用一个工具,而不是LLM在自由发挥。概率性(LLM)+确定性(外部算法)的混合,才是企业级AI的正确打开方式。
"工作金字塔":为什么不能从顶部开始?
Pablo提出了一个极具洞察力的框架——工作金字塔(Pyramid of Work)。
底层是简单重复的工作:基础销售电话、标准客服、付款催收。越往上,工作越复杂、越战略性,到顶层就是CEO级别的决策。
关键洞察:真正的经济价值在金字塔顶端,但你不能从顶端开始。
为什么?因为顶层的决策需要底层的所有上下文。你必须先自动化底层的重复工作,在过程中积累对业务的理解,然后才能一层一层往上爬。
这解释了为什么很多AI公司卡住了——他们只解决了金字塔底部的一个角落(比如只做语音客服),但跨不出这个角落。Happy Robot之所以能往上爬,是因为他们从一开始就构建了跨部门、跨渠道的上下文共享机制。
从物流到全行业:企业协调是一个通用问题
Happy Robot最大的发现是:他们解决的其实不是物流问题,而是企业协调问题。
当一个公用事业公司接到客户投诉锅炉漏水,他们需要知道:
- 这个客户10天前就报过修
- 上次派的技术员不对口
- 这次要派擅长这种锅炉的技术员
- 还要协调派车的物流
这和物流行业"查货在哪儿"的问题结构完全一样:跨部门协调、多渠道信息整合、实时决策。
现在,Happy Robot正在被三大电信运营商、房屋和汽车保险公司主动拉入。被"拖车救援"和"卡车维修"本质上是同一个协调问题。
Forward Deployed Engineer:不是服务,是种子
Happy Robot没有选择传统的SaaS销售模式,而是采用了类似Palantir的Forward Deployed Engineer(FDE)模式。
Pablo自己就是第一个FDE。他会去客户那里待一周,坐在操作员旁边,观察他们的工作流程。这些一线经验直接反馈给产品团队。
但他们很清楚FDE和纯服务的区别:FDE离开后,留下来的是运行中的Agent和平台,不是一堆PPT。
FDE的角色是"种子"——他们播下第一颗Agent,让它开始工作、积累上下文,然后飞轮就开始转了。第二个、第三个Agent部署更快,因为系统已经学会了业务的上下文。
Luis透露,他们在考虑未来做fine-tuned SLM(小语言模型)和强化学习,但他强调:"这些在你没有第1个和第2个Agent在生产环境跑起来之前,完全没意义。"
语音AI的真正瓶颈不是延迟
一个反直觉的发现:语音AI最大的问题不是延迟太慢,而是模型越来越快之后,太容易打断人。
Luis解释说,当模型响应越来越快,Agent就越频繁地在不该说话的时候插嘴。真正的挑战是"turn-taking"——知道什么时候该说话,什么时候该闭嘴。
有时候需要快回,有时候需要等对方说完,有时候需要停顿思考。这不是靠更大的context window或更强的推理能力能解决的,而是需要专门的对话理解技术。
这也是为什么他们从早期就开始自研语音基础设施,而不是完全依赖ElevenLabs这样的通用方案。
数据看板
核心数据:
- 服务美国Top 10货运经纪商中的9家
- 服务Top 10追踪公司中的7家
- DHL:80个国家部署40+个Agent
- 单个催收Agent:每日20,000-50,000次外呼
- 团队规模:120人
- YC起步:2023年底
AI工具应用:
- 微调Mistral/Llama用于实时语音Agent
- 自研语音基础设施(turn-taking、背景噪音过滤)
- 概率性+确定性混合的Agent架构
- "Twin"数据层:连接CRM/ERP/TMS/Snowflake
关键金句:
- "更聪明的模型不等于能干活的Agent"
- "真正的经济价值在金字塔顶端,但你不能从顶端开始"
- "我们解决的其实不是物流问题,而是企业协调问题"
- "语音AI最大的问题不是太慢,而是太快——太容易打断人"
- "强化学习在你没有第1个Agent跑起来之前,完全没意义"
可延伸话题:
- AI Agent的"工作金字塔"框架在不同行业的应用
- Forward Deployed Engineer模式的可扩展性
- 企业AI中的概率性+确定性混合架构
- 语音AI的turn-taking技术前沿
