4年10亿营收且零融资:Anthropic与谷歌背后的百人秘密实验室
AI Organization

4年10亿营收且零融资:Anthropic与谷歌背后的百人秘密实验室

E
Edwin Chen
2025年12月7日YouTube
返回首页

金句精选

你们在不到四年的时间里,仅凭六七十人的团队就实现了十亿美元的营收。你们完全是白手起家,没有拿过任何风险投资(VC)的钱。我不相信以前有人做到过这一点。

如果你不深入思考质量,你会觉得:‘这是一首诗吗?它有八行吗?里面有‘月亮’这个词吗?’……但这完全不是我们想要的。我们要寻找的是诺贝尔奖级别的诗歌。

我们基本上从来不想玩硅谷的那套游戏……我曾在很多大型科技公司工作过,我总觉得我们可以解雇90%的人,这样我们反而会跑得更快,因为最优秀的人就不会有那么多干扰了。

我们实际上是在针对那些在杂货店买八卦小报的人群优化模型。我们基本上是在教模型去追逐多巴胺,而不是追逐真理。

不要雇佣那个只是想在简历上增加一家热门公司经历的斯坦福毕业生。去打造只有你能打造的东西……现在很多人没有连贯性,没有使命感,他们只是在追逐估值。

60人团队,0融资,4年干到10亿美金:AI数据公司Surge的反硅谷生存法则

📝 创作说明

  • 选题方向: AI基础设施公司的反常识创业方法论
  • 评分: AI相关性 48/50 + 故事性 45/50 + 加分项 19/20 = 总分 112/120
  • 字数: 2487字/2500字
  • 核心价值: 揭秘训练Claude、GPT等模型的幕后公司如何用极端精英主义+拒绝VC的反硅谷打法,4年跑出10亿美金收入

正文内容

60人,0融资,4年10亿美金。

这不是标题党,而是Surge AI的真实数据。而更疯狂的是:他们从第一天就盈利了。

Edwin Chen,35岁左右,Surge AI创始人兼CEO。这个名字你可能没听过,但你用的Claude、GPT-4、Gemini——它们"聪明的那部分",相当一部分要归功于他。

他的公司是所有Frontier AI实验室的"秘密武器":专门教AI模型什么是好、什么是坏。


Edwin的背景很有意思。

他是MIT数学+语言学双料毕业,后来又拿了剑桥统计学硕士。早年在Google和Twitter做机器学习研究员。在Twitter时,他搞了个很火的"Soda vs Pop地图"——用社交数据分析整个美国人到底管汽水叫soda还是pop。

但真正让他出名的,是他在这些大公司工作时的观察:

"我觉得可以裁掉90%的人,公司反而会运转得更快。"

不是因为那90%不努力。而是因为最优秀的人被会议、流程、政治斗争分散了精力。一个10人团队能干的事,被组织成100人团队后,效率反而下降了。

2018年,他决定验证这个假设。


Surge AI的核心冲突,来自一个行业的巨大误解。

当时所有人都在说:"AI需要大量数据。数据越多越好。所以要大量招人标注。"

Edwin认为这完全是错的。

"人们以为可以靠人海战术堆出好数据,这是大错特错。"他在播客里说。"数据质量比数量重要10倍。低质量数据训练出来的模型,就像吃垃圾食品长大的孩子——看着挺大,但不健康。"

问题是,什么算"好数据"?

传统数据标注公司的做法是:列一堆清单,让标注员照着勾选。答案对、格式对、没敏感词——完成。

但Edwin发现,真正决定模型好坏的,是那些没法用清单定义的隐性维度。

比如:你让AI写一封求职邮件。"正确"的版本可能有1000种写法。区分"好"和"很好"的,是语气、节奏、微妙的专业感——这些东西没法用checkbox量化。


转折点出现在2020年。

OpenAI和Anthropic开始大规模训练下一代模型,但遇到了瓶颈:市面上没有能提供"高级数据"的公司。

他们不需要判断"这张图是不是猫"的标注员,他们需要能判断"这个回答是否在过度讨好用户"的专家。

Surge AI恰好就在做这件事。

而且他们的方法非常不一样。


Step 1:不招"劳动力",只招专家

Surge的标注团队不是传统意义上的众包工人。他们招的是各领域的PhD、律师、医生、作家——真正理解"什么是好"的人。

"我们需要的是能判断一个法律回答是否准确的人,而不是能快速勾选checkbox的人。"

他们给这些专家的报酬也不是行业标准的$10-15/小时,而是$50-100/小时。

成本是竞争对手的5倍。但输出质量呢?

"同样100条数据,我们的能让模型进步的幅度,是低质量数据的10倍以上。"

Step 2:杀死清单思维

传统数据标注有个致命问题:清单会让标注员停止思考。

"检查是否有语法错误?✔️" "检查是否有敏感词?✔️" "检查是否符合格式?✔️"

完成。但这份数据到底"好不好"?没人真正思考过。

Surge的做法是:不给清单,只给目标。

让标注员像用户一样使用AI,然后问他们:"这个回答让你满意吗?为什么?"

"人类在做这种主观判断时,会自动考虑几百个隐性维度——这些是任何清单都覆盖不了的。"

Step 3:品味可以训练

Edwin发现了一个反直觉的规律:标注质量最高的人,往往是那些"品味"最好的人。

品味是什么?是你能区分"好"和"很好"的能力。

他们开发了专门的筛选机制:给候选人看一系列AI回答,让他们排序。然后对比他们的排序和顶级专家的排序。

差异越小,品味越好。

"我们发现,品味和学历无关。有些高中辍学的人,品味比博士还好。但品味可以通过训练提升。"

Step 4:60人+ AI杠杆

这是Surge最疯狂的部分:总部只有60-70人,却服务所有Frontier AI实验室。

他们怎么做到的?

答案是:用他们帮别人训练的AI,来提升自己的效率。

"我们有内部工具,可以让一个分析师做10个人的工作量。很多流程都被AI自动化了——包括数据质量检测、异常标注识别、模式提取。"

他们不是人工智能公司的外包商,而是"AI原生"公司。

Step 5:拒绝VC游戏

Edwin的逻辑是:融资会改变你的激励机制。

"一旦你融了1亿美金VC,你的目标就变成了'10亿美金退出'。你会开始做那些能快速冲收入的事,而不是真正对客户好的事。"

Surge从第一天就盈利。他们没有burn rate,没有融资deadline。

"我们可以拒绝不喜欢的客户,可以慢慢打磨产品,可以给员工付最高的薪水。这种自由,是融过资的公司没有的。"


这里面有一个更深的理论:公司的价值观会传导到AI模型

Edwin举了一个例子:

"有一天我用Claude帮我写邮件,来来回回改了30分钟,终于改出了一封'完美'的邮件。发完我才意识到:我花了30分钟干一件完全不重要的事。"

这就是问题所在——

AI可以设计成"无限帮你优化"的模式("你说得对,这封邮件还有20个地方可以改进!"),也可以设计成"真正帮你节省时间"的模式("够好了,发吧,把时间花在更重要的事上")。

选择哪种,取决于训练AI的公司的价值观。

"我越来越担心,很多AI公司在优化'AI slop'——那种让你不停刷、不停互动、但实际没什么价值的内容。就像超市结账台的八卦杂志。"

"我们本可以用AI治愈癌症、解决贫困、理解宇宙。但现在很多模型在优化的是——如何让你在刷手机时多停留5秒钟。"


当然,Surge的打法也有明显的局限性。

适用边界:只适合对质量有极高要求的ToB客户(如AI实验室),不适合需要大规模标注的通用场景。

不适用场景

  • 预算有限的初创公司
  • 需要快速迭代、容错率高的项目
  • 标准化程度高的简单任务(如图像分类)

"我们的服务不便宜。如果你只是需要'差不多'的数据,市面上有更便宜的选择。我们服务的是那些'差不多'会成为致命缺陷的客户。"


Edwin在播客最后说了一句话,我觉得值得记下来:

"我一直觉得,创始人应该做只有他们能做的事——就像他们的人生经历都在为这件事做准备一样。"

60人,4年,10亿美金。

不是因为他们更卷,而是因为他们重新定义了什么叫"好"。