Speak 创始人访谈:从 Thiel Fellow 到韩国国民级 AI 英语私教的诞生
AI ProductsAI Business

Speak 创始人访谈:从 Thiel Fellow 到韩国国民级 AI 英语私教的诞生

A
Andrew Hsu
2025年7月12日YouTube
返回首页

金句精选

我们当时非常确信,语音模型和语言模型都在飞速发展,在 5 到 10 年内,它们将超越人类能力。我们坚信这一未来,这就是 Speak 的起源。

Duolingo 就像是语言学习的第二代产品(移动游戏化),而我们要建立的是第三代:AI 原生、专注于功能性流利度。我们不教死记硬背的词汇和语法,而是通过高强度的句型重复练习,让你像在健身房锻炼肌肉一样掌握语言。

如果我们能在一个充满人类竞品且极度重视流利度的市场(韩国)中突围并获胜,那就证明我们拥有真正强大的产品市场契合度(PMF),从而能够赢得其他市场。

人们学习语言是为了提升自我,是为了与他人建立连接,是为了能看着对方的眼睛交流。这是实时翻译工具永远无法替代的人性化体验。

[深度复盘] 硅谷天才的5年绝望与重生:如何靠AI在韩国卷出5000万美金ARR?

📝 创作说明

  • 选题方向: AI产品逆势突围与PMF(产品市场契合)探索
  • 评分: AI相关性 45/50 + 故事性 48/50 + 加分项 15/20 = 总分 108/120
  • 字数: 2350/2000字
  • 核心价值: 揭示了一个反直觉的AI创业案例——在红海市场(韩国英语教育)中,如何利用AI技术差异化(低延迟语音模型+LLM角色扮演)击败传统巨头,实现从0到5000万美金ARR的跨越。

正文内容

你可能听说过“长期主义”,但你见过在绝望中坚持了整整5年,甚至把产品彻底推翻重做,最后靠死磕AI技术翻盘的故事吗?

今天的主角Andrew Hsu,他的公司Speak刚刚拿下了5000万美金以上的ARR(年度经常性收入)。更夸张的是,在只有5000万人口的韩国,竟然有6%的国民都试用过他们的产品。

但你绝对想不到,在这一连串耀眼的数据背后,是长达5年的至暗时刻。

他们不是那种“一夜爆红”的AI套壳应用。早在ChatGPT诞生前的2016年,他们就押注AI语音,结果做出来的第一版App(内部代号“Red App”)惨遭滑铁卢——免费都没人以后。

从硅谷的天才少年,到在韩国街头打广告的“外来和尚”,再到如今AI教育赛道的独角兽。这不仅仅是一个商业故事,更是一场关于**“如何用AI技术重塑古老行业”**的教科书级实战。

如果你正在做AI应用,或者在寻找产品的PMF(市场契合点),这篇文章里的每一个转折点,都值得你反复咀嚼。


19岁辍学的泰尔学者

把时间倒回到2011年。

Andrew Hsu不是普通人。这一年,他才19岁,就已经从斯坦福的博士项目中退学了。

为什么退学?因为他拿到了硅谷最著名的“泰尔奖学金”(Thiel Fellowship)。彼得·泰尔(Peter Thiel)给这群20岁以下的年轻人每人发10万美金,条件只有一个:别上学了,去创业。

和他同期的校友是谁?是以太坊创始人Vitalik Buterin,是Figma的创始人Dylan Field。

在这种顶级的圈子里,Andrew的起点极高。2016年,他和联合创始人看到了一波巨大的技术浪潮:深度学习正在改变语音识别(ASR)和语言模型(LLM)。

他们当时的判断极其精准:“未来的5到10年,AI在语音和语言理解上将达到‘超人’(Superhuman)的水平。如果是这样,我们就能造出一个纯AI的语言老师,完全取代人类私教。”

这个愿景听起来是不是很熟悉?没错,这就是今天所有AI教育公司在讲的故事。但问题是,他们早了整整7年。


硅谷的“死亡谷”:5年找不到PMF

愿景很丰满,现实却给了他们一记响亮的耳光。

从2016年到2021年,Andrew形容这几年是“极度痛苦”(Very painful)。

他们做出了第一版产品——“Red App”。这是一个大杂烩:

  • 支持多种语言学习;
  • 只有内容包,没有系统课程;
  • 完全免费

结果呢?根本没人用。用户打开App,不知道该学什么,点两下就关掉了。虽然免费,但��存率惨不忍睹。

团队陷入了恐慌。他们在旧金山的办公室里,看着账上的钱一点点烧光,却找不到任何增长的抓手。

最致命的冲突在于:技术很酷,但产品没用。

他们手握当时最先进的语音技术理念,却不知道怎么把它变成用户愿意买单的商品。那是AI创业者的“死亡谷”——你手里拿着锤子(AI技术),却满世界找不到钉子(刚需场景)。

甚至在2018年,他们不得不做出了一个极其艰难的决定:把之前的代码和内容,全部删掉,推倒重来。


惊天转折:杀入韩国红海

2018年,Andrew做出了两个反直觉的决定,直接改变了公司的命运。

决策一:放弃全球市场,死磕韩国。 这听起来很疯狂。韩国是全球英语教育竞争最激烈的“红海”。那里有数不清的补习班(Hagwons)、外教一对一、还有从早学到晚的卷王学生。一个美国团队,凭什么去跟地头蛇抢饭碗?

Andrew的逻辑是:如果不去竞争最激烈的地方,怎么证明你的AI比真人强? 只有在最在乎英语流利度的人群中,如果AI能赢过真人外教,那才是真正的PMF。

决策二:砍掉免费版,直接收费。 他们发现,免费用户根本没有学习动力。敢直接收费,才能筛选出那些真正想学好英语的“高价值用户”。

在这个转折点上,AI技术终于找到了它的切入点。他们不再做“好玩的App”,而是要做一个**“AI健身房”**。


方法论拆解:AI如何重塑语言学习(3大核心策略)

Speak之所以能成功,不是因为他们“用了AI”,而是因为他们**“重构了AI的使用方式”**。以下是他们打磨了5年的核心方法论:

第一步:建立“超低延迟”的反馈闭环(技术壁垒)

在ChatGPT出现之前,Speak就已经在死磕**语音识别(ASR)**了。

为什么?因为语言学习的本质是开口说

市面上的翻译软件或竞品,最大的问题是“慢”。你说一句话,云端转圈圈3秒钟,再给你反馈。这种体验是毁灭性的,根本没法建立对话的流利感。

Speak自研了端到端的语音识别模型。

  • 数据来源:利用韩国用户海量的非母语英语(Chinglish/Konglish)数据进行微调。
  • 核心指标:极致的响应速度。

这让用户感觉不是在跟机器交互,而是在跟人对话。你刚说完,AI立马就能识别并给出反馈。这种毫秒级的差异,是留住用户的关键。

第二步:用LLM打造“魔法开场”(Magic Onboarding)

2022年,GPT-3.5和Whisper横空出世,Speak立刻抓住了这个机会,彻底改造了用户的**“第一印象”**。

传统的App注册流程是什么?

  1. 填名字
  2. 选年龄
  3. 选目标(旅游/工作)
  4. 进入主页

这种填表式的体验太冷冰冰了。Speak开发了**“Magic Onboarding”**功能。

当你下载App后,迎接你的不是表单,而是一个AI Tutor。它会直接用自然语言跟你聊天:

“嘿,听说你想学英语?是为了工作晋升,还是想去旅行?跟我聊聊你的困扰吧。”

在这个过程中,AI在后台疯狂运转:

  • 实时分析你的口语水平(词汇量、语法错误、发音问题)。
  • 提取意图,把你杂乱的回答总结成结构化的用户画像。
  • 生成定制课程,直接把你推送到最适合你的学习路径上。

虽然这背后其实是一个复杂的“状态机”(State Machine)在控制流程,但在用户看来,这就是一个懂你的真人老师。

数据显示,虽然这种对话式注册增加了门槛,导致注册率略有下降,但**试用开启率(Trial Start Rate)**却大幅提升。因为用户在注册的那一刻,就已经体验到了AI的强大。

第三步:场景化角色扮演(Roleplay)与纠错

这是Speak的杀手锏。他们不教你背单词(那是多邻国的事),他们教你**“生存”**。

利用LLM的生成能力,Speak设计了无数个具体的**Roleplay(角色扮演)**场景:

  • 你要跟洛杉矶的Uber司机确认下车地点。
  • 你要在餐厅跟服务员解释你对花生过敏。
  • 你要在海关回答移民官的刁钻问题。

在这些场景中,AI不是死板地念剧本。它会根据你的回答,动态生成下一句对话。

更绝的是反馈机制。 当你结结巴巴说完一句:“I want go home now.” AI不会只说“Correct”,它会告诉你:

“这句话别人能听懂,但有点生硬。地道的说法是:‘I'm heading home now’ 或者 ‘I think I'm gonna take off’。”

这种**“语用学反馈”**(Pragmatic Feedback),以前只有每小时50美金的真人外教才能提供。现在,Speak用AI把成本降到了几乎为零。


理论升华:语言学习的“第三代革命”

Andrew提出了一个非常精彩的行业划分理论,直接点破了Speak的定位:

  • 第一代(Gen 1):光盘时代。 代表是Rosetta Stone。你在机场买几张光盘,回家对着电脑死记硬背。这是数字化,但没有交互。

  • 第二代(Gen 2):移动游戏化时代。 代表是Duolingo(多邻国)。把学习变成游戏,填空、连线、攒积分。它的核心是“Engagement”(参与度),让你觉得自己在学,但其实你很难真的开口说。

  • 第三代(Gen 3):AI原生时代。 这就是Speak在做的事。核心是**“Functional Fluency”(功能性流利)。 不追求好玩,追求高强度的重复训练**(Drilling)。就像在健身房举铁一样,利用AI不知疲倦的特性,逼着你把句式练成肌肉记忆。

AI让“私教平权”成为了可能。 以前只有富人请得起陪练,现在只要你是AI原住民,你就能拥有一个随叫随到的口语教练。


局限性提醒:AI不是万能药

当然,Speak的模式也不是完美的,Andrew在访谈中也非常诚实地提到了局限性:

  1. 内容制作的重运营:虽然AI能生成对话,但核心的教学法(Speak Method)仍然需要专业的人类教研团队来设计。他们没法像纯平台那样瞬间扩张到100种语言,每一种语言都需要深度的本地化打磨。
  2. 实时翻译的幻觉:很多人问,既然有Google实时翻译耳机,还需要学英语吗?Andrew的回答很犀利:翻译是工具,语言是连接。 而且从技术上讲,实时翻译永远有延迟(比如德语动词在句尾,AI必须听完整个句子才能翻译),这种延迟会毁掉人与人之间眼神交流的瞬间。
  3. 学习的痛苦:Speak不是游戏。它需要用户真的开口说,这本身就是一种高摩擦的行为。对于只想“假装学习”的人来说,多邻国可能更适合。

金句收尾

Andrew的故事告诉我们,AI创业最忌讳的就是“拿着锤子找钉子”。

他们花了5年时间,才明白AI不应该只是一个炫技的Feature,而应该是解决用户**“不敢开口、没钱请私教、得不到实时反馈”**这三大痛点的唯一解药。

正如他在采访最后所说:

“我们打赌,在这个世界上,人们学习语言不仅仅是为了传递信息,更是为了看着对方的眼睛,建立真正的连接。只要这种需求还在,AI就是最好的助推器,而不是替代者。”

现在的你,是准备用AI做一个好玩的玩具,还是准备像Speak一样,去解决一个哪怕很痛苦、但极其真实的刚需?