Andrej Karpathy 硬核拆解:ChatGPT 与大语言模型背后的原理
AI Principles

Andrej Karpathy 硬核拆解:ChatGPT 与大语言模型背后的原理

A
Andrej Karpathy
2025年2月6日YouTube
返回首页

金句精选

我希望通过这个视频给你一个心理模型,让你思考这到底是什么。虽然这个工具看起来具有神奇的魔力,但我们需要去除这种神秘感,真正理解它擅长什么、不擅长什么。

实际上最终只有大约 44TB 的数据。尽管互联网非常庞大,但在积极过滤后,训练大模型所需的高质量文本数据其实可以装进今天的一个硬盘里。

序列长度是一种非常有限且宝贵的资源。我们不希望只有 0 和 1 两个符号,我们希望在词汇表大小和序列长度之间进行权衡,这就是 Tokenization(分词)存在的意义。

把这数十亿个参数想象成 DJ 台上的旋钮。训练神经网络实际上就是找到一组参数设置,使得模型的预测与训练集中的统计规律相一致。

你可以粗略地将 Transformer 视为一种“合成脑组织”。虽然它没有生物神经元的记忆和复杂动态,但它是一个通过参数化数学函数来处理信息的结构。

[深度拆解:揭秘ChatGPT背后的44TB数据炼金术与“下一个词”的概率游戏]

📝 创作说明

  • 选题方向: [LLM底层原理深度祛魅:从数据清洗到概率预测]
  • 评分: AI相关性 50/50 + 故事性 35/50 + 加分项 15/20 = 总分 100/120
  • 字数: 2150/2000字
  • 核心价值: 借由Andrej Karpathy(OpenAI创始成员)的视角,用极致通俗的语言和精确的数据,拆解大模型“看似智能实则概率”的本质,打破技术黑盒,帮助读者理解Prompt背后的运行逻辑。

正文内容

你坐在电脑前,对着ChatGPT闪烁的光标,敲下一行字,按下回车。几秒钟后,屏幕上涌现出一段逻辑严密、语气自然的回复。

这一刻,你是不是觉得屏幕对面坐着一个“人”?或者至少,是一个拥有某种神秘智慧的大脑?

错觉。这全是错觉。

Andrej Karpathy,这位曾经的OpenAI创始成员、特斯拉AI总监,在他的深度分享中,亲手撕下了这层“魔法”的外衣。他把这个被神化的AI拉下神坛,拆解成了一堆硬盘、一串代码和一个简单的数学游戏。

如果你以为这里面有什么难以理解的量子物理,那就大错特错了。真相往往朴素得让你不敢相信:你眼中的“智能”,本质上只是一场规模宏大的“文字接龙”。

但这场接龙的规模,大到了让你颤抖的地步——它吞噬了整个互联网。

主角背景:那个拆解魔法的“代码巫师”

Andrej Karpathy,在这个AI圈子里,他的名字就是一块金字招牌。

他不是那种坐在象牙塔里写论文的教授,他是真正把手弄脏、在代码泥潭里打滚的实战派。从斯坦福的讲台到特斯拉的自动驾驶,再到OpenAI的核心团队,他一直站在AI浪潮的最前沿。

在这个视频里,他不像一个高高在上的专家,更像是一个带你潜入后台的魔术师助手。他没有穿西装,背景也不是什么高科技实验室,就是简单的屏幕录制,一行行代码,一张张图表。

但他接下来展示的内容,却不仅是对ChatGPT原理的解释,更是一场认知的“暴力破解”。他要告诉你:别被那些媒体的炒作吓住了,只要你会算概率,你就能理解现在的AI。

核心冲突:44TB的混沌与“智能”的假象

我们面临的最大困惑是什么?

是“黑盒”。

我们每天都在用ChatGPT,用Claude,用Gemini。我们知道输入什么,也知道会输出什么,但中间发生了什么?完全是两眼一抹黑。

这种无知带来了两个极端的后果:要么把它当成全知全能的神,盲目信任它的每一个字;要么把它当成只会胡说八道的傻子,因为它偶尔会信誓旦旦地告诉你“林黛玉倒拔垂杨柳”。

Karpathy指出了这个矛盾的核心:大模型并不是在“思考”,它只是在“模仿”。

它没有记忆,没有情感,甚至不知道自己在说什么。它所做的一切,就是基于它看过的海量数据,猜测下一个最可能出现的符号是什么。

这就好比一个从未学过中文的外国人,背下了几亿本中文书。你问他问题,他能根据统计规律拼凑出答案,但他根本不知道那些方块字代表什么意思。

这听起来很荒谬,对吧?但这正是我们要揭开的谜底。

转折点:当“Hello World”变成数字ID

转折发生在一个看似不起眼的瞬间。

Karpathy打开了一个名为“Tiktokenizer”的工具网页。他在左边的框里输入了程序员最熟悉的两个单词:“Hello World”。

你会觉得,AI看到的应该是H-e-l-l-o这个单词吧?

不。

在右边的框里,出现了两个数字:153391917

这就是真相被揭开的第一角。在AI的眼里,没有莎士比亚的诗句,没有爱因斯坦的公式,也没有你深情的告白。有的只是一个个冷冰冰的数字ID。

这一刻,AI的神秘面纱开始瓦解。它不是在理解语言,它是在处理数列。这不仅仅是技术上的转折,更是认知的转折——我们终于找到了那把通往黑盒内部的钥匙。


方法论拆解:从互联网垃圾到智能模型的四步炼金术

Karpathy把这个复杂的“炼金”过程,拆解成了极其清晰的四个步骤。只要你跟着走一遍,你对AI的理解将瞬间超越99%的人。

第一步:吞噬互联网(Pre-training Data)

一切的起点,是数据。而且是海量的数据。

Karpathy提到了一个名为“Common Crawl”的项目。这帮人从2007年开始就在干一件事:疯狂地爬取互联网上的每一个网页。

到了2024年,他们已经索引了27亿个网页

想象一下,这是一个包含了人类几乎所有公开知识的图书馆。但是,这个图书馆里不仅有经典名著,还有无数的垃圾广告、色情网站、乱码和只有一句话的废弃博客。

如果直接把这些喂给AI,你训练出来的就是一个满嘴脏话、只会发垃圾邮件的疯子。

所以,必须进行清洗。

第二步:残酷的过滤(Filtering)

这是最关键,也最容易被忽视的一步。Karpathy展示了FineWeb数据集的处理流程,堪称“数据屠杀”。

  1. URL过滤:先把那些已知的恶意软件网站、成人网站、营销垃圾站的域名全部拉黑。
  2. 文本提取:网页里全是HTML代码、CSS样式、JavaScript脚本。AI不需要这些,它只需要纯文本。电脑必须像剥洋葱一样,把这些代码层层剥离,只留下人类能读懂的文字。
  3. 语言过滤:这一点非常反直觉。FineWeb数据集为了保证质量,设置了一个硬指标——65%以上的英语内容。如果一个网页里英语含量不够,直接扔掉。这就是为什么早期的模型英语很好,但西班牙语或中文就很烂的原因,因为数据源头就被截断了。

经过这一轮轮的清洗,原本浩如烟海的互联网数据,最终被压缩到了44TB

别小看这44TB。Karpathy打了个比方,你现在去买个硬盘,几百块钱就能装下整个ChatGPT“大脑”的原始素材。但这44TB里,包含了**15万亿(15 Trillion)**个Token。

第三步:Token化(Tokenization)

数据准备好了,但这只是纯文本。正如前面提到的,神经网络不吃文本,它只吃数字。

这里用到的工具叫Tokenizer

它的工作原理是“字节对编码”(Byte Pair Encoding)。听起来很高级,其实逻辑很简单:找规律,省空间

比如,“ing”这个后缀在英语里出现得极其频繁。与其每次都用i-n-g三个符号来表示,不如干脆给“ing”造一个专属的符号,比如ID号998。

Karpathy展示了GPT-4的词汇表大小:100,277个符号

这就好比AI有一本字典,但这本字典里只有10万个“字”。这10万个字,排列组合,构成了人类所有的语言。

在这个阶段,原本的44TB文本,被转换成了一串长得望不到头的数字序列。

第四步:神经网络的概率游戏(Training)

最硬核的部分来了。

我们有了这串长达15万亿的数字序列。现在,我们要训练一个神经网络来“模仿”它。

Karpathy用了一个绝妙的比喻:把神经网络想象成一个拥有几百亿个旋钮的DJ控制台。

这些旋钮,就是我们常说的“参数”(Parameters)。

训练的过程是这样的:

  1. 从那15万亿个数字里,随机截取一个片段,比如4个数字:[11, 256, 998, ?]。
  2. 把这3个数字扔进神经网络。
  3. 神经网络一开始是懵的,它的旋钮是随机乱拧的,所以它瞎猜下一个数字是“5”。
  4. 但是,我们手握标准答案(训练数据),我们知道下一个数字其实是“886”。
  5. 于是,我们告诉神经网络:“你猜错了,应该是886。”
  6. 根据这个误差,我们微调那几百亿个旋钮,让它下次猜“886”的概率稍微高那么一点点。

这个过程,在数千张顶级显卡上,并行重复了万亿次

直到最后,这个神经网络练成了一项神技:只要你给它几个词,它就能极其精准地预测出下一个词的概率分布

注意,是概率,不是确定的答案。

Karpathy展示了一张图:当输入“Hello World”后,模型可能会预测下一个词是“!”的概率是4%,是“Again”的概率是2%。

这就是为什么ChatGPT有时候会胡说八道。因为它只是在掷骰子,选择概率比较高的那个词而已。


理论升华:压缩即智能

听到这里,你可能会有一种幻灭感:原来这就是AI?这就是所谓的通用人工智能?不过是高级一点的统计学罢了?

但Karpathy引用了一个非常经典的理论视角:压缩即智能(Compression is Intelligence)。

想一想,那个44TB的数据集,甚至整个互联网的知识,最终被压缩进了一个几百GB的模型文件里。

这就好比你读了一万本书,你不可能背下每一个字。但你理解了书里的逻辑、情感和规律。当你开口说话时,你不是在背书,你是在调用这些“被压缩的规律”。

ChatGPT也是一样。它丢弃了原始数据(所以它没有真正的记忆),但它留下了数据之间的统计规律

这种对规律的极致压缩,也许就是我们人类所说的“理解”的雏形。

局限性提醒:它没有脑子,只有状态

虽然这套机制很强大,但Karpathy也极其诚实地指出了它的致命弱点。

这个神经网络是**无状态(Stateless)**的。

什么意思?就是它不像你的大脑,有连续的意识流。每一次你输入Prompt,对它来说都是一次全新的计算。它不记得上一秒发生了什么,除非你把上文作为输入再次喂给它。

而且,它是一个固定的数学表达式。输入确定,参数确定(如果不考虑随机温度),输出的概率分布就是确定的。它没有“灵光一闪”,没有“潜意识”,更没有“灵魂”。

它只是一个在10万个维度空间里,不断寻找最优路径的数学函数。

金句收尾

当你下次再看到ChatGPT生成一段惊艳的文案时,别把它当成神。

请记住Andrej Karpathy展示的那个黑底绿字的终端界面。

在那里面,没有魔法,只有44TB被清洗过的互联网记忆,被10万个Token ID重新编码,在数千亿个参数的缝隙中,计算着下一个字出现的概率

看清了这一点,你就不会再被AI奴役,而是真正懂得如何去驾驭这个用数学堆砌起来的“数字大脑”。