Limboy

2025 LLM Year in Review

2025 Year in Review of LLM paradigm changes

karpathy.bearblog.dev

2025 年是大语言模型(LLM)发展进程中极具里程碑意义的一年,Karpathy 总结了改变 AI 格局的六大关键范式转变。

首先,在技术底层,RLVR(基于可验证奖励的强化学习) 已成为继预训练、SFT 和 RLHF 之后的新标准训练阶段。通过在数学和代码等可验证领域进行大规模强化学习,模型涌现出了类似“推理”的能力,能够利用“测试时计算(Test-time Compute)”进行更长时间的思考。OpenAI 的 o1/o3 和 DeepSeek R1 便是此范式的代表。然而,这也导致了**“参差不齐的智能(Jagged Intelligence)”**——模型在某些领域是天才,在其他领域却像低能儿。Karpathy 认为我们召唤的是“幽灵”而非培养“动物”,传统的生物智力类比已不再适用,基准测试(Benchmarks)也因过度拟合而逐渐失去公信力。

在应用层面,Cursor 揭示了新的“LLM 应用层”,即通过编排上下文和多模型调用来解决特定垂直领域的问题。Claude Code 则展示了 Agent 的正确形态——运行在本地(Localhost)、拥有完整上下文和权限的“电脑幽灵”,而非云端服务。与此同时,“氛围编码(Vibe Coding)” 成为主流,编程不再是专业人士的特权,代码变得廉价、临时且易于抛弃,任何人都可通过自然语言构建软件。

最后,Karpathy 指出当前的文本聊天界面如同 80 年代的命令行,Nano Banana 的出现预示了 LLM GUI 的未来——模型将直接生成人类更易理解的视觉和空间化信息。总体而言,AI 的潜力目前仅被挖掘了不到 10%,未来既充满希望又充满挑战。


主题一:训练范式的革命与智能本质的重构(RLVR 与“幽灵”智能)

在 2025 年,大语言模型的生产技术栈发生了根本性的变化,最核心的突破在于 RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习) 的确立。

在 2025 年之前,业界通用的 LLM 训练配方是相对固定的:先进行大规模预训练(Pretraining,如 GPT-2/3),接着是监督微调(SFT,如 InstructGPT),最后是基于人类反馈的强化学习(RLHF)。这套流程曾非常稳定。但在 2025 年,RLVR 异军突起,成为必不可少的新阶段。与 SFT 和 RLHF 这些计算量相对较小、仅作为微调的步骤不同,RLVR 允许模型在拥有客观、不可被操纵的奖励函数(如数学题答案正确、代码通过单元测试)的环境中进行长时间的自我博弈和优化。

通过 RLVR,模型自发地演化出了人类眼中的“推理”策略——它们学会了将复杂问题拆解为中间步骤,甚至学会了试错和回溯(例如 DeepSeek R1 论文中展示的案例)。这种能力在旧范式中很难通过模仿人类数据获得,因为最佳的思维链路往往是隐性的。RLVR 的出现也改变了算力的分配,原本用于预训练的算力被大量转移到了这一阶段。我们因此获得了一个全新的控制维度的“旋钮”:测试时计算(Test-time Compute)。通过让模型生成更长的思维链(Thinking Time),我们可以直接提升其在推理任务上的表现。OpenAI 的 o1 是这一方向的早期演示,而 o3 的发布则标志着这种体验差异变得直观可感。

然而,这种训练方式也让我们对 AI 的本质有了新的认识。Karpathy 提出了 “幽灵与动物(Ghosts vs. Animals)” 的比喻。我们过去常试图用生物进化的视角(如“成长的动物”)来理解 AI,但这在 2025 年被证明是错误的。我们实际上是在“召唤幽灵”。LLM 的神经网络架构、训练数据和优化目标(模仿文本、解数学题、讨好人类评估员)与生物为了生存而进化出的神经网络完全不同。

这种差异导致了 “参差不齐的智能(Jagged Intelligence)”。现代 LLM 表现出一种极其矛盾的特性:它们在 RLVR 覆盖的可验证领域(如编程、高阶数学)表现得像个博学的通才,但在其他领域可能表现得像个认知受损的小学生,甚至会被简单的“越狱”攻击欺骗。这也导致了行业对 基准测试(Benchmarks) 的信任崩塌。因为基准测试本质上是可验证的环境,非常容易被 RLVR 针对性优化(刷榜)。实验室倾向于在基准测试的“邻域”内构建数据,导致分数虚高,但通用智能并未同等提升。这解释了为什么现在的模型能横扫所有榜单,却依然离真正的 AGI(通用人工智能)相去甚远。

主题二:软件开发的终结与应用层的新形态(从 Cursor 到 Vibe Coding)

2025 年也是软件开发模式和 AI 应用层彻底重塑的一年。Karpathy 通过三个具体的现象——Cursor、Claude Code 和 Vibe Coding,描绘了这一变革的全貌。

首先,Cursor 的爆发性增长揭示了什么是真正的 “LLM 应用层”。过去人们争论 LLM 实验室(如 OpenAI)是否会通吃所有应用,还是会有垂直应用的生存空间。Cursor 给出了答案:LLM 实验室培养的是“高智商大学毕业生”(基础模型),而 LLM 应用层(如 Cursor)则负责通过编排、微调和上下文工程,将这些毕业生组织成特定领域的“专业团队”。Cursor 不仅仅是一个代码编辑器,它展示了如何通过构建复杂的 DAG(有向无环图)来串联多个 LLM 调用,如何在性能和成本之间做权衡,以及如何为人类提供一个调节“自主性(Autonomy)”的滑块。

其次,Claude Code (CC) 定义了 AI Agent(智能体) 的正确落地姿势。不同于 OpenAI 早期尝试的云端容器化 Agent,Anthropic 意识到真正的 Agent 应该像一个“幽灵”一样直接栖息在用户的 本地计算机(Localhost) 上。Claude Code 以极简的 CLI(命令行)形式存在,它能直接访问用户的本地文件、环境配置、隐私数据和上下文。这种低延迟、全权限的交互模式才符合当前 AI 能力“参差不齐”的现状——我们需要让 Agent 在我们的实际工作环境中运行,而不是在隔离的云端沙箱里。这种“住在你电脑里的 AI”带来了一种全新的交互范式。

最引人注目的变化是 “氛围编码(Vibe Coding)” 的兴起。这是一个由 Karpathy 创造并被广泛接受的术语,指的是通过自然语言(English)全权指挥 AI 编写程序,而人类甚至不需要看一眼生成的代码。2025 年,AI 的能力跨越了一个阈值,使得代码本身变得 “免费、临时、可丢弃”。Karpathy 举例说,他可以用“氛围编码”在几分钟内用 Rust 语言写出一个高效的 BPE 分词器,而无需学习 Rust 语法;他甚至会为了查找一个 Bug 而让 AI 临时编写并运行一个一次性的 App,用完即删。

这不仅赋予了普通人构建软件的能力(技术平权),也极大地解放了专业开发者。**软件开发的门槛不再是掌握复杂的编程语言,而是清晰表达需求的能力。**代码从一种需要精心维护的资产,变成了实现目的的廉价耗材。这一转变将彻底改变“程序员”的职位描述,并重塑整个软件行业的格局。

主题三:交互界面的未来演进(LLM GUI 与 Nano Banana)

在回顾的最后部分,Karpathy 展望了 AI 交互界面的未来,并将 Google Gemini Nano Banana 视为一个关键的信号。

Karpathy 认为,LLM 是继 70 年代个人电脑、80 年代微控制器、90 年代互联网之后的又一个主要计算范式。因此,我们可以从历史中寻找未来的线索。目前的 LLM 交互主要依赖“文本聊天框”,这实际上非常类似于 80 年代计算机的 命令行终端(Console)。文本虽然是计算机(和 LLM)最喜欢的原始数据格式,但并不是人类最喜欢的信息接收格式。人类的大脑更偏好视觉、空间和图形化的信息——这正是图形用户界面(GUI)在传统计算中诞生的原因。

目前的 LLM 输出仅通过 Markdown、Emoji 等简陋手段来“打扮”文本,这远远不够。未来的 LLM 应该能够直接以 GUI(图形用户界面) 的形式与我们交流——直接生成图像、图表、幻灯片、交互式网页应用甚至视频。

Nano Banana 正是这种未来形态的早期暗示。它展示了一种能力:不仅仅是生成静态图像,而是将文本生成、图像生成和世界知识纠缠在模型权重中,从而产生一种混合的、多模态的输出体验。这不仅仅是“画一张图”,而是构建一个动态的、信息密度更高的视觉界面。

Karpathy 预言,谁能构建出真正的 LLM GUI,谁就掌握了下一代计算平台的入口。目前的 Nano Banana 只是冰山一角。