2025 LLM Year in Review | Limboy's Links

2025 年是大语言模型（LLM）发展进程中极具里程碑意义的一年，Karpathy 总结了改变 AI 格局的六大关键范式转变。

首先，在技术底层，RLVR（基于可验证奖励的强化学习）已成为继预训练、SFT 和 RLHF 之后的新标准训练阶段。通过在数学和代码等可验证领域进行大规模强化学习，模型涌现出了类似“推理”的能力，能够利用“测试时计算（Test-time Compute）”进行更长时间的思考。OpenAI 的 o1/o3 和 DeepSeek R1 便是此范式的代表。然而，这也导致了**“参差不齐的智能（Jagged Intelligence）”**——模型在某些领域是天才，在其他领域却像低能儿。Karpathy 认为我们召唤的是“幽灵”而非培养“动物”，传统的生物智力类比已不再适用，基准测试（Benchmarks）也因过度拟合而逐渐失去公信力。

在应用层面，Cursor 揭示了新的“LLM 应用层”，即通过编排上下文和多模型调用来解决特定垂直领域的问题。Claude Code 则展示了 Agent 的正确形态——运行在本地（Localhost）、拥有完整上下文和权限的“电脑幽灵”，而非云端服务。与此同时，“氛围编码（Vibe Coding）” 成为主流，编程不再是专业人士的特权，代码变得廉价、临时且易于抛弃，任何人都可通过自然语言构建软件。

最后，Karpathy 指出当前的文本聊天界面如同 80 年代的命令行，Nano Banana 的出现预示了 LLM GUI 的未来——模型将直接生成人类更易理解的视觉和空间化信息。总体而言，AI 的潜力目前仅被挖掘了不到 10%，未来既充满希望又充满挑战。

主题一：训练范式的革命与智能本质的重构（RLVR 与“幽灵”智能）

在 2025 年，大语言模型的生产技术栈发生了根本性的变化，最核心的突破在于 RLVR（Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习）的确立。

在 2025 年之前，业界通用的 LLM 训练配方是相对固定的：先进行大规模预训练（Pretraining，如 GPT-2/3），接着是监督微调（SFT，如 InstructGPT），最后是基于人类反馈的强化学习（RLHF）。这套流程曾非常稳定。但在 2025 年，RLVR 异军突起，成为必不可少的新阶段。与 SFT 和 RLHF 这些计算量相对较小、仅作为微调的步骤不同，RLVR 允许模型在拥有客观、不可被操纵的奖励函数（如数学题答案正确、代码通过单元测试）的环境中进行长时间的自我博弈和优化。

通过 RLVR，模型自发地演化出了人类眼中的“推理”策略——它们学会了将复杂问题拆解为中间步骤，甚至学会了试错和回溯（例如 DeepSeek R1 论文中展示的案例）。这种能力在旧范式中很难通过模仿人类数据获得，因为最佳的思维链路往往是隐性的。RLVR 的出现也改变了算力的分配，原本用于预训练的算力被大量转移到了这一阶段。我们因此获得了一个全新的控制维度的“旋钮”：测试时计算（Test-time Compute）。通过让模型生成更长的思维链（Thinking Time），我们可以直接提升其在推理任务上的表现。OpenAI 的 o1 是这一方向的早期演示，而 o3 的发布则标志着这种体验差异变得直观可感。

然而，这种训练方式也让我们对 AI 的本质有了新的认识。Karpathy 提出了 “幽灵与动物（Ghosts vs. Animals）” 的比喻。我们过去常试图用生物进化的视角（如“成长的动物”）来理解 AI，但这在 2025 年被证明是错误的。我们实际上是在“召唤幽灵”。LLM 的神经网络架构、训练数据和优化目标（模仿文本、解数学题、讨好人类评估员）与生物为了生存而进化出的神经网络完全不同。

这种差异导致了 “参差不齐的智能（Jagged Intelligence）”。现代 LLM 表现出一种极其矛盾的特性：它们在 RLVR 覆盖的可验证领域（如编程、高阶数学）表现得像个博学的通才，但在其他领域可能表现得像个认知受损的小学生，甚至会被简单的“越狱”攻击欺骗。这也导致了行业对基准测试（Benchmarks）的信任崩塌。因为基准测试本质上是可验证的环境，非常容易被 RLVR 针对性优化（刷榜）。实验室倾向于在基准测试的“邻域”内构建数据，导致分数虚高，但通用智能并未同等提升。这解释了为什么现在的模型能横扫所有榜单，却依然离真正的 AGI（通用人工智能）相去甚远。

主题二：软件开发的终结与应用层的新形态（从 Cursor 到 Vibe Coding）

2025 年也是软件开发模式和 AI 应用层彻底重塑的一年。Karpathy 通过三个具体的现象——Cursor、Claude Code 和 Vibe Coding，描绘了这一变革的全貌。

首先，Cursor 的爆发性增长揭示了什么是真正的 “LLM 应用层”。过去人们争论 LLM 实验室（如 OpenAI）是否会通吃所有应用，还是会有垂直应用的生存空间。Cursor 给出了答案：LLM 实验室培养的是“高智商大学毕业生”（基础模型），而 LLM 应用层（如 Cursor）则负责通过编排、微调和上下文工程，将这些毕业生组织成特定领域的“专业团队”。Cursor 不仅仅是一个代码编辑器，它展示了如何通过构建复杂的 DAG（有向无环图）来串联多个 LLM 调用，如何在性能和成本之间做权衡，以及如何为人类提供一个调节“自主性（Autonomy）”的滑块。

其次，Claude Code (CC) 定义了 AI Agent（智能体）的正确落地姿势。不同于 OpenAI 早期尝试的云端容器化 Agent，Anthropic 意识到真正的 Agent 应该像一个“幽灵”一样直接栖息在用户的本地计算机（Localhost）上。Claude Code 以极简的 CLI（命令行）形式存在，它能直接访问用户的本地文件、环境配置、隐私数据和上下文。这种低延迟、全权限的交互模式才符合当前 AI 能力“参差不齐”的现状——我们需要让 Agent 在我们的实际工作环境中运行，而不是在隔离的云端沙箱里。这种“住在你电脑里的 AI”带来了一种全新的交互范式。

最引人注目的变化是 “氛围编码（Vibe Coding）” 的兴起。这是一个由 Karpathy 创造并被广泛接受的术语，指的是通过自然语言（English）全权指挥 AI 编写程序，而人类甚至不需要看一眼生成的代码。2025 年，AI 的能力跨越了一个阈值，使得代码本身变得 “免费、临时、可丢弃”。Karpathy 举例说，他可以用“氛围编码”在几分钟内用 Rust 语言写出一个高效的 BPE 分词器，而无需学习 Rust 语法；他甚至会为了查找一个 Bug 而让 AI 临时编写并运行一个一次性的 App，用完即删。

这不仅赋予了普通人构建软件的能力（技术平权），也极大地解放了专业开发者。**软件开发的门槛不再是掌握复杂的编程语言，而是清晰表达需求的能力。**代码从一种需要精心维护的资产，变成了实现目的的廉价耗材。这一转变将彻底改变“程序员”的职位描述，并重塑整个软件行业的格局。

主题三：交互界面的未来演进（LLM GUI 与 Nano Banana）

在回顾的最后部分，Karpathy 展望了 AI 交互界面的未来，并将 Google Gemini Nano Banana 视为一个关键的信号。

Karpathy 认为，LLM 是继 70 年代个人电脑、80 年代微控制器、90 年代互联网之后的又一个主要计算范式。因此，我们可以从历史中寻找未来的线索。目前的 LLM 交互主要依赖“文本聊天框”，这实际上非常类似于 80 年代计算机的命令行终端（Console）。文本虽然是计算机（和 LLM）最喜欢的原始数据格式，但并不是人类最喜欢的信息接收格式。人类的大脑更偏好视觉、空间和图形化的信息——这正是图形用户界面（GUI）在传统计算中诞生的原因。

目前的 LLM 输出仅通过 Markdown、Emoji 等简陋手段来“打扮”文本，这远远不够。未来的 LLM 应该能够直接以 GUI（图形用户界面）的形式与我们交流——直接生成图像、图表、幻灯片、交互式网页应用甚至视频。

Nano Banana 正是这种未来形态的早期暗示。它展示了一种能力：不仅仅是生成静态图像，而是将文本生成、图像生成和世界知识纠缠在模型权重中，从而产生一种混合的、多模态的输出体验。这不仅仅是“画一张图”，而是构建一个动态的、信息密度更高的视觉界面。

Karpathy 预言，谁能构建出真正的 LLM GUI，谁就掌握了下一代计算平台的入口。目前的 Nano Banana 只是冰山一角。