Shipping at Inference-Speed

这里是对 Peter Steinberger 的文章《Shipping at Inference-Speed》（以推理速度交付）的详细分析。这篇文章发布于 2025 年 12 月 28 日，反映了作者在 GPT-5 和新一代 AI 编码代理（Codex）发布后的开发工作流变革。

摘要

本文详细阐述了作者 Peter Steinberger 在 2025 年下半年利用 AI 代理（特别是 GPT-5 和 Codex）彻底重塑软件开发流程的经验。核心观点在于，开发效率不再受限于手动编写代码的速度，而是受限于模型的“推理速度”（Inference Speed）和人的深度思考。

作者指出，自 2025 年 5 月以来，“Vibe Coding”（感觉流编程）已成常态。他不再逐行阅读代码，而是像监督流水线一样看着代码生成，仅关注架构和关键组件。他比较了 Codex 和 Claude Opus 的差异：Codex 擅长通过长时间的“静默阅读”来理解大型代码库并进行大规模重构，而 Opus 则更适合快速的小型修改。

文章还介绍了作者的“线性迭代”工作流：不依赖复杂的规划模式（Plan Mode）或版本回滚，而是通过持续对话、跨项目引用（让 AI 参考其他项目的代码）和视觉提示（截图）来推进项目。他在基础设施上采用了双 Mac 设备（MacBook Pro + Mac Studio）和 CLI 优先的策略，并分享了具体的 Codex 配置文件。最终，作者认为大多数软件开发并不需要复杂的思考，AI 已经能够胜任从 CLI 到完整 UI 的构建，开发者应专注于架构决策和系统设计。

内容精简

主题一：开发范式的根本转变——从“读写代码”到“监督推理”

在 2025 年末，软件开发发生了质的飞跃。作者将其描述为从“惊讶于 AI 能写代码”到“期望 AI 瞬间交付代码”的转变。这种模式被称为“以推理速度交付”（Shipping at Inference-Speed），意味着软件构建的速度瓶颈已经从人类的打字和思考速度，转移到了 AI 模型的生成速度（Inference Time）上。

核心变化：

不再阅读代码： 随着 GPT-5 的发布，作者对模型的信任度大幅提升。他坦言自己现在几乎不再阅读生成的每一行代码，而是“看着代码流过”，仅在关键节点检查架构设计和组件位置。这种“不读代码”的方式并没有导致失控，因为他对系统的整体设计了如指掌。
CLI 优先原则： 绝大多数软件本质上是数据的搬运和展示。作者现在的构建流程通常从命令行界面（CLI）开始。因为 AI 代理可以极快地调用 CLI 并验证输出，从而形成一个自动化的闭环。
技术栈的选择： 现在的决策重点转移到了语言和生态系统的选择上。作者偏好 TypeScript（Web 开发）、Go（CLI 工具）和 Swift（macOS/iOS 开发）。特别是 Go 语言，由于其简单的类型系统和快速的 Lint 检查，非常适合 AI 代理编写。对于 iOS 开发，AI 已经可以直接处理构建过程，无需频繁打开 Xcode。

这种范式转变要求开发者具备更强的架构把控能力，能够像工厂经理一样，指挥 AI 代理完成繁重的工作，而不是亲自下场拧每一个螺丝。

主题二：模型战争与策略——Codex 的“深思”与 Opus 的“灵动”

作者深入对比了当时（2025 年底）两大主流模型：OpenAI 的 Codex（基于 GPT-5.2）和 Anthropic 的 Opus。

Codex 的特性：

静默阅读（Silent Reading）： Codex 的一个显著特征是它在开始写代码前会进行大量的阅读。它可能会花费 10 到 15 分钟静默地扫描代码库。虽然这有时令人焦急，但这种机制极大地提高了它在大型重构任务中的准确性。
适合大规模重构： Codex 能够一次性处理巨大的、跨越数小时的重构任务，并能修正旧模型留下的烂代码。它拥有极强的上下文管理能力，即使在长对话中也能保持高效。
告别“规划模式”： 随着模型能力的提升，旧时代的“Plan Mode”（先写计划再写代码）显得多余。作者现在直接与模型对话，探索代码，一旦满意就直接下令“构建”。

Opus 的特性：

急切与灵动： Opus 反应更快，非常适合小规模的编辑和快速修复。
局限性： 在处理大型功能或重构时，Opus 往往因为没有读完所有文件而遗漏细节，导致需要人工反复修正。

Oracle 工具的兴衰： 作者曾开发了一个名为“Oracle”的 CLI 工具，允许代理在卡住时调用 GPT-5 Pro 进行网络搜索和深度思考。然而，随着 GPT-5.2 的发布（知识库更新至 2025 年 8 月且能力更强），Oracle 的使用频率大幅下降，因为新模型通常能“一次通过”（One-shot）解决问题。

主题三：极简主义的线性工作流与上下文管理

作者的工作流强调迭代、直觉和上下文复用，摒弃了复杂的敏捷管理工具。

工作流细节：

多项目并行： 作者通常同时推进 3-8 个项目。利用 AI 处理“无聊”的代码（如数据搬运），让他能专注于核心逻辑。
线性迭代（Linear Evolution）： 他几乎不使用 Git 的分支或 Checkpoint 回滚。如果 AI 做错了，他会要求 AI 修改，而不是回滚版本。软件构建被视为“爬山”，允许绕路，但始终向前。
跨项目上下文复用： 这是一个巨大的效率提升点。作者经常指示 AI：“查看 ../vibetunnel 项目，并在本项目中通过类似方式实现 Changelog 功能”。AI 能够理解跨项目的上下文并完美迁移代码，这极大地节省了 Prompt 的编写时间。
文档驱动： 在每个项目中维护 docs/*.md，记录子系统设计。这不仅是给人看的，更是给 AI 看的。通过脚本强制模型在特定任务前阅读相关文档，能有效保持代码的一致性。
视觉提示（Visual Prompting）： 在 UI 调整中，直接截图并标注“修复间距”或“重新设计”，比文字描述高效得多。

上下文管理： GPT-5.2 允许超长会话而无需重启。作者发现 Codex 在长上下文中表现优异，甚至因为已经加载了大量文件而运行得更快。Codex 的内部思维似乎非常精简，节省了 Token，而 Opus 则相对啰嗦。

主题四：基础设施配置与自动化哲学

为了支撑“以推理速度交付”，作者构建了一套独特的基础设施。

硬件与远程开发：

双机联动： 使用 MacBook Pro 作为主显示终端，通过 Jump Desktop 连接到 Mac Studio。
任务分离： 耗时的后台任务、浏览器自动化测试等放在 Mac Studio 上运行，避免干扰主机的操作。这种设置还支持他在旅行时通过远程连接无缝继续工作，任务在 Mac Studio 上持续运行，不受笔记本合盖影响。

配置揭秘（config.toml）： 作者分享了他的 Codex 配置，核心设置包括：

model_reasoning_effort = "high"：始终使用高推理模式，不浪费时间在低智模型上。
unified_exec = true：替代了旧的 tmux 脚本，提供统一的执行环境。
tool_output_token_limit：设置为 25000，为上下文压缩留出空间。

自动化哲学：

即时 Bug 修复： 不使用 Issue Tracker。发现 Bug 立即 Prompt 修复，速度快于记录 Bug 的时间。
全自动化： 从域名注册到 DNS 修改，全部通过 AI 代理自动化完成。
CLI 到 UI 的路径： 无论是开发 Chrome 扩展还是其他应用，先做核心 CLI，核心逻辑跑通后，AI 能在一天内生成完整的 UI 或扩展外壳。

问答

Q1: 作者提到的“以推理速度交付”（Shipping at Inference-Speed）是什么意思？ A: 意思是指软件开发的瓶颈不再是人的编码速度，而是 AI 模型的生成速度（推理时间）。开发者变成了监督者，看着代码像流水线一样生成。

Q2: 为什么作者现在几乎不阅读生成的代码？这安全吗？ A: 因为 GPT-5 级别的模型可靠性极高。作者通过通过整体架构设计和组件布局来把控质量，而不是逐行审查。只要系统设计正确，细节通常由 AI 准确处理。

Q3: Codex (GPT-5.2) 和 Opus 在作者的工作流中分别扮演什么角色？ A: Codex 用于大型重构和复杂功能开发，因为它会在写代码前“静默阅读”大量文件，理解全局；Opus 用于快速的小修改和日常计算机自动化任务，因为它反应更敏捷。

Q4: 作者如何在新项目中快速复用代码？ A: 通过跨项目引用路径（例如 ../other-project）。他指示 AI 参考已有的项目代码来实现新项目中的类似功能，AI 能自动理解并适配上下文。

Q5: 什么是“线性迭代”工作流？ A: 作者不使用分支（Branch）或回滚（Revert）。如果代码有问题，就让 AI 继续修改（Forward fix），像爬山一样不断修正方向往上走，而不是退回到起跑线。

Q6: 作者的硬件设置有何特殊之处？ A: 他使用两台 Mac。MacBook Pro 用于交互，Mac Studio 用于运行耗时的后台任务和 AI 代理，通过 Jump Desktop 远程连接。这样既保证了性能，又支持随时随地的远程开发。