Sequoia Ascent 2026 总结
我在 Sequoia Ascent 2026 做了一场炉边谈话。YouTube 视频在这里:
作为一次实验,我把我最近的所有博客文章和推文都喂给了一个 LLM,然后让它阅读这段视频的转录稿,并产出 1)一份总结,以及 2)一份清理过的转录稿(纠正所有转录错误,去掉口头禅等)。我把这两部分都发布在下面。对于那些只想阅读文本版总结的人来说,这会很有用;同时对 LLM 也有帮助,因为这样我的内容对它们来说是清晰可读且可用的。
以下是这次谈话由 AI 生成的内容。 我使用了一个顶级能力模型(这里是 Codex 5.5),我读过这些内容,整体读起来不错,没有明显错误。
Sequoia Ascent 2026:软件 3.0、智能体工程与锯齿状智能
最近我在 Sequoia Ascent 2026 与 Stephanie Zhan 进行了一场炉边谈话,和创业者们聊了聊 AI 智能体的最新转变、这对软件意味着什么,以及我如何看待下一波 AI 原生公司的机会。
活动的转录稿有些嘈杂,所以我想用更清晰的形式把其中主要的思想内容整理出来。简短版本是:我认为我们已经跨过了一个新的门槛。LLM 不再只是聊天机器人或自动补全工具。它们正在成为数字化工作的一层全新可编程层。
这是这场对话的精简版。
1. 2025 年 12 月是一个智能体拐点
我最近说过,我从未像现在这样觉得自己作为程序员如此落后。
原因并不是传统意义上编程变难了,而是默认工作流变了。在 2025 年的大部分时间里,像 Claude Code、Codex 以及类似 Cursor 的智能体工具虽然有用,但仍然需要频繁纠正。到了 2025 年 12 月左右,我感受到了一次阶跃式变化:生成出来的代码块更大、更连贯,也更可靠了。我开始把更多工作交给智能体。
编程的单位从逐行输入代码,变成了委派更大的“宏动作”:
- 实现这个功能。
- 重构这个子系统。
- 研究这个库。
- 搭建这个服务。
- 编写测试,运行测试,并修复失败项。
- 比较不同方案并提出计划。
这就是为什么我认为这个职业正在被重构。程序员越来越不只是代码编写者,而是智能体的编排者。
2. 软件 3.0:上下文窗口就是新的程序
我把它看作是一个序列中的下一步:
- 软件 1.0: 人类编写显式代码。
- 软件 2.0: 人类创建数据集、目标函数和神经网络;程序被学习进权重中。
- 软件 3.0: 人类通过提示词、上下文、工具、示例、记忆和指令来编程 LLM。
在软件 3.0 中,上下文窗口成为主要杠杆。LLM 是这个上下文上的解释器,在数字信息上执行计算。
一个例子是安装。在旧世界里,要在许多环境中安装一个复杂工具,需要一个脆弱的 shell 脚本,里面充满条件分支。而在软件 3.0 的世界里,安装器可以是一段你粘贴给智能体的说明。智能体会读取本地环境、调试错误、适配机器,并完成安装。
这是一种不同类型的程序。它没那么精确,但更具适应性。
3. MenuGen 与软件消失的时刻
我用 MenuGen 作为一个更深层转变的例子。
MenuGen 是一个传统 Web 应用:拍一张餐厅菜单的照片,OCR 识别菜名,生成菜品图片,并在 UI 中渲染结果。它需要前端代码、API、图像生成、部署、认证、支付、密钥和基础设施。
但后来,我看到了软件 3.0 版本:拍下菜单照片,把它交给一个多模态模型,然后让它直接把菜品图片渲染到菜单图像上。
在那个版本里,应用的大部分都消失了。神经网络直接把输入媒体转换成输出媒体。旧的软件栈只是围绕一种转换过程搭建的脚手架,而现在模型可以直接完成这种转换。
这对创业者来说是最重要的启示之一:AI 不只是更快地构建旧应用的方式。有些应用应该不再以应用的形式存在。
4. 新机会不只是更快地编程
这种转变不止发生在编码上。LLM 正在自动化那些以前无法编程的信息处理形式。
我的 LLM Wiki 模式就是最清晰的例子。与其每次都使用检索增强生成从原始文档中回答问题,不如让一个智能体把原始资料逐步编译成一个持久化的 Markdown wiki:总结、实体页面、概念页面、矛盾点、交叉链接、日志,以及不断演化的综合分析。
传统程序无法稳健地在杂乱的人类文档之间维护这种知识库。但 LLM 可以。
这里的启示是:不要只问“AI 能加速哪些现有工作流?”也要问“哪些信息转换以前不可能,现在却变得自然了?”
5. 可验证性解释了 AI 在哪里进展最快
我的核心自动化框架是:
- 传统软件自动化的是你能够明确规定的东西。
- LLM 和强化学习自动化的是你能够验证的东西。
如果一项任务有自动化的奖励或成功信号,模型就可以练习它。这就是为什么数学、编程、测试、基准、游戏以及许多工程任务进步得如此之快。它们可以被重置、重复,并且可以被奖励。
这也解释了为什么编码智能体相比许多普通聊天机器人体验会显得好得多。编码会给模型反馈:测试通过还是失败,程序运行还是崩溃,diff 可以检查,基准可以测量。
6. 锯齿状智能有两个轴:可验证性与训练关注度
这次访谈对“可验证性”这个论点做了一个重要补充。
模型能力不仅取决于一项任务是否可验证。它还取决于实验室在训练、后训练、合成数据生成和强化学习中是否强调了这项任务。
一个粗略公式:
能力峰值 ~= 可验证性 x 训练关注度 x 数据覆盖度 x 经济价值
国际象棋就是一个很好的例子。当 GPT-4 在国际象棋上变强时,这未必是因为通用智能在所有地方都平滑提升了。也可能是因为训练数据中加入了更多国际象棋数据。
这很重要,因为前沿模型并不会附带一本说明书。它们是预训练混合物、RL 环境、基准压力、产品优先级和经济激励共同作用下的产物。它们在某些地方能力陡增,在另一些地方则表现怪异。
所以,对创业者来说,实际问题是:你的任务是否位于模型的“轨道”上?
如果你的任务处在一个既可验证、又被大量训练的区域里,模型可能会表现得飞快。如果不是,它可能会以令人惊讶的基础方式失败。你可能需要更好的上下文、工具、微调、自己的评估,或者自己的强化学习环境。
7. Vibe Coding 与智能体工程
我区分两个相关但不同的概念:
- Vibe coding 提高了下限。它让几乎任何人都能通过描述自己想要的东西来创建软件。
- 智能体工程 提高了上限。它是在保持正确性、安全性、品味和可维护性的同时协调易错智能体的专业纪律。
Vibe coding 适合原型和个人工具。智能体工程才是严肃团队所需要的。
智能体工程师不会盲目接受生成的代码。他们会设计规格、监督计划、检查 diff、编写测试、创建评估循环、管理权限、隔离 worktree,并保持质量。
我在 MenuGen 中遇到的支付 bug 就是一个很好的例子。智能体试图通过电子邮件地址把 Stripe 购买记录和 Google 账户匹配起来。这段代码看起来说得过去,但系统设计很糟糕:Stripe 邮箱和 Google 登录邮箱可能不同。人类需要有足够的产品和工程判断力,坚持使用持久化用户 ID。
前沿技能不再是记住每个 API 细节。智能体可以记住某个张量库使用的是 dim、axis、keepdim、reshape 还是 permute。人类仍然需要理解底层概念:存储、视图、内存拷贝、不变量、身份标识、安全边界,以及系统的整体形状。
8. 招聘应该改变
如果智能体工程是新的专业技能,那么招聘就应该直接测试它。
传统的编码谜题越来越不匹配了。更好的面试方式可能是:用智能体构建一个相当完整的项目,把它部署出来,让它足够安全,然后再让对抗性智能体尝试攻破它。
这测试的是真正的技能:
- 候选人能否为智能体拆解工作?
- 他们能否写出有用的规格?
- 他们能否在快速推进的同时保持质量?
- 他们能否审查生成的工作?
- 他们能否保护并加固一个系统?
- 他们能否把智能体当作杠杆,而不是产出一堆垃圾?
过去“10x 工程师”的概念可能会变得更加极端。那些掌握智能体工作流的人,表现可能远远超过 10 倍。
9. 创业者应该寻找有价值且可验证的环境
对创业者来说,一个重要机会是找到那些有价值、可验证、但尚未被前沿实验室充分训练的领域。
如果你能创建一个领域特定环境,让模型可以尝试动作并获得可靠奖励,那么即使基础模型在该领域本来并不出色,你也可能通过微调或强化学习提升其表现。
像编程和数学这样最显眼的领域,已经被实验室重点瞄准了。但许多具有经济重要性的领域,可能潜藏着尚未被利用的可验证结构。
这就是创业切入点。
10. 智能体原生基础设施:为智能体构建,而不只是为人类构建
大多数软件仍然是为点击屏幕的人类构建的。
文档里会写“访问这个 URL,点击这个按钮,打开这个设置面板”。但越来越多时候,用户并不是人类本人,而是人类的智能体。
这意味着产品需要智能体原生的接口层:
- Markdown 文档。
- CLI。
- API。
- MCP 服务器。
- 结构化日志。
- 机器可读的 schema。
- 可复制粘贴给智能体的说明。
- 安全的权限控制。
- 可审计的操作。
- 无头化的设置流程。
我会用传感器和执行器来思考这个问题。传感器把世界中的某种状态转化为数字信息。执行器让智能体能够改变某些东西。未来的技术栈,就是智能体代表个人和组织使用传感器与执行器。
MenuGen 的部署故事仍然是一个很有用的基准。构建应用本身很容易,真正麻烦的是把 Vercel、认证、支付、DNS、密钥和生产环境设置串起来。在一个成熟的智能体原生世界里,我应该能够说一句“构建 MenuGen”,然后智能体就能把整套东西部署好,而不需要我手动点击。
11. 幽灵,而不是动物
我的 Animals vs. Ghosts 框架,是为了避免产生错误直觉。
LLM 不是动物。它们没有生物性的驱动力、具身化的生存压力、好奇心、玩耍欲,或者动物意义上的内在动机。它们是对人类产物的统计模拟,由预训练、后训练、RL、产品反馈和经济激励塑造而成。
这很重要,因为拟人化的期待会误导我们。这些系统可能前一刻还很聪明,下一刻却蠢得离谱。它们不是平滑的人类心智。它们是锯齿状的、异质的工具。
正确的姿态既不是轻视,也不是盲目信任,而是经验性的熟悉:了解它们在哪些地方有效,在哪些地方失败,它们是为哪些任务训练的,以及如何围绕它们建立护栏。
12. 教育:你可以外包思考,但不能外包理解
我们最后谈到了教育。有一句话我反复回想:
你可以外包你的思考,但你不能外包你的理解。
即使智能体承担了更多工作,人类仍然需要理解来指挥它们。你需要知道什么值得构建,什么问题重要,什么结果可疑,什么权衡可以接受。
这也是为什么我对 LLM 知识库感兴趣。它们不只是回答机器。它们是把信息转化为理解的工具。
这也和我的小型 microGPT 项目有关:一个完整的 GPT 训练与推理实现,写在一个没有任何依赖的 Python 文件里。这个教育性产物足够小,人类和智能体都可以检查。人类专家贡献的是提炼后的产物及其背后的品味;然后智能体可以以交互方式向每个学习者解释它。
大图景
这场对话的核心论点是:AI 正在成为数字化工作的一层新操作层。
稀缺的东西正在发生转移:
- 不再那么稀缺:代码生成、API 记忆、样板代码、初稿、重复性设置、简单转换。
- 更加稀缺:理解、品味、评估设计、安全性、系统边界、智能体编排、领域特定反馈循环,以及知道模型何时偏离轨道。
对创业者来说,最重要的问题是:
- 当主要用户变成代表人类行动的智能体时,什么会变得可能?
- 哪些工作流可以围绕传感器、执行器和可验证循环被重新构建?
- 哪些软件应该消失,融入直接的模型转换中?
- 哪些领域既有价值、又可验证,但尚未被前沿实验室重点训练?
- 为了保持质量,哪些人类判断必须保留在回路中?
我当前的世界观并不是 AI 只是让每个人更快地做旧工作,而是工作本身正在围绕智能体被重新组织。软件、研究、教育、基础设施和知识工作,都正在变成同一种模式的不同变体:
定义上下文
定义工具
定义反馈循环
定义护栏
让智能体工作
保持人类理解
Sequoia Ascent 2026:Andrej Karpathy 与 Stephanie Zhan 对谈
编辑后的转录稿。为提高可读性做了轻度清理,修正了明显的转录错误,删除了口头禅,并添加了少量相关链接。
引言
Konstantine: 你们都认识的一个人,一个在这场 AI 革命中已经成为 AI 教师的人。每一场革命中都有技术专家,但也有教师,也就是那个真正向人们说明并指导这场变革将如何发生的人。Andrej 已经成为世界的那位老师。
他早年在 Tesla 负责 Autopilot,是 OpenAI 的联合创始人,后来离开这一切创办了 Eureka Labs,在那里他进一步投入到“AI 作为真正导师”这一理念中。我们很高兴邀请到 Andrej Karpathy,与我们的合伙人 Stephanie Zhan 一起登台。
Stephanie: 大家好。我们很高兴迎来第一位特别嘉宾。他帮助构建了现代 AI,解释了现代 AI,偶尔还会给现代 AI 重新命名。
他参与联合创办了 OpenAI。他帮助 Tesla 的 Autopilot 跑起来。而且他有一种罕见的天赋,能让最复杂的技术转变既显得易于理解,又显得不可避免。
你们都知道,去年是他提出了 vibe coding 这个词。但就在最近几个月,他又说了一句更令人震惊的话:他从未像现在这样觉得自己作为程序员如此落后。这就是我们今天的起点。感谢你,Andrej,来到这里。
Andrej: 大家好。很高兴来到这里,也很高兴为今天的讨论开场。
2025 年 12 月的智能体拐点
Stephanie: 几个月前,你说自己从未像现在这样觉得作为程序员如此落后。尤其是从你口中说出来,这很让人震惊。你能帮我们拆解一下这种感觉吗?那是一种令人兴奋的感觉,还是令人不安的感觉?
Andrej: 当然,两者都有。
和你们很多人一样,我已经使用像 Claude Code、Codex 以及类似工具有一段时间了,也许过去一年都在用。它们在处理代码块方面非常不错,但有时也会出错,你还得自己修改。它们是有帮助的。
然后我会说,12 月是一个明确的时间点。那时我在休息,所以有更多时间。我想很多其他人也是类似情况。我开始注意到,使用最新模型时,生成出来的代码块就是没问题。然后我继续要求更多,它们依然没问题。我都想不起来上一次自己去纠正它是什么时候了。我开始越来越信任这个系统。
我确实认为那是一次鲜明的转变。去年很多人体验 AI 时,还是把它当作某种 ChatGPT 的延伸,但到了 12 月,你真的必须重新看待它,因为事情已经发生了根本变化,尤其是在这种智能体式、连贯的工作流上。它真的开始起作用了。
这个认识把我带进了无穷无尽的副项目兔子洞。我的 side-projects 文件夹里塞满了各种随机东西。我一直在写代码。这件事发生在 12 月,而从那以后我一直在观察它带来的后果。
软件 3.0
Stephanie: 你曾把 LLM 描述为一种新型计算机。它不只是更好的软件,而是一种新的计算范式。软件 1.0 是显式规则。软件 2.0 是学习得到的权重。软件 3.0 就是现在这个。如果这是真的,那么当一个团队真正相信这一点时,他们从第一天起会以什么不同的方式构建东西?
Andrej: 软件 1.0 是写代码。软件 2.0 是通过创建数据集和训练神经网络来编程。编程变成了组织数据集、目标函数和神经网络架构。
后来发生的是,如果你在足够大的任务集合上训练 GPT 模型或 LLM,隐含地——因为互联网包含了很多任务——这些模型在某种意义上就变成了可编程计算机。
软件 3.0 讲的是通过提示词来编程。上下文窗口里的内容,就是你操纵解释器的杠杆,而解释器就是 LLM。它解释你的上下文,并在数字信息空间中执行计算。
有几个例子让我真正意识到了这一点。当 OpenClaw 发布时,通常你会期待它有一个 shell 安装脚本。但如果要适配很多平台和很多种计算机,shell 脚本通常会迅速膨胀,变得极其复杂。你会被困在软件 1.0 的宇宙里,想要写出精确代码。
而 OpenClaw 的安装方式却是一段文本,你把它复制粘贴给你的智能体。它就像一个小技能:复制这段内容,交给你的智能体,它就会安装 OpenClaw。这更强大,因为你是在软件 3.0 范式下工作。你不必把每个细节都写死。智能体有智能。它会查看你的环境,执行智能动作,并在循环中调试。
这是一种不同的思维方式。什么样的文本片段值得复制粘贴给你的智能体?这现在已经成为编程范式的一部分。
另一个例子是 MenuGen。你坐在餐厅里,拿到一份菜单,上面没有图片。我不知道很多菜到底是什么样。我想做的是拍一张菜单照片,然后看到这些菜大概会长什么样的图片。
于是我做了一个应用。你上传照片,它会 OCR 出所有标题,用图像生成器生成图片,然后展示给你看。它运行在 Vercel 上,并重新渲染菜单。
后来我看到了软件 3.0 版本,这让我大受震撼。你拍下照片,把它交给 Gemini,然后说:用 Nano Banana 把这些内容叠加到菜单上。它返回的是我拍的那张菜单图片,但图片已经直接渲染进像素里了。
在这种框架下,整个 MenuGen 都是多余的。它是在旧范式下工作的。那个应用根本不该存在。在软件 3.0 范式里,神经网络承担了更多工作。你的提示词或上下文就是那张图像,而输出也是一张图像。中间根本不需要那一整套应用机制。
人们必须重新框定思维。不要只在现有范式里工作,把 AI 看成是对现有事物的加速。现在已经有新的东西可做了。
而且这不只是编程变快了。这是更广义的信息处理开始可以被自动化。以前的代码是处理结构化数据的。你是在结构化数据上写代码。
在我的 LLM 知识库 项目里,你让 LLM 为你的组织或你个人创建 wiki。这不是旧意义上的程序。以前没有任何代码能基于一堆杂乱事实创建一个知识库。但现在你可以拿来文档,对它们重新编译、重新排序,并把它们重构成某种新的、有趣的东西,作为对数据的一种重新表述。
这些都是以前做不到的新东西。我总是试图回到这一点:不只是我们能更快地做什么,而是以前根本不可能做什么?这才更令人兴奋。
神经计算机
Stephanie: 我很喜欢 MenuGen 这个演进过程。如果你再往前推演,2026 年里,什么会相当于 90 年代建网站、2010 年代做移动应用,或者云时代做 SaaS?什么东西在事后看会显得显而易见,但今天仍然大多还没被构建出来?
Andrej: 继续用 MenuGen 这个例子的话,很多代码其实都不该存在。神经网络应该完成大部分工作。
继续外推下去会显得非常奇怪。你甚至可以想象某种意义上的完全神经化计算机。想象一个设备,把原始视频或音频输入神经网络,再用 diffusion 渲染出一个只属于那个时刻的 UI。
在计算机发展的早期,人们其实有点搞不清楚,计算机会更像计算器,还是更像神经网络。在 20 世纪 50、60 年代,哪条路会胜出并不明显。后来我们走上了计算器这条路,构建了经典计算。
现在神经网络仍然是虚拟化运行在现有计算机上的。但你可以想象一种翻转:神经网络变成宿主进程,而 CPU 变成协处理器。智能计算和神经网络计算会成为 FLOPs 消耗中的主导部分。
你可以想象一种很陌生的世界,在那里神经网络承担了大部分重活,而工具只是为了确定性任务保留下来的历史附属物。真正主导一切的,是以某种方式联网的神经网络。
这就是外推的方向,但我认为我们会一点一点地走到那里。
可验证性与锯齿状智能
Stephanie: 我很想聊聊可验证性:也就是 AI 会在那些输出可以被验证的领域里更快、更容易地实现自动化。如果这个框架是对的,那么哪些工作即将比人们意识到的更快地发生变化?又有哪些职业人们以为很安全,但实际上高度可验证?
Andrej: 传统计算机自动化的是你能用代码明确规定的东西。最新这一代 LLM 自动化的是你能验证的东西。
当前沿实验室训练这些 LLM 时,它们是在巨大的强化学习环境中训练的,里面有验证型奖励。正因为如此,模型不断进步,并变成锯齿状的实体。它们会在数学、代码以及相邻领域这些可验证的领域里达到能力峰值,而在不属于这个空间的地方停滞不前,或者仍然显得粗糙。
我写过关于 可验证性 的文章,因为我试图理解为什么这些东西会如此锯齿状。其中一部分和实验室如何训练模型有关。另一部分也和实验室关注什么、以及它们把什么放进数据分布有关。有些事情在经济上显著更有价值,所以实验室会为这些场景构建更多环境。代码就是一个很好的例子。
你大概还能想到很多可验证环境,但它们没有进入训练混合物,因为它们在经济上没有那么值得去围绕能力建设。
我曾经很喜欢的一个例子是:“strawberry” 里有几个字母?模型曾经很出名地答错这个问题。现在这个问题已经被修补了。更新一点的例子是:我想去洗车,洗车店离我 50 米。我应该开车还是走路?最先进的模型可能会告诉你走路,因为很近。
一个最先进的模型,既能重构一个 10 万行代码库,也能发现零日漏洞,却告诉我应该走路去洗车店,这怎么可能?这就是锯齿性。只要模型仍然是锯齿状的,就意味着你必须留在回路中。你必须把它们当作工具,并持续关注它们在做什么。
我关于可验证性的写作,就是在试图理解这种模式。我认为这是“可验证”加上“实验室在乎”这两者的某种组合。
另一个轶事是国际象棋。从 GPT-3.5 到 GPT-4,人们注意到国际象棋能力提升了很多。有些人以为那只是通用能力的进步。但我认为这是公开信息:大量国际象棋数据进入了预训练集。因为它在数据分布中,模型的提升远远超过了默认情况下会有的提升。
OpenAI 里有人决定加入这些数据,于是能力就出现了一个峰值。这就是为什么我强调这个维度:我们在某种程度上受制于实验室做什么,以及它们往混合物里放什么。你必须去探索它们给你的模型。它没有说明书。它在某些场景下有效,在另一些场景下无效。
如果你处在那些被纳入强化学习的回路里,你就会飞起来。如果你在数据分布之外,你就会挣扎。你必须搞清楚你的应用位于哪些回路里。如果你不在那些回路里,那你就得考虑微调,或者自己做一些工作,因为它未必会从 LLM 里开箱即用地冒出来。
可验证领域中的创业机会
Stephanie: 如果你今天是一位创业者,你正在解决一个可处理、可验证的问题,但你环顾四周,发现实验室已经在数学和编程这些显而易见的领域接近逃逸速度了,你会给出什么建议?
Andrej: 在当前范式下,可验证性让某件事变得可处理,因为你可以往上面砸大量强化学习。
即使实验室没有直接聚焦它,这一点仍然成立。如果你处在一个可验证场景里,能够创建强化学习环境或示例,那么你就有可能自己做微调并从中受益。这项技术从根本上是有效的。如果你有多样化的数据集或 RL 环境,你就可以使用一个微调框架,拉下杠杆,然后得到一个表现相当不错的东西。
我不想泄露具体例子,但确实存在一些有价值的强化学习环境,是人们可以去思考、但目前不在前沿实验室训练混合物中的。
Stephanie: 反过来说,哪些事情看起来只是从远处看似乎可以自动化?哪些领域或职业比其他的更安全?
Andrej: 归根结底,几乎所有事情在某种程度上都可以被做成可验证的,只是有些更容易,有些更难。即便是写作,你也可以想象有一个由 LLM 评委组成的委员会,然后得到某种还算合理的结果。
所以更关键的是,什么容易,什么难。
Vibe Coding 与智能体工程
Stephanie: 去年你提出了 vibe coding 这个词。今天我们所处的世界感觉更严肃了,更像智能体工程。这两者有什么区别?你会怎么称呼我们今天所处的阶段?
Andrej: Vibe coding 讲的是提高每个人在软件方面能力的下限。每个人都可以随性地写点软件,这很棒。
智能体工程讲的是如何保持专业软件的质量门槛。你不能因为 vibe coding 就引入漏洞。你仍然要像以前一样对自己的软件负责。但你能不能更快?剧透一下:可以。问题在于,怎样正确地做到这一点。
我把它叫作智能体工程,因为它是一门工程学科。你有智能体,它们是尖刺状的实体。它们会犯错、具有随机性,但又极其强大。你如何协调它们,在不牺牲质量门槛的前提下更快前进?
Vibe coding 提高的是下限。智能体工程讲的是外推上限。我认为智能体工程师的能力上限非常高。人们以前常说 10x 工程师。我认为这会被放大得多。10 倍根本不是人们能获得的加速幅度。那些非常擅长这一套的人,峰值可能远高于此。
AI 原生编码是什么样子
Stephanie: 去年 Sam Altman 来 Ascent 时说,不同世代的人使用 ChatGPT 的方式不同。如果你三十多岁,你把它当作 Google 搜索替代品。如果你十几岁,ChatGPT 就是你通往互联网的入口。
那在编码里,对应的情况是什么?如果我们看两个人使用 OpenClaw、Claude Code 或 Codex 编码,一个水平平平,一个完全 AI 原生,你会怎么描述他们之间的差异?
Andrej: 关键在于,如何最大化利用现有工具,使用它们的功能,并投资于你自己的工作环境。
工程师一直都会对 Vim、VS Code 这样的工具做这种事。现在工具变成了 Claude Code、Codex 等等。你会投资自己的 setup,并使用一切可用的东西。
一个相关的想法是招聘。很多人都想招聘强大的智能体工程师,但大多数招聘流程还没有围绕智能体工程师能力进行重构。如果你还在发一些小谜题让人解,那仍然是旧范式。
招聘应该更像这样:给某人一个大项目,看他如何实现它。比如,写一个供智能体使用的 Twitter 克隆,把它做得又好又安全,然后让智能体在上面模拟活动。接着我会用十个 Codex 智能体去尝试攻破你部署的网站,而它们不应该能攻破它。
在那种场景下观察人们,观察他们如何构建更大的项目、如何使用工具,这才更接近我会寻找的东西。
哪些人类技能会变得更有价值?
Stephanie: 当智能体做得越来越多时,哪种人类技能会变得更有价值,而不是更没价值?
Andrej: 现在这些智能体就像实习生。你仍然必须负责审美、判断、品味和监督。
我最喜欢的一个例子来自 MenuGen。你用 Google 账户注册,但你用 Stripe 购买积分。两边都有邮箱地址。我的智能体试图通过匹配 Stripe 邮箱地址和 Google 邮箱地址来分配购买的积分。
但这两个邮箱可能不同。用户可能拿不到自己买的积分。你为什么要用邮箱地址来交叉关联资金?你需要一个持久化用户 ID。这就是智能体现在仍然会犯的错误。
人们必须负责规格和计划。我甚至不完全喜欢“计划模式”这个概念,尽管它有用。还有一种更一般的东西:你和你的智能体一起设计详细规格,也许本质上就是文档,并让智能体去写它们。你负责监督和顶层类别。智能体在下面完成大量工作。
再举一个例子,在神经网络中的张量操作里,PyTorch、NumPy、pandas 等等之间有很多细节:dim 和 axis,reshape,permute,transpose,keepdim。这些东西我现在已经记不住了,因为我不需要记。实习生会处理这些细节,因为智能体有很好的记忆能力。
但你仍然必须理解基础原理。你需要知道底层有张量存储,你可以操作同一块存储的一个视图,或者创建不同的存储,而后者效率更低。你仍然需要懂得足够多,避免不必要的内存拷贝。
所以你负责的是品味、工程、设计,以及系统是否讲得通。你提出正确要求:比如,我们把一切都绑定到唯一用户 ID 上。智能体来填补空白。
Stephanie: 你觉得品味和判断力随着时间推移会变得不那么重要吗,还是说上限只会不断抬高?
Andrej: 我希望它会改进。它现在没有改进的原因,大概是因为这还不是强化学习的一部分。可能没有审美奖励,或者这个奖励还不够好。
当我看代码时,有时候我会心脏病发作。那并不总是很棒的代码。它可能臃肿、复制粘贴、抽象得很别扭、很脆弱。它能跑,但很恶心。我希望未来模型能改善这一点。
一个很好的例子是我的 microGPT 项目,我试图尽可能简化 LLM 训练。模型讨厌这个。它们做不到。我一直试图提示一个 LLM 再简化一点、再简化一点,但它就是做不到。你会感觉自己处在 RL 回路之外。感觉像在拔牙。
所以目前这部分仍然由人来负责。但我不认为有什么根本性的东西阻止它改进。只是实验室还没做到而已。
幽灵,而不是动物
Stephanie: 我很想回到锯齿状智能这个话题。你写过一篇很发人深省的文章,Animals vs. Ghosts:我们不是在构建动物,而是在召唤幽灵。这些是由数据和奖励函数塑造的锯齿状智能形式,而不是像进化塑造动物那样,由内在动机、乐趣、好奇心或自主性塑造出来的。
为什么这种框架很重要?它会如何改变你构建、部署、评估或信任它们的方式?
Andrej: 我写这个,是因为我试图弄明白这些东西到底是什么。如果你对它们是什么、又不是什么有一个好的模型,那么你在使用它们时就会更胜任。
我不知道这个框架是否有直接的实践力量。它有点偏哲学。但它是在帮助我们接受这样一个事实:这些东西不是动物式智能。你冲它们大喊大叫,它们不会因此表现得更好或更差。它们是统计模拟电路。底层基底是预训练,然后上面再焊接了一层强化学习。
这是一种心态:我正在和什么交互,什么可能有效,什么不太可能有效,我又该如何修改它?我没有五个显而易见的结论告诉你怎样让系统变得更好。更多的是要对系统保持怀疑,并随着时间推移通过经验去摸清它。
智能体原生基础设施
Stephanie: 你正在深入使用那些不只是聊天的智能体。它们有真实权限、本地上下文,并且真的会代表你采取行动。当我们都生活在那样的世界里时,世界会是什么样?
Andrej: 这里很多人可能都对智能体原生环境会是什么样感到兴奋。一切都必须被重写。大多数东西本质上仍然是为人类写的。
当我使用框架或库时,文档仍然是写给人看的。这是我最喜欢抱怨的一点。为什么人们还在告诉我该做什么?我不想亲自做任何事。我应该复制粘贴给智能体的那段内容到底是什么?
每次有人告诉我“去这个 URL”或者“点这里”,我都会想:不。这个行业必须把工作负载拆解成面向世界的传感器和执行器。我们怎样让事物变成智能体原生?我们怎样先向智能体描述它们,并围绕那些对 LLM 可读的数据结构构建自动化?
我希望会出现大量 agent-first 的基础设施。以 MenuGen 为例,难点不是写代码。麻烦在于把它部署到 Vercel、连接各种服务、设置项、DNS、认证、支付、密钥和生产配置。
我希望我可以直接提示一个 LLM:构建 MenuGen。然后我什么都不用碰,它就已经部署到互联网上了。这将是检验我们的基础设施是否正在变得智能体原生的一个好测试。
归根结底,我确实认为我们正走向一个世界:个人和组织都会有自己的智能体代表。我的智能体会和你的智能体沟通,敲定会议细节和其他任务。大致就是朝这个方向发展。
教育与理解
Stephanie: 我们必须以教育来收尾。你可能是世界上最擅长把复杂技术概念讲简单的人之一,而且你对教育有很深的思考。当智能变得廉价时,什么仍然值得被深入学习?
Andrej: 最近有一条推文让我非常震撼,我一直在想它:
你可以外包你的思考,但你不能外包你的理解。
这句话说得很好。我仍然是系统的一部分。信息仍然必须进入我的大脑。我甚至正在变成瓶颈:我得知道我们到底想构建什么、为什么值得做,以及如何指挥我的智能体。
总得有某种东西来指挥思考和处理。而那受限于理解。
这也是我为什么对 LLM 知识库感到兴奋的原因之一。它们是我处理信息的一种方式。每当我看到信息的另一种投影方式时,我都会觉得自己获得了新的洞见。那是在固定数据上的合成数据生成。
当我读一篇文章时,我的 wiki 会由这些文章逐步构建起来。我很喜欢围绕它提问。归根结底,这些都是增强理解的工具。理解仍然是瓶颈,因为如果你不理解,你就不可能成为一个好的指挥者。
LLM 并不完全擅长理解。你在这方面仍然有独特责任。那些能够增强理解的工具,极其有趣,也极其令人兴奋。
Stephanie: 我很期待几年后再回到这里,看看我们是否已经被完全自动化地踢出了回路,以及它们是否也接管了理解。非常感谢你,Andrej。
Andrej: 谢谢。
Konstantine: Stephanie,Andrej,非常感谢你们。