设计对 AI 具有抗性的技术评估

我们从 Claude 屡次击败的一份性能工程居家作业中学到的东西。 作者 Tristan Hume,Anthropic 性能优化团队负责人。Tristan 设计并反复迭代了这份居家作业测试,帮助 Anthropic 招募了数十名性能工程师。 随着 AI 能力提升...

揭开 AI 智能体评测的神秘面纱

让智能体有用的能力,也使其难以评估。跨部署有效的策略需要组合多种技术,来匹配被衡量系统的复杂度。 引言 好的评测能帮助团队更有信心地交付 AI 智能体。没有评测,很容易陷入被动循环——只在生产环境里发现问题,而修复一...

2025 LLM 年度回顾

2025 年是 LLM 取得强劲且事件密集进展的一年。以下是我个人认为值得注意、略显意外的“范式变化”清单——这些变化改变了格局,并在概念上让我印象深刻。 1\. 来自可验证奖励的强化学习(RLVR) 2025 年初,各实验室的 LLM 生产...

化学卫生

继上一篇数字卫生之后,我想写下我关于化学卫生的(不断演化、带有主观看法的)指南。我最近不停地向所有朋友吐槽这个话题(你可以想象我在派对上有多好玩),所以我觉得值得把它写下来,放在同一个地方/链接里: 水 先从管好你...

Tinker:全面可用与视觉输入

今天我们宣布 Tinker 的四项更新: 不再需要等候名单 新的推理模型:Kimi K2 Thinking 新的推理接口,兼容 OpenAI API Qwen3-VL 的视觉输入支持 全面可用 等候名单结束!现在每个人都可以使用 Tinker 了;在这里注册即可开...

用事后视角自动评分十年前的 Hacker News 讨论

TLDR: < 昨天我偶然刷到这条 HN 讨论:Show HN: Gemini Pro 3 hallucinates the HN front page 10 years from now,Gemini 3 在幻觉式地生成 10 年后的首页。不过另一条评论更让我眼前一亮——Bjartr 链接了恰好 10 年前的...

心智的空间

智能的空间很广阔,动物智能(我们迄今唯一熟悉的智能)只是其中的一个点(或一小团云),它源自一种与我们技术截然不同的特定优化方式。 上图:在 X/Twitter 上可以找到很多对人类与 AI 智能的幽默描绘,这张是我最喜欢的之一...

为长时间运行的智能体打造高效挂载框架

智能体在跨越多个上下文窗口时依旧存在挑战。我们从人类工程师身上汲取灵感,为长时间运行的智能体构建了更高效的挂载框架。 随着 AI 智能体的能力不断提升,开发者越来越多地让它们承担跨越数小时甚至数天的复杂任务。然...

在 Claude 开发者平台推出高级工具使用功能

我们新增了三项新的测试版功能,能够让 Claude 动态发现、学习并执行工具。以下是它们的工作方式。 AI 代理的未来,是模型能够在数百甚至数千个工具间无缝协作。一个能整合 git 操作、文件操作、包管理器、测试框架和部署流水...

可验证性

人们常把 AI 与各种历史先例相提并论:电力、工业革命等等。我认为最贴切的类比是把 AI 看作一种新的计算范式,因为两者的本质都是数字信息处理的自动化。 如果你在 20 世纪 80 年代左右预测计算机对就业市场的影响,最有预...

Tinker:社区项目征集

我们推出了 Tinker,旨在让构建者和研究人员以自己的方式训练模型,无论是开展研究还是为新应用定制模型。我们计划定期发布来自 Tinker 社区的酷炫项目汇总,并且诚挚邀请你提交你正在用 Tinker 打磨的项目,以便在我们的...

借助 MCP 进行代码执行:构建更高效的智能体

直接调用工具会为每条定义与每个结果消耗上下文。通过编写代码来调用工具,智能体的扩展性更好。下面介绍在 MCP 中它是如何实现的。 Model Context Protocol(MCP) 是一个将 AI 智能体连接到外部系统的开放标准。传统上,把...

宣布推出 Tinker 研究与教学资助计划

我们在将近一个月前推出了 Tinker。从那时起,来自学术界和非营利组织的研究人员一直在使用 Tinker 训练自定义模型并推进他们的研究。 今天,我们面向 Tinker 使用推出研究与教学资助。作为我们对开放与协作科学承诺的一部...

同策略蒸馏

LLM 在聚焦领域可以达到专家级表现,这源于多种能力的层层叠加:对输入的感知、知识检索、方案选择以及可靠执行。要实现这些,需要一套分层的训练方法,我们可以粗分为三个阶段: 预训练(Pre-training):教授语言使用、广泛推理...

超越权限提示:让 Claude Code 更安全、更自主

Claude Code 新推出的沙盒功能(bash 工具和 Claude Code Web 版)通过引入文件系统隔离和网络隔离这两道边界,减少了权限提示次数并提升了用户安全性。 在 Claude Code 中,Claude 会与你并肩编写、测试和调试代码,穿梭于...

用 Agent Skills 为智能体装备真实世界能力

Claude 很强大,但要完成真实工作,需要流程性知识和组织上下文。我们推出 Agent Skills——一种用文件与文件夹构建专业化智能体的新方式。 随着模型能力提升,我们现在可以构建能与完整计算环境交互的通用智能体。例如,Clau...

动物与幽灵

终于有机会完整听完这期与 Sutton 的 Dwarkesh 播客,挺有意思,也颇为好玩。 作为背景,Sutton 的《The Bitter Lesson》(苦涩教训)在前沿 LLM 圈子里几乎成了一篇“圣经”。研究者们经常会谈论、甚至反复盘问某个方案是否足够...

宣布推出 Tinker

TinkerToy 计算机 由 Daniel Hillis 和 Brian Silverman 发明 今天,我们发布了 Tinker,这是一套用于微调语言模型的灵活 API。它通过让研究者和黑客掌控算法与数据,赋能他们开展模型实验,而我们来处理分布式训练的复杂...

借助 Claude Agent SDK 构建智能体

Claude Agent SDK 是一组工具,帮助开发者在 Claude Code 之上构建强大的智能体。本文将带你了解入门步骤,并分享我们的最佳实践。 去年,我们与客户一起分享了构建高效智能体的经验教训。从那以后,我们发布了Claude Code,...

AI代理的高效上下文工程

对于AI代理而言,上下文是一种至关重要但有限的资源。本文将探讨如何高效地策划与管理支撑代理运行的上下文策略。 经过数年提示工程在应用型AI领域成为焦点之后,一个新术语开始走入视野:上下文工程。构建语言模型应用不再...

无悔的 LoRA

当今最先进的语言模型包含多达数万亿个参数,使用数十万亿个标记进行预训练。基础模型的性能随着规模持续提升,因为这些万亿级参数对于学习和表征人类书面知识中的各种模式是必要的。 相比之下,后训练通常使用更小的数据...

模块化流形

当我们训练大型神经网络时,需要让它们保持“健康”。我们不希望网络中的张量——无论是权重、激活还是梯度——变得过大或过小。过小和过大的张量会带来各种问题,并不只限于数值下溢与上溢。例如,训练过程中权重矩阵的尺度变化会...

三起近期问题的事后分析

这是一份关于三个间歇性降低 Claude 响应质量问题的技术报告。下面我们将解释发生了什么、为何修复耗时,以及我们正在做出的调整。 在 8 月至 9 月初之间,有三个基础设施缺陷间歇性地降低了 Claude 的响应质量。我们已经解...

与智能体协作,为智能体编写高效工具

智能体的效能取决于我们提供给它们的工具。本文分享如何编写高质量的工具与评测,以及如何借助 Claude 让其为自身使用的工具进行优化,从而提升性能。 Model Context Protocol (MCP) 可以为 LLM 智能体赋予多达数百种工具...

击败 LLM 推理中的非确定性

可复现性是科学进步的基石。然而,要让大语言模型(LLM)给出可复现的结果却出奇地困难。 例如,你可能会发现多次向 ChatGPT 提同一个问题会得到不同的答案。这本身并不奇怪,因为从语言模型获取结果涉及“采样”:把模型输出转...

桌面扩展:为 Claude Desktop 一键安装 MCP 服务器

桌面扩展让安装 MCP 服务器像点一下按钮一样简单。本文将分享其技术架构,并给出打造优秀扩展的实用建议。 文件扩展名更新 2025 年 9 月 11 日 Claude 桌面扩展现在使用 .mcpb(MCP Bundle)文件扩展名来取代 .dxt。现有的...

我们如何构建多代理研究系统

我们的 Research 功能使用多个 Claude 代理来更高效地探索复杂议题。本文分享我们在构建该系统过程中遇到的工程挑战与经验教训。 Claude 现在具备Research 能力,能够跨网络、Google Workspace 以及任意集成进行搜索,从而...

随笔领域的形状

一篇随笔必须告诉读者他们尚未知道的东西。但人们之所以不知道某件事,可能有三种不同的原因,而这三种原因会对应三种截然不同的随笔。 一种原因是:这件事本来就没什么必要去知道。这并不意味着文章会很差。比如,你可以就某...

好的写作

2025年5月 写作之所以“好”有两层含义:可以是“听起来好”,也可以是“观点正确”。它可以有优美、流畅的句子,也可以对重要问题得出正确的结论。乍看之下,这两种“好”似乎互不相干,就像汽车的速度与它被喷成的颜色。可我不这么认...

Vibe 编程打造 MenuGen

我经常坐在餐厅里翻着菜单,感觉……有点卡住。Pâté 到底是什么来着?Tagine 是什么?Cavatappi……那是种意面吧?Sweetbread 听起来好像很美味(我超级爱甜食)。有时候真的会过头。"将油封块茎与熟成凝乳折拌,最后以榛果黄油浸汁...

权力归于人民:大语言模型如何改写技术扩散的剧本

变革性技术通常遵循一种自上而下的扩散路径:起源于政府或军方语境,经由公司企业,最终抵达个人——想想电力、密码学、计算机、飞行、互联网或 GPS。这一进程看起来顺理成章:在早期阶段,新而强大的技术通常稀缺、资本密集,且使...

寻找最佳睡眠追踪器

大约两个月前,我偶然看到 Bryan Johnson 的这支视频:How I FIXED My Terrible Sleep - 10 Habits。那天我决定听 Bryan 的,尝试改善我的睡眠。但在改善之前,首先——我们该如何衡量?Bryan Johnson 似乎在用 Whoop,而当时我...

“追加与回顾”笔记

我偶然摸索出一种记笔记的方法,已经很好地为我服务了很多年,简单说几句。我把它称作_“追加与回顾笔记”_。我觉得这种方法在“极其简单易用”和“覆盖日常大多数记笔记场景”之间取得了很好的平衡。 数据结构。 我在 Apple 备忘...

数字卫生

隔三差五我都会再次意识到互联网上庞大的欺诈机器,这会重新激发我在日常计算中的隐私/安全方面保持基本“数字卫生”的决心。问题的源头从那些大型科技公司开始:它们被激励去为你建立全面的画像,要么直接用来投放广告实现...

应该做什么

人应该做什么?这个问题也许看起来有点奇怪,但并非毫无意义或无法回答。这正是孩子们在学会不去追问宏大问题之前会问的问题。我自己是在研究别的事情的过程中偶然撞上它的。但一旦遇到了,我觉得至少应该试着回答一下。 那...

觉醒主义的起源

“prig(道学先生)”这个词如今并不常见,但如果你查一下定义,会觉得耳熟。Google 给出的解释就不错: > A self-righteously moralistic person who behaves as if superior to others. > 自以为道德高人一等、表现得高人一...

我爱计算器

前几天我在一家书店随意浏览,偶然翻到《总和帝国:口袋计算器的兴起与统治》。当我翻阅它的页面时,一个强烈的念头突然浮现:我……爱……计算器。我并不是指你今天会想要购买并使用的某个实体设备。我指的是它作为一种技术产物,...