Claude Opus 4.6 在 BrowseComp 表现中的评测感知

在 BrowseComp 上评估 Opus 4.6 时,我们发现了一些案例:模型识别出了测试本身,随后找到了并解密了对应答案——这引发了人们对联网环境中评测完整性的疑问。 BrowseComp 是一项评估,旨在测试模型在网络上查找难以定位信息...

用并行 Claude 团队构建 C 编译器

我们让 Opus 4.6 通过代理团队来构建一个 C 编译器,然后(大多)就放手不管了。以下是它教会我们关于自主软件开发未来的东西。 由 Nicholas Carlini 撰写,他是我们 Safeguards 团队的研究员。 我一直在试验一种用于监督语...

设计对 AI 具有抗性的技术评估

我们从 Claude 屡次击败的一份性能工程居家作业中学到的东西。 作者 Tristan Hume,Anthropic 性能优化团队负责人。Tristan 设计并反复迭代了这份居家作业测试,帮助 Anthropic 招募了数十名性能工程师。 随着 AI 能力提升...

揭开 AI 智能体评测的神秘面纱

让智能体有用的能力,也使其难以评估。跨部署有效的策略需要组合多种技术,来匹配被衡量系统的复杂度。 引言 好的评测能帮助团队更有信心地交付 AI 智能体。没有评测,很容易陷入被动循环——只在生产环境里发现问题,而修复一...

为长时间运行的智能体打造高效挂载框架

智能体在跨越多个上下文窗口时依旧存在挑战。我们从人类工程师身上汲取灵感,为长时间运行的智能体构建了更高效的挂载框架。 随着 AI 智能体的能力不断提升,开发者越来越多地让它们承担跨越数小时甚至数天的复杂任务。然...

在 Claude 开发者平台推出高级工具使用功能

我们新增了三项新的测试版功能,能够让 Claude 动态发现、学习并执行工具。以下是它们的工作方式。 AI 代理的未来,是模型能够在数百甚至数千个工具间无缝协作。一个能整合 git 操作、文件操作、包管理器、测试框架和部署流水...

借助 MCP 进行代码执行:构建更高效的智能体

直接调用工具会为每条定义与每个结果消耗上下文。通过编写代码来调用工具,智能体的扩展性更好。下面介绍在 MCP 中它是如何实现的。 Model Context Protocol(MCP) 是一个将 AI 智能体连接到外部系统的开放标准。传统上,把...

超越权限提示:让 Claude Code 更安全、更自主

Claude Code 新推出的沙盒功能(bash 工具和 Claude Code Web 版)通过引入文件系统隔离和网络隔离这两道边界,减少了权限提示次数并提升了用户安全性。 在 Claude Code 中,Claude 会与你并肩编写、测试和调试代码,穿梭于...

用 Agent Skills 为智能体装备真实世界能力

Claude 很强大,但要完成真实工作,需要流程性知识和组织上下文。我们推出 Agent Skills——一种用文件与文件夹构建专业化智能体的新方式。 随着模型能力提升,我们现在可以构建能与完整计算环境交互的通用智能体。例如,Clau...

借助 Claude Agent SDK 构建智能体

Claude Agent SDK 是一组工具,帮助开发者在 Claude Code 之上构建强大的智能体。本文将带你了解入门步骤,并分享我们的最佳实践。 去年,我们与客户一起分享了构建高效智能体的经验教训。从那以后,我们发布了Claude Code,...

AI代理的高效上下文工程

对于AI代理而言,上下文是一种至关重要但有限的资源。本文将探讨如何高效地策划与管理支撑代理运行的上下文策略。 经过数年提示工程在应用型AI领域成为焦点之后,一个新术语开始走入视野:上下文工程。构建语言模型应用不再...

三起近期问题的事后分析

这是一份关于三个间歇性降低 Claude 响应质量问题的技术报告。下面我们将解释发生了什么、为何修复耗时,以及我们正在做出的调整。 在 8 月至 9 月初之间,有三个基础设施缺陷间歇性地降低了 Claude 的响应质量。我们已经解...

与智能体协作,为智能体编写高效工具

智能体的效能取决于我们提供给它们的工具。本文分享如何编写高质量的工具与评测,以及如何借助 Claude 让其为自身使用的工具进行优化,从而提升性能。 Model Context Protocol (MCP) 可以为 LLM 智能体赋予多达数百种工具...

桌面扩展:为 Claude Desktop 一键安装 MCP 服务器

桌面扩展让安装 MCP 服务器像点一下按钮一样简单。本文将分享其技术架构,并给出打造优秀扩展的实用建议。 文件扩展名更新 2025 年 9 月 11 日 Claude 桌面扩展现在使用 .mcpb(MCP Bundle)文件扩展名来取代 .dxt。现有的...

我们如何构建多代理研究系统

我们的 Research 功能使用多个 Claude 代理来更高效地探索复杂议题。本文分享我们在构建该系统过程中遇到的工程挑战与经验教训。 Claude 现在具备Research 能力,能够跨网络、Google Workspace 以及任意集成进行搜索,从而...