 
        人工智能文摘
精选 AI 领域顶尖思想者的优质文章中文翻译
宣布推出 Tinker 研究与教学资助计划
我们在将近一个月前推出了 Tinker。从那时起,来自学术界和非营利组织的研究人员一直在使用 Tinker 训练自定义模型并推进他们的研究。 今天,我们面向 Tinker 使用推出研究与教学资助。作为我们对开放与协作科学承诺的一部...
同策略蒸馏
LLM 在聚焦领域可以达到专家级表现,这源于多种能力的层层叠加:对输入的感知、知识检索、方案选择以及可靠执行。要实现这些,需要一套分层的训练方法,我们可以粗分为三个阶段: 预训练(Pre-training):教授语言使用、广泛推理...
超越权限提示:让 Claude Code 更安全、更自主
Claude Code 新推出的沙盒功能(bash 工具和 Claude Code Web 版)通过引入文件系统隔离和网络隔离这两道边界,减少了权限提示次数并提升了用户安全性。 在 Claude Code 中,Claude 会与你并肩编写、测试和调试代码,穿梭于...
用 Agent Skills 为智能体装备真实世界能力
Claude 很强大,但要完成真实工作,需要流程性知识和组织上下文。我们推出 Agent Skills——一种用文件与文件夹构建专业化智能体的新方式。 随着模型能力提升,我们现在可以构建能与完整计算环境交互的通用智能体。例如,Clau...
动物与幽灵
终于有机会完整听完这期与 Sutton 的 Dwarkesh 播客,挺有意思,也颇为好玩。 作为背景,Sutton 的《The Bitter Lesson》(苦涩教训)在前沿 LLM 圈子里几乎成了一篇“圣经”。研究者们经常会谈论、甚至反复盘问某个方案是否足够...
宣布推出 Tinker
TinkerToy 计算机 由 Daniel Hillis 和 Brian Silverman 发明 今天,我们发布了 Tinker,这是一套用于微调语言模型的灵活 API。它通过让研究者和黑客掌控算法与数据,赋能他们开展模型实验,而我们来处理分布式训练的复杂...
借助 Claude Agent SDK 构建智能体
Claude Agent SDK 是一组工具,帮助开发者在 Claude Code 之上构建强大的智能体。本文将带你了解入门步骤,并分享我们的最佳实践。 去年,我们与客户一起分享了构建高效智能体的经验教训。从那以后,我们发布了Claude Code,...
AI代理的高效上下文工程
对于AI代理而言,上下文是一种至关重要但有限的资源。本文将探讨如何高效地策划与管理支撑代理运行的上下文策略。 经过数年提示工程在应用型AI领域成为焦点之后,一个新术语开始走入视野:上下文工程。构建语言模型应用不再...
无悔的 LoRA
当今最先进的语言模型包含多达数万亿个参数,使用数十万亿个标记进行预训练。基础模型的性能随着规模持续提升,因为这些万亿级参数对于学习和表征人类书面知识中的各种模式是必要的。 相比之下,后训练通常使用更小的数据...
模块化流形
当我们训练大型神经网络时,需要让它们保持“健康”。我们不希望网络中的张量——无论是权重、激活还是梯度——变得过大或过小。过小和过大的张量会带来各种问题,并不只限于数值下溢与上溢。例如,训练过程中权重矩阵的尺度变化会...
三起近期问题的事后分析
这是一份关于三个间歇性降低 Claude 响应质量问题的技术报告。下面我们将解释发生了什么、为何修复耗时,以及我们正在做出的调整。 在 8 月至 9 月初之间,有三个基础设施缺陷间歇性地降低了 Claude 的响应质量。我们已经解...
与智能体协作,为智能体编写高效工具
智能体的效能取决于我们提供给它们的工具。本文分享如何编写高质量的工具与评测,以及如何借助 Claude 让其为自身使用的工具进行优化,从而提升性能。 Model Context Protocol (MCP) 可以为 LLM 智能体赋予多达数百种工具...
击败 LLM 推理中的非确定性
可复现性是科学进步的基石。然而,要让大语言模型(LLM)给出可复现的结果却出奇地困难。 例如,你可能会发现多次向 ChatGPT 提同一个问题会得到不同的答案。这本身并不奇怪,因为从语言模型获取结果涉及“采样”:把模型输出转...
桌面扩展:为 Claude Desktop 一键安装 MCP 服务器
桌面扩展让安装 MCP 服务器像点一下按钮一样简单。本文将分享其技术架构,并给出打造优秀扩展的实用建议。 文件扩展名更新 2025 年 9 月 11 日 Claude 桌面扩展现在使用 .mcpb(MCP Bundle)文件扩展名来取代 .dxt。现有的...
随笔领域的形状
一篇随笔必须告诉读者他们尚未知道的东西。但人们之所以不知道某件事,可能有三种不同的原因,而这三种原因会对应三种截然不同的随笔。 一种原因是:这件事本来就没什么必要去知道。这并不意味着文章会很差。比如,你可以就某...
好的写作
2025年5月 写作之所以“好”有两层含义:可以是“听起来好”,也可以是“观点正确”。它可以有优美、流畅的句子,也可以对重要问题得出正确的结论。乍看之下,这两种“好”似乎互不相干,就像汽车的速度与它被喷成的颜色。可我不这么认...
Vibe 编程打造 MenuGen
我经常坐在餐厅里翻着菜单,感觉……有点卡住。Pâté 到底是什么来着?Tagine 是什么?Cavatappi……那是种意面吧?Sweetbread 听起来好像很美味(我超级爱甜食)。有时候真的会过头。"将油封块茎与熟成凝乳折拌,最后以榛果黄油浸汁...
权力归于人民:大语言模型如何改写技术扩散的剧本
变革性技术通常遵循一种自上而下的扩散路径:起源于政府或军方语境,经由公司企业,最终抵达个人——想想电力、密码学、计算机、飞行、互联网或 GPS。这一进程看起来顺理成章:在早期阶段,新而强大的技术通常稀缺、资本密集,且使...
寻找最佳睡眠追踪器
大约两个月前,我偶然看到 Bryan Johnson 的这支视频:How I FIXED My Terrible Sleep - 10 Habits。那天我决定听 Bryan 的,尝试改善我的睡眠。但在改善之前,首先——我们该如何衡量?Bryan Johnson 似乎在用 Whoop,而当时我...
“追加与回顾”笔记
我偶然摸索出一种记笔记的方法,已经很好地为我服务了很多年,简单说几句。我把它称作_“追加与回顾笔记”_。我觉得这种方法在“极其简单易用”和“覆盖日常大多数记笔记场景”之间取得了很好的平衡。 数据结构。 我在 Apple 备忘...
数字卫生
隔三差五我都会再次意识到互联网上庞大的欺诈机器,这会重新激发我在日常计算中的隐私/安全方面保持基本“数字卫生”的决心。问题的源头从那些大型科技公司开始:它们被激励去为你建立全面的画像,要么直接用来投放广告实现...
应该做什么
人应该做什么?这个问题也许看起来有点奇怪,但并非毫无意义或无法回答。这正是孩子们在学会不去追问宏大问题之前会问的问题。我自己是在研究别的事情的过程中偶然撞上它的。但一旦遇到了,我觉得至少应该试着回答一下。 那...
觉醒主义的起源
“prig(道学先生)”这个词如今并不常见,但如果你查一下定义,会觉得耳熟。Google 给出的解释就不错: > A self-righteously moralistic person who behaves as if superior to others. > 自以为道德高人一等、表现得高人一...
我爱计算器
前几天我在一家书店随意浏览,偶然翻到《总和帝国:口袋计算器的兴起与统治》。当我翻阅它的页面时,一个强烈的念头突然浮现:我……爱……计算器。我并不是指你今天会想要购买并使用的某个实体设备。我指的是它作为一种技术产物,...