宣布推出 Tinker
TinkerToy 计算机 由 Daniel Hillis 和 Brian Silverman 发明
今天,我们发布了 Tinker,这是一套用于微调语言模型的灵活 API。它通过让研究者和黑客掌控算法与数据,赋能他们开展模型实验,而我们来处理分布式训练的复杂性。Tinker 推进了我们的使命:让更多人能够在前沿模型上开展研究,并按需对其进行定制。
Tinker 支持微调大小各异的开放权重模型,包括 Qwen-235B-A22B 这类大规模专家混合(MoE)模型。从小模型切换到大模型,就像修改你 Python 代码中的一个字符串一样简单。
Tinker 是一项运行在我们内部集群和训练基础设施之上的托管服务。我们负责调度、资源分配与故障恢复。这样你就能立即启动小规模或大规模的训练运行,而无需操心基础设施运维。我们使用 LoRA,使多个训练作业可以共享同一算力池,从而降低成本。
Tinker 的 API 提供了 forward_backward、sample 等低层原语,可用于表达大多数常见的后训练方法。即便如此,取得良好效果仍需要把许多细节处理到位。因此,我们同时发布了一个开源库 Tinker Cookbook,其中在 Tinker API 之上实现了现代化的各类后训练方法。
普林斯顿、斯坦福、伯克利和 Redwood Research 的团队已经在使用 Tinker:
- Princeton Goedel Team 训练了数学定理证明器
- 斯坦福的 Rotskoff Chemistry 小组 对模型进行微调,以完成化学推理任务
- 伯克利 SkyRL 小组 在自定义的异步离策略强化学习训练环路上进行实验,涉及多智能体与多轮工具使用
- Redwood Research 使用 Tinker 对 Qwen3-32B 进行了强化学习,用于解决困难的 AI 控制任务
Tinker 现已面向研究者和开发者开启内测。你可以在此处加入等待名单。我们将从今天开始为用户开通平台访问。
如果你的组织有兴趣使用 Tinker,请通过这里与我们联系。
Tinker 在起步阶段可免费使用。我们将在接下来的几周内推出按用量计费。
我们期待看到你用 Tinker 发现与创造的一切!