Thinking Machines
共 8 篇文章
Tinker:全面可用与视觉输入
今天我们宣布 Tinker 的四项更新: 不再需要等候名单 新的推理模型:Kimi K2 Thinking 新的推理接口,兼容 OpenAI API Qwen3-VL 的视觉输入支持 全面可用 等候名单结束!现在每个人都可以使用 Tinker 了;在这里注册即可开...
Tinker:社区项目征集
我们推出了 Tinker,旨在让构建者和研究人员以自己的方式训练模型,无论是开展研究还是为新应用定制模型。我们计划定期发布来自 Tinker 社区的酷炫项目汇总,并且诚挚邀请你提交你正在用 Tinker 打磨的项目,以便在我们的...
宣布推出 Tinker 研究与教学资助计划
我们在将近一个月前推出了 Tinker。从那时起,来自学术界和非营利组织的研究人员一直在使用 Tinker 训练自定义模型并推进他们的研究。 今天,我们面向 Tinker 使用推出研究与教学资助。作为我们对开放与协作科学承诺的一部...
同策略蒸馏
LLM 在聚焦领域可以达到专家级表现,这源于多种能力的层层叠加:对输入的感知、知识检索、方案选择以及可靠执行。要实现这些,需要一套分层的训练方法,我们可以粗分为三个阶段: 预训练(Pre-training):教授语言使用、广泛推理...
宣布推出 Tinker
TinkerToy 计算机 由 Daniel Hillis 和 Brian Silverman 发明 今天,我们发布了 Tinker,这是一套用于微调语言模型的灵活 API。它通过让研究者和黑客掌控算法与数据,赋能他们开展模型实验,而我们来处理分布式训练的复杂...
无悔的 LoRA
当今最先进的语言模型包含多达数万亿个参数,使用数十万亿个标记进行预训练。基础模型的性能随着规模持续提升,因为这些万亿级参数对于学习和表征人类书面知识中的各种模式是必要的。 相比之下,后训练通常使用更小的数据...
模块化流形
当我们训练大型神经网络时,需要让它们保持“健康”。我们不希望网络中的张量——无论是权重、激活还是梯度——变得过大或过小。过小和过大的张量会带来各种问题,并不只限于数值下溢与上溢。例如,训练过程中权重矩阵的尺度变化会...
击败 LLM 推理中的非确定性
可复现性是科学进步的基石。然而,要让大语言模型(LLM)给出可复现的结果却出奇地困难。 例如,你可能会发现多次向 ChatGPT 提同一个问题会得到不同的答案。这本身并不奇怪,因为从语言模型获取结果涉及“采样”:把模型输出转...