Tinker:社区项目征集
我们推出了 Tinker,旨在让构建者和研究人员以自己的方式训练模型,无论是开展研究还是为新应用定制模型。我们计划定期发布来自 Tinker 社区的酷炫项目汇总,并且诚挚邀请你提交你正在用 Tinker 打磨的项目,以便在我们的博客上展示。
下面是我们希望在 Tinker 精选项目中看到的一些广泛建议,以及我们特别期待被探索的具体研究方向。
Tinker 精选项目指南
我们希望展示机器学习研究项目、其他领域由 AI 赋能的研究、定制模型以及其他贡献。示例包括:
- 使用 Tinker 重新实现某个研究项目或技术报告,例如比较算法配方或数据集的论文。
- 机器学习原创研究,例如探索新的训练或优化方法,或采用新颖的基准与评测。
- 非 AI 领域中使用微调模型的研究,例如我们此前强调过的数学定理证明器与化学模型相关工作。
- 基于 Tinker 构建的产品原型,演示一个有新意或令人愉悦的模型能力。
- 用于训练模型的新型数据集与任务环境。
- 基于 Tinker 之上的高层库,使经验较少的实践者也能高效进行微调。
- 基础设施方面的贡献,例如 Tinker 训练 API 的简洁自托管实现。
你的提交应包含一份文字说明,并且最好开源你的代码。我们鼓励你在写作中注重严谨与清晰的评估:清晰的图表、原始输出示例、以及在相关基准与指标上与替代方法或模型的明确对比。Tinkering 本质上是实验——相较于新奇或炒作,我们更希望展示扎实的工作与透明的结果。
请将你的项目及相关问题发送至 [email protected],邮件主题请注明“Featured Project”。
建议的研究项目
以下是我们个人非常希望被探索、且 Tinker 能够真正推动进展的一些研究方向。我们已经创建了一个仓库,为每个方向提供了详细的动机与指南;我们会随着时间补充更多资源,帮助研究者快速上手。我们期待大多数项目点子都能给我们带来惊喜,这个简短清单可以作为灵感来源。
从基础模型出发复现宪法式 AI。 虽然 RLAIF 被广泛采用,但多数情况下是从已有的指令微调模型启动。这使得很难区分“宪法”的影响与负责解释宪法并生成数据的模型的影响。针对在训练流水线中使用与不使用指令微调模型的宪法式 AI 进行研究,将有助于理解宪法与 RLAIF 的作用。
带噪学生(Noisy Student)的 RLVR。 Noisy Student 自蒸馏曾是机器学习早期阶段利用大规模无标注数据集的流行技术,但尚未在 LLM 领域被广泛改造。一种可行的改造方式是:用一个小规模有标注训练集与一个大规模无标注集启动 RLVR,在每次 RL 运行后由学生模型为后者打标并迭代。
在策略上下文蒸馏。 上下文蒸馏是在教师模型拥有长而详细的上下文时训练一个空上下文的学生模型。以往工作采用离策略蒸馏——在教师样本上进行微调。我们发现在策略蒸馏往往更有效;对两种方法在上下文蒸馏场景中的对比将非常有价值。
RL 记忆测试。 我们关于 LoRA 的文章给出了 SFT 与 RL 的信息获取速率的理论论证。你可以搭建一个玩具环境,让 RL 学习一段完全随机的数字序列,以在不同奖励函数下比较其经验学习速率与理论估计的差异。
基于成对评判器的直接 RL。 RLHF 与 RLAIF 使用成对偏好数据来训练一个奖励模型,再据此进行 RL。作为一种“直接”替代途径,我们可以使用一个通过提示进行成对比较的模型直接做 RL,而无需训练奖励模型。对直接与间接两种方式进行对比实验将很有意思。
复现 Open Character Training。 使用 Tinker 复现近期关于 Open Character Training 的论文。
用于笑话的 GAN。 在幽默等领域,与其训练一个可靠的评判器或奖励模型,不如更容易地整理一组人类审核的示范。尝试为笑话评估器与笑话生成器实现 GAN 风格的训练,使其能根据指定主题与关键词创作笑话。
高质量 ML 实验提示
最后,我们想分享一些开展高质量机器学习研究的指南——这些也是我们在内部运行实验与撰写报告时努力遵循的原则。
我们鼓励研究者对每个结果采用多种分析方法进行检视。在构建数据集或环境时,我们建议训练多种规模与类型的模型,并应用不同的评测。在提出新方法时,建议与更简单的基线方法进行对比,并对性能敏感的超参数(尤其是学习率)进行网格/范围扫描。
我们希望在你的写作中看到推理过程:你所做的假设、你的方法与既往报告的差异、以及每次改动的动机。我们期待看到原始数据与模型 rollout 的示例,以及汇总后的结果。最后,我们很欣赏干净且细致的写作、清晰且标注完善的图表,以及对所用方法内部机理的说明。
我们很期待看到社区用 Tinker 创造的成果,也希望这些精选项目能够启发你的工作。