可验证性
人们常把 AI 与各种历史先例相提并论:电力、工业革命等等。我认为最贴切的类比是把 AI 看作一种新的计算范式,因为两者的本质都是数字信息处理的自动化。
如果你在 20 世纪 80 年代左右预测计算机对就业市场的影响,最有预测力的任务/工作的特征就是 specifiability(可指定性)——你是否只是按照容易描述的算法机械地转换信息(例如打字、簿记、人肉计算器等)?在那个时代的计算能力之内,我们能做的就是亲手(手动)编写这类程序。我把手写程序称为 “Software 1.0”。
而今天,借助 AI,我们可以写出此前根本无从手写的新程序。我们通过指定目标(例如分类准确率、奖励函数),然后在程序空间中用梯度下降搜索,找到在目标上表现良好的神经网络。这就是我之前写的 Software 2.0 博客。在这种新的编程范式下,最值得关注的特征变成了 verifiability(可验证性)。如果某个任务/工作是可验证的,那么它就可以直接被优化,或者通过强化学习来优化,神经网络就能被训练到表现极好。这其实在于 AI 能在多大程度上 “练习” 某件事。环境必须:
- 可重置(你可以重新开始一次尝试),
- 高效(能进行大量尝试),以及
- 可奖励(存在某种自动流程来奖励每次尝试)。
某个任务/工作越可验证,它就越适合在这种新的编程范式下被自动化。如果不可验证,就只能寄希望于神经网络神奇的泛化能力,或者靠模仿等更弱的方式。这正是推动 LLM 进展出现 “锯齿状” 前沿的原因。那些可验证的任务进步迅速,甚至可能超越顶级专家(例如数学、代码、花大量时间看视频、任何像谜题且有正确答案的事情),而许多其他任务则相对落后(创造性、策略性,以及那些需要结合现实世界知识、状态、上下文和常识的任务)。
- Software 1.0 很容易自动化你能明确指定的内容。
- Software 2.0 很容易自动化你能可靠验证的内容。