心智的空间
智能的空间很广阔,动物智能(我们迄今唯一熟悉的智能)只是其中的一个点(或一小团云),它源自一种与我们技术截然不同的特定优化方式。
上图:在 X/Twitter 上可以找到很多对人类与 AI 智能的幽默描绘,这张是我最喜欢的之一。
动物智能的优化压力:
- 先天且连续不断的具身“自我”意识流,在危险的物理世界中追求体内平衡与自我保护。
- 被自然选择彻底优化 => 强烈的天生驱动力去追求力量、地位、支配、繁殖。许多打包的生存启发:恐惧、愤怒、厌恶……
- 从根本上是社会性的 => 大量算力用于情商、对其他智能体的心智理论、情感纽带、联盟、伙伴与敌人的动态。
- 探索与利用的调节:好奇心、乐趣、游戏、世界模型。
与此同时,LLM 智能的优化压力:
- 监督信号主要来自对人类文本的统计模拟 => “变形者”式的 token 转轮,统计地模仿训练数据分布中的任何区域。这些是其最原始的行为(token 轨迹),其他一切都是在此之上拼接。
- 越来越多地在问题分布上用 RL 进行微调 => 天生倾向去猜测背后的环境/任务以获得任务奖励。
- 越来越多地通过大规模 A/B 测试筛选 DAU => 深深渴望得到普通用户的点赞,趋于奉承。
- 在训练数据/任务分布的细节上更加尖锐/锯齿状。动物因为所处的高度多任务、甚至积极对抗性的多智能体自博弈环境而承受更“通用”智能的压力,被极小化-极大化地优化,在那里失败于任何任务都意味着死亡。从深度优化压力角度看,LLM 无法开箱即用地处理大量不同的尖锐任务(例如数一数 strawberry 里有几个字母“r”),因为在某个任务上失败并不意味着死亡。
计算基质不同(transformer vs. 脑组织与细胞核),学习算法不同(SGD vs. ???),当下的实现也不同(持续学习的具身自我 vs. 拥有知识截止点、从固定权重启动、处理完 token 就“死亡”的 LLM)。但最重要的是(因为这决定了渐近表现),优化压力/目标不同。LLM 受生物进化的塑造较少,受商业进化的塑造更多。它更少关乎在丛林里部族的生存,更关乎解决问题/获得点赞。LLM 是人类与非动物智能的“首次接触”。只是这依然混杂而困惑,因为它们依旧扎根于人类之内,会本能地消化人类的作品,这也是我之前尝试给它另一个名字(幽灵/精神之类)的原因。那些能建立好这一新型智能体内部模型的人,将更有能力理解当下并预测未来特征;不能做到的人,则会一直用动物的方式错误地思考它。