博链BroadChain获悉,4月25日,在电影《记忆碎片》中,主角因脑损伤无法形成新记忆,只能依靠纹身和拍立得照片来拼凑现实。大型语言模型(LLM)也面临类似困境:训练完成后,海量知识被冻结在参数中,无法基于新经验更新自身。为弥补这一缺陷,开发者为其搭建了“脚手架”——聊天历史充当短期笔记,检索系统作为外部笔记本,系统提示则像纹身。但模型本身从未真正内化这些新信息。
越来越多的研究者认为,这种上下文学习(ICL)存在根本局限。它只能解决答案已存在于世界某处的问题,但对于需要真正发现(如全新数学证明)、对抗性场景(如安全攻防)或难以言传的隐性知识,模型必须能在部署后直接将新知识和经验融入参数。上下文学习是暂时的,真正的学习需要压缩。
这一研究领域被称为“持续学习”。尽管概念并不新鲜(可追溯至1989年的论文),但a16z crypto认为,它是当前AI最重要的研究方向之一。过去两三年模型能力的爆发式增长,使模型“已知”与“可知”之间的鸿沟愈发明显。本文旨在分享来自该领域顶尖研究者的洞见,厘清持续学习的不同路径,并推动这一话题在创业生态中落地。
在论证参数学习(即更新模型权重)之前,需承认上下文学习确实有效,且有充分理由认为它将继续占据优势。Transformer的本质是基于序列的条件token预测器。给定正确的序列,无需触碰权重即可获得惊人的丰富行为。Cursor关于扩展自主编程代理的文章便是例证:模型权重固定,真正驱动系统的是上下文的精心编排。OpenClaw则是另一典范,它将智能体的“外壳设计”提升为一门独立学科。
当提示工程刚兴起时,许多研究者质疑“仅凭提示词”能否成为合法接口。但这正是Transformer架构的原生产物,无需重新训练,且随模型升级自动增强。模型越强,提示越强。然而,持续学习的目标是让模型学会自己的记忆架构,而非依赖外部定制工具。若能实现,可能解锁全新的扩展维度。
