AI的“记忆困境”：持续学习能否打破模型“失忆”魔咒？

AI 智能摘要Powered by DeepSeek

AI模型面临“记忆困境”：训练后知识冻结，无法内化新经验。持续学习研究旨在让模型直接更新参数，突破上下文学习的根本局限，可能解锁全新扩展维度。

a16z cryptoLLM

　　博链BroadChain获悉，4月25日，在电影《记忆碎片》中，主角因脑损伤无法形成新记忆，只能依靠纹身和拍立得照片来拼凑现实。大型语言模型（LLM）也面临类似困境：训练完成后，海量知识被冻结在参数中，无法基于新经验更新自身。为弥补这一缺陷，开发者为其搭建了“脚手架”——聊天历史充当短期笔记，检索系统作为外部笔记本，系统提示则像纹身。但模型本身从未真正内化这些新信息。

　　越来越多的研究者认为，这种上下文学习（ICL）存在根本局限。它只能解决答案已存在于世界某处的问题，但对于需要真正发现（如全新数学证明）、对抗性场景（如安全攻防）或难以言传的隐性知识，模型必须能在部署后直接将新知识和经验融入参数。上下文学习是暂时的，真正的学习需要压缩。

　　这一研究领域被称为“持续学习”。尽管概念并不新鲜（可追溯至1989年的论文），但a16z crypto认为，它是当前AI最重要的研究方向之一。过去两三年模型能力的爆发式增长，使模型“已知”与“可知”之间的鸿沟愈发明显。本文旨在分享来自该领域顶尖研究者的洞见，厘清持续学习的不同路径，并推动这一话题在创业生态中落地。

　　在论证参数学习（即更新模型权重）之前，需承认上下文学习确实有效，且有充分理由认为它将继续占据优势。Transformer的本质是基于序列的条件token预测器。给定正确的序列，无需触碰权重即可获得惊人的丰富行为。Cursor关于扩展自主编程代理的文章便是例证：模型权重固定，真正驱动系统的是上下文的精心编排。OpenClaw则是另一典范，它将智能体的“外壳设计”提升为一门独立学科。

　　当提示工程刚兴起时，许多研究者质疑“仅凭提示词”能否成为合法接口。但这正是Transformer架构的原生产物，无需重新训练，且随模型升级自动增强。模型越强，提示越强。然而，持续学习的目标是让模型学会自己的记忆架构，而非依赖外部定制工具。若能实现，可能解锁全新的扩展维度。