文章作者、来源:新智元 你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。 你有没有遇到过这种情况:文章作者、来源:新智元 你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。 你有没有遇到过这种情况:

你的AI Agent越用越蠢?港中大、浙大戳破“记忆”的谎言

2026/05/19 15:58
阅读时长 11 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:新智元

你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。

你有没有遇到过这种情况:

给Agent配了向量数据库,上传了大量历史对话,结果它下次还是答不上来;或者用Cursor、Claude写了几十轮代码,感觉它对你项目的理解并没有随着时间真正加深,每次都像是在重新认识你。

这不是模型的问题,也不是RAG配置的问题。

香港中文大学与浙江大学的研究者在一篇新论文中给出了一个更根本的答案:我们根本就没有给Agent真正的记忆。我们只是给了它一个备忘录(Memo)。

论文链接:https://arxiv.org/pdf/2604.27707

论文于2026年4月30日在arXiv发布预印本,约10天之内便在国际学术社区引发大量讨论。AI领域知名账号 @dair_ai 在X(Twitter)的转发获得超过26,100次浏览与700余次点赞,多位YouTuber亦自发制作了介绍视频,小红书上也有多篇转载。

Agent为什么越用越蠢?

当前主流的Agent记忆方案,大体可以分为四类:向量存储、检索增强生成(RAG)、便签本(Scratchpad)与上下文窗口管理。

它们有一个共同点:都是「查找」,而非「记忆」。

论文作者将这类机制统称为「备忘录(Memo)」,而非真正意义上的记忆(True Memory)。

备忘录的逻辑是:把信息存起来,用的时候再检索出来。这和人类把一件事「记在心里」,是完全不同的两件事。

这个区别的核心在于泛化机制的本质差异:

基于检索的记忆:通过与存储案例的相似性进行泛化。如果你存的案例里没有类似的情境,Agent就不会处理。

基于权重的记忆:将经验抽象成规则,并将规则应用于从未见过的输入。

人类在学习一门语言时,不是把每一个句子都背下来,而是内化了语法规则,然后能造出从没说过的新句子。

目前的Agent「记忆」,更像是基于检索的记忆。

三大结构性缺陷

作者归纳出当前上下文代理记忆系统的三个关键局限,且每一个都可以在理论层面被证明,而非仅凭直觉。

缺陷一:信息量不等于能力

Agent会无限积累笔记,却无法发展出真正的专业知识。

认知科学早已证明(Chi et al., 1981),人类专家与新手的根本区别不在于掌握了更多信息,而在于知识的组织方式发生了质变:专家的知识按照深层原则重新结构化,而非简单堆积。

当前Agent做不到这一步。每次会话结束,模型的权重完全不变,下一次依然是从同一个「新手」起点出发,只是多了几条备忘录。

缺陷二:泛化天花板——数学分析

研究者用样本复杂度理论,证明了可量化的泛化鸿沟:

检索式记忆系统,要处理组合式新颖任务,需要存储Ω(k²) 个案例

而参数化学习(权重记忆),只需 O(d) 个示例(d为算子的复杂度维度)

更关键的是:增大上下文窗口无法突破这个上限。 限制不来自容量,而来自组合覆盖度。如果Agent从没见过「A规则+B规则同时适用」的情形,它就无法处理这种组合,无论你塞进多少备忘录。

用一个直观的例子:假设Agent学会了「摄氏度转华氏度」和「时区换算」两项技能,如果它只是把案例存在向量库里,那遇到「把北京时间的温度转换到纽约同等时刻」这类组合问题,它很可能就卡壳了。而人类学会了规则之后,这种组合是自然而然的。

缺陷三:记忆投毒——结构性安全漏洞

持久化记忆存储在结构上对记忆投毒攻击(Memory Poisoning)具有固有脆弱性。论文引用的实证数据触目惊心:

MINJA攻击:在最小化功能损耗的前提下,注入成功率高达98.2%

PoisonedRAG攻击:仅用5条对抗性文本,即可实现90%的攻击成功率

更危险的是,一旦注入成功,恶意内容会通过持久记忆在所有后续会话中持续循环,单次攻击转化为永久性入侵。

海马体+新皮层缺一不可

论文的理论基础来自神经科学中的互补学习系统理论(Complementary Learning Systems, CLS)

哺乳动物大脑通过两套系统的协作解决了记忆问题:

海马体(Hippocampus):快速记录情景,高保真存储新经验

新皮层(Neocortex):缓慢整合,将情景记忆提炼为抽象规则,写入权重

这两套系统缺一不可。人类睡眠时,大脑会将白天的情景记忆向新皮层「回放」,完成从「记住这件事」到「学会这件事」的转化。

当前AI Agent只实现了海马体,即快速写入,相似性召回,没有抽象步骤。

论文作者将当前的Agent比作一个永远不睡觉的人——不断记笔记,却从不整理,永远无法将零散的经验升华为真正的专业知识。

学界怎么看?X上的真实讨论

论文发布后,@dair_ai 的转发帖迅速引发国际学术社区的热议,以下是部分代表性讨论的翻译:

双系统并存,不是推倒重来

论文并非只是「批判」,而是提出了双系统共存的架构路径。

核心思路是:在保留现有检索式情景记忆(海马体等价物)的同时,增加一条异步巩固通道,将情景记忆逐步整合进模型权重(新皮层等价物)。

具体技术早已存在,从LoRA(轻量微调)和MEMIT(记忆编辑),到TTT层(测试时训练)和SSR(自我蒸馏)等。

论文为三类受众发出具体的行动呼吁:

系统构建者:实现从情景存储到权重的巩固通道,而非无限扩大向量库

基准设计者(Benchmark):引入「跨时间组合泛化(CGT)」指标,真正衡量Agent是否在学习

持续学习研究社区:重新关注Agent场景,它天然提供了连续经验流、奖励信号与真实的部署环境

总结

这篇论文本质上是一篇立场论文(Position Paper),没有庞大的实验堆砌,但论证框架清晰,理论证明严格,

它引发如此广泛的讨论,或许恰恰说明:这个问题,几乎每一个认真使用过长期Agent的工程师和研究者都曾隐约感受到,只是暂时没有人把它说清楚。

如果你正在构建长期运行的Agent系统,这篇论文提供了一个重要的概念校准:你存的那些「记忆」,到底是备忘录,还是真正的学习?

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢

当「龙虾」走进编辑部,媒体工作流如何被AI重构?

当「龙虾」走进编辑部,媒体工作流如何被AI重构?

文章作者、来源:36氪Pro 当传播大脑的“灵思超级助手”部署在腾讯云ClawPro上,传统媒体工作流真正迎来了从“串行流水线”到“并行智能体”的效率重构。 AI内容井喷的时代,新闻人的价值是什么? 这并非宏大叙事,而是悬在每一个媒体从业者头上的达摩克利斯之剑。大模型会写稿,AI会剪视频,数字人主播不请假、不喊累,当A
分享
MetaEra2026/05/19 13:26
智能体AI公益实战培训会将于6月13日在香港理工大学举行,开启AI Native 时代

智能体AI公益实战培训会将于6月13日在香港理工大学举行,开启AI Native 时代

文章作者、来源:ME News 当大模型技术从“被动问答”的工具属性,全速演进为“具备自主规划、决策与执行能力”的 Agentic AI(智能体 AI),一场席卷全球的生产力范式革命已悄然拉开序幕。对于当下的企业决策者、金融机构高管与科研学者而言,核心的命题已不再是“要不要拥抱 AI”,而是“如何在一线实操中解构 AI
分享
MetaEra2026/05/19 17:02
Agents 资本市场:自主代理将如何获得融资?

Agents 资本市场:自主代理将如何获得融资?

文章作者、来源:ChainCacther 十年内,Agent 公司将拥有专属的资本市场。不是加密领域的子经济体,也不是思想实验,而是一个真实的市场:拥有评级机构、承销商、指数、经纪人,以及使任何市场成为市场的制度机器。 一个如同公开股票市场一样真实的资本市场:在这个体系中,资本流向某一类经济主体,而无需依赖任何单一资金
分享
MetaEra2026/05/19 13:20

不懂K线也能赚?抄作业就够了

不懂K线也能赚?抄作业就够了不懂K线也能赚?抄作业就够了

3 秒复制大牛策略 ,自动开平仓,收益实时同步