这项由哈尔滨工业大学、上海人工智能实验室、同济大学、厦门大学、复旦大学以及上海交通大学共同完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.05761。感兴趣的读者可以通过该编号在arXiv平台查找完整论文。
**一段让AI"记性"现原形的故事**
你有没有这样的经历:和一个朋友相处多年,每次聊到某个话题,他总是前后矛盾——有时说自己喜欢安静的咖啡馆工作,有时又说喜欢热闹环境,最后还说最近换去图书馆了。这时候如果你要帮他订个地方,单靠他某一次说过的话,十有八九会订错。正确的做法是把他所有说过的话放在一起,弄清楚这些话是互相补充的、还是因时因地而异的、还是干脆前后矛盾无法调和的,然后再做决定。
这件听起来连小学生都懂的事,现在最顶尖的AI助手做起来却远远没那么轻松。为了搞清楚AI到底能不能做到这一点,研究团队设计了一套专门的"考题",取名SubtleMemory,并用它对市面上十几款主流AI记忆系统进行了全面测试。结果出乎不少人意料——即使是最好的系统,距离满分也差了将近二十个百分点,而在某些特别刁钻的题目面前,号称最强的AI表现甚至连六成都不到。
**一、为什么AI助手需要"记性",而且还需要"好记性"**
把AI助手想成一个你雇来处理日常事务的私人秘书。刚开始,你只有一两件事要交代,秘书很快就能搞定。但随着时间推移,你们合作越来越久,他知道的关于你的信息越积越多——你的饮食偏好、工作习惯、最近的计划变化、曾经提过的矛盾心理。这时候秘书面临的挑战就不再是"记住某件具体的事",而是"在一大堆相互关联的信息里找到正确的那一条,并且清楚地知道它和其他信息之间是什么关系"。
现实中的AI助手(比如论文中提到的OpenClaw这类产品)每天都在积累大量用户的历史对话。这些历史对话里藏着形形色色的信息片段:有的互相印证、共同指向同一个结论;有的表面相似但其实只在特定情境下才成立;还有的则直接前后打架,无法同时为真。传统的AI记忆研究大多只问一个问题:"AI能不能记住某件事?"而这项研究提出了一个更难的问题:"AI能不能弄清楚它记住的这些事,彼此之间是什么关系?"
这个区别就像是:会背诵乘法口诀,和真正理解为什么三乘三等于九,是两回事。
**二、三种"记忆关系":互补、微妙、矛盾**
研究团队把AI需要处理的记忆关系归纳成三大类,这三类就像是三种不同难度的迷宫,AI需要在里面找到正确出口。
第一种叫做"互补关系"。好比你从朋友不同时间说的三句话里,分别知道了他喜欢非洲文学、偏好两百到三百页的篇幅、希望书里有女性作者——这三条单独拿出来都不足以帮你从书架上选出两本书,但合在一起就能精准锁定答案。这种情况下AI需要把分散在不同时间、不同对话里的碎片信息拼接成完整图景。研究团队把这类情况进一步分成两个子类:一种是需要同时用到所有线索才能得出答案(叫做"多证据"型),另一种是任意一条线索都已经足够指向同一答案(叫做"任一证据"型)。
第二种叫做"细微区别关系"。这更像是侦探故事里最难办的情节:两条线索看上去说的是同一件事,但仔细一看,一条是关于"当年研究生阶段"的情况,另一条是关于"现在"的情况。或者一条适用于"在家"的场景,另一条适用于"给孩子设计工作坊"的场景。AI必须准确识别这些细微的时间或情境差异,不能把不该混用的信息混为一谈。研究团队把这类情况也分成两个子类:因时间不同而答案不同的(叫做"时间型"),和因情境不同而答案不同的(叫做"情境型")。
第三种叫做"矛盾关系",是三类里最难的。这相当于秘书记下了两条正面冲突的信息,比如"这个用户喜欢看Nordic noir犯罪剧"和"这个用户觉得黑暗犯罪剧太沉重、从不看"。这两条不可能同时为真,AI既不能随便选一条当作正确答案,也不能假装没看见另一条,正确做法是诚实地承认"我记录到的信息有冲突,需要用户来澄清"。
**三、SubtleMemory的"考卷"是怎么出的**
出这套考卷的过程,研究团队设计了一条精密的五步流水线,每一步都有专门的过滤机制确保质量。
整个流程从"选种子"开始。研究团队从已有的高质量数据集里挑选了两类基础信息:一类是和用户个人相关的信息,比如某个虚构用户的生活习惯、喜好和计划;另一类是和用户无关的世界知识,比如某个城市的市花是什么、某本书的类型是什么。前者来自一个叫PersonaMem-v2的个人化数据集,后者则来自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等多个知识问答数据集。
有了种子信息之后,研究团队用AI生成"变体"。以一条"Bonita喜欢日式极简室内设计"的信息为例:如果是互补关系,就生成三条都和室内设计相关但侧重不同细节的描述,比如"偏好浅色木质家具"、"偏好中性色调"、"偏好收纳空间充足的简洁布局";如果是细微区别关系,就生成几条分别对应不同情境的描述,比如"在自己公寓里喜欢极简风"、"在工作室里喜欢北欧风"、"在临时展台上喜欢工业风";如果是矛盾关系,就生成两条针锋相对的描述,比如"喜欢极简风"和"不再想要极简风,现在喜欢复古繁复风"。
接下来,每一条变体信息都不是直接以"条目"的形式出现,而是被悄悄藏进一段自然的多轮对话里。一个用户在和助手讨论如何整理公寓采购清单,谈到"那些能活过每次收拾整理的东西,都是线条简洁、浅木色、素净色的"——这句话里就藏着她对家居风格的偏好信息。用户自己没有明说"我喜欢极简风",但读过这段对话的人能推断出来。这种设计模仿了真实助手使用场景里信息传递的方式——用户不会专门给助手背诵自己的偏好,而是在日常交谈中自然流露。
为了避免对话内容单调,研究团队定义了十种对话类型,包括决策支持、规划协调、故障排查、学习解释、资源选择、流程建立、信息整理、个人反思、产出内容、审阅本地化,每种类型还配有三种不同的交互节奏模板。每段对话从这些类型中随机采样,确保全套考卷里的对话场景尽可能丰富多样。
完成对话的生成之后,研究团队为每个知识点设计了对应的考题和参考答案。考题分两大类:针对世界知识的,就是直接问"谁在9-1-1里演Buck这个角色"这样的问题;针对用户个人信息的,要么是填表单(比如填写一张员工档案,其中有咖啡偏好一栏),要么是从提供的候选资源里选出最合适的(比如从一堆书里选出两本最符合这个用户品味的)。这两种形式都能让评判结果更客观、更可量化。
最后,所有这些对话都被拼成完整的长期历史记录。每份历史记录平均包含236.4段对话,合计约21.16万个词语单位,相关信息片段自然地散落在不同时间点,中间穿插大量无关内容。整个基准最终包含1522道评测题,背后对应1090组经过关系控制的信息变体集,其中互补关系占361组、细微区别关系占352组、矛盾关系占377组。
**四、谁来答这套卷子,谁来改卷**
研究团队评测了三种不同形态的AI记忆系统。第一种是"独立记忆系统",相当于一个专门负责存储和检索信息的模块,测试了六款:Mem0、MemOS、EverMemOS、MIRIX、A-Mem和MemoBase。第二种是"自带记忆的完整AI助手",测试了两款:OpenClaw和MetaClaw。第三种是"借助插件扩展记忆能力的AI助手",测试了OpenClaw分别搭载Mem0、MemOS、EverMemOS三种外部记忆插件后的表现。
改卷的工作由Gemini 3.1 Pro Preview Thinking模型担任"评委"。为了验证这位AI评委靠不靠谱,研究团队事先让人工标注了225道题的参考答案,然后拿AI评委的结论和人工结论对比。结果显示,两者的一致程度达到了Cohen's κ值0.963——这是一个非常高的一致性分数,意味着AI评委的判断几乎和人工判断一样可靠。
回答问题的模型,研究团队主要测试了两款:GPT-5.4和GPT-OSS-120B。他们还针对回答问题时用的提示词设计了两个版本:一个是"软提示",只给出大方向的指引;另一个是"强提示",明确告诉模型要精准识别目标信息、识别冲突、忠于证据、在证据不足时说清楚。从一套包含141道题的小规模校准实验里,他们发现GPT-5.4配合强提示能达到90.1%的整体正确率——但注意,这是在把原始对话直接喂给模型、完全绕过记忆系统的"理想条件"下取得的成绩,现实中记忆系统会带来额外损耗。基于这个发现,正式评测统一采用GPT-5.4加强提示的组合。
**五、测试结果:没有一个系统能真正过关**
正式测试的结果让人印象深刻——不是因为哪个系统特别出色,而是因为所有系统距离理想状态都还差得很远。
在使用GPT-5.4作为答题模型的情况下,最好的独立记忆系统是A-Mem,整体正确率70.0%;其次是Mem0,69.0%;再次是EverMemOS,68.1%。而理想条件下的"上限"(直接把相关原始对话喂给模型,完全不经过记忆系统)是85.4%。也就是说,最好的记忆系统也比理想状态低了超过15个百分点。
把A-Mem和MemoBase对比,差距更加触目惊心:A-Mem整体正确率70.0%,而MemoBase只有32.1%——这差距几乎等于一半的题目都答错了。
搭载记忆插件的OpenClaw表现怎样?Mem0加OpenClaw的组合达到了71.3%,略优于单独使用Mem0的69.0%;EverMemOS加OpenClaw达到69.1%,也略优于单独使用EverMemOS的68.1%。然而MemOS加OpenClaw的组合却只有56.5%,反而低于单独使用MemOS的56.8%——这说明加上AI助手的上下文管理层并不总是帮忙,有时反而会干扰。尤其是在使用GPT-OSS-120B这个稍弱一些的模型时,加上OpenClaw层几乎在所有组合里都带来了负面效果。
MetaClaw的表现令人惊讶地低,整体只有20.3%,比瞎猜好不了多少。原因在于MetaClaw的记忆机制更侧重于提炼"技能"和"经验"这类可复用的程序性知识,而不擅长保存需要精确细节的事实性记忆,这和SubtleMemory考察的需求正好背道而驰。
**六、三类关系,难度大不相同**
如果把整体成绩按三种关系类型拆开来看,差异更加明显。
互补关系的题目整体还算好做,但也要分子类型来看。"任一证据"型的题目,因为只需要从记忆里找到任意一条相关信息就够了,难度相对较低;"多证据"型的题目则需要把散落在多段对话里的几条信息全都找到并整合,难度明显更高。
细微区别关系的题目在"理想条件"下表现最好,几乎能达到饱和。这是因为这类题目虽然需要从多条相似信息里选出正确的那一条,但本质上只需要精准匹配,而不需要同时处理多条信息之间的复杂关系。然而在现实记忆系统的条件下,时间型的题目明显比情境型更难——有趣的是,理想条件下的表现正好相反,说明现有的记忆系统在处理时间信息时有额外的弱点,也就是说AI助手对"什么时候说的什么"这件事记录得不够精准。
矛盾关系的题目则是三类里最难的,没有任何悬念。即使在完全理想的条件下,GPT-5.4也只答对了68.7%,GPT-OSS-120B更只有41.6%。这意味着即使把所有相关对话直接摆在模型面前,它仍然很难正确地识别冲突、拒绝给出武断的答案。各系统在矛盾关系题目上的表现,普遍比互补和细微区别两类低了二三十个百分点,差距之大超过了研究团队的预期。这背后揭示的问题是:当前大型语言模型在面对无法调和的矛盾信息时,很容易倾向于"强行解决"——或者偷偷选一边站,或者发明一个不存在的理由把矛盾圆过去,而不是诚实地承认"这个问题我没有足够的信息来回答"。
**七、记忆损耗的三个环节:存、取、用**
为了更精准地弄清楚问题出在哪里,研究团队设计了一套三阶段的诊断方法,把AI记忆系统的工作流程拆成三个环节来分别考察。
第一个环节叫做"记忆保存"。研究团队先把所有历史对话完整地送进每个记忆系统,然后用"理想检索"的方式——直接把系统存储的、来自相关对话的记忆条目拿出来——来答题,看看和直接用原始对话相比,正确率下降了多少。下降的部分就代表在"把信息从对话转存成记忆"这个环节里损失掉的信息。
第二个环节叫做"检索能力"。保存环节过关之后,换成系统自己去检索相关记忆来答题,看看和"理想检索"相比又下降了多少。这一步的下降代表检索环节的损失。
第三个环节就是默认条件下的整体表现,把两个环节的损失叠加起来,得出最终成绩。
从这个三阶段诊断来看,各个系统的短板各不相同。A-Mem和OpenClaw在保存环节表现最好,分别达到了93.5%和91.5%的保存成功率。这两个系统有一个共同特点:除了把信息整理成结构化的记忆条目之外,它们还保留了原始对话记录。原始对话里包含很多细节,这些细节在压缩成摘要的过程中很容易丢失,但解答SubtleMemory的题目往往需要这些细节。MemoBase在保存环节只有39.1%,大量信息在进入记忆的第一步就丢了,但它在检索环节相对较强,达到了75.6%——意思是虽然存进去的东西不多,但只要存进去了,基本上还能找得到。OpenClaw保存得很好,但检索时矛盾关系题目的检索成功率只有34.2%,导致最终矛盾关系题目只答对了25.5%。这说明把冲突信息正确召回是一个特别棘手的问题。
从关系类型来看,矛盾关系的信息在保存阶段就特别容易"丢",很可能是因为互相冲突的事实在进入记忆系统时会相互干扰,被系统错误地合并或丢弃;互补和矛盾关系的题目在检索阶段也比细微区别关系更难,因为它们往往需要同时取出多条相关信息,而细微区别关系只需要取出最匹配的那一条。
**八、测试结论意味着什么**
说到底,这项研究做的事是用一把更精密的尺子来量AI助手的"记忆质量"。之前的研究问的是"AI记得住吗",这项研究问的是"AI记得清吗"——记得清楚不同时间、不同情境说过的话之间是什么关系,能不能在需要的时候把相关的信息全部找出来,能不能在信息相互矛盾时诚实地告知,而不是假装问题不存在。
测试结果表明,最好的系统还差着将近二十个百分点才能达到理想水平,而矛盾关系的处理即便在最理想的条件下也没有超过七成正确。这个发现对于任何正在开发或使用长期AI助手的人都很有参考价值:不要以为你的助手"记住"了你说过的话,就代表它真正"理解"了这些话之间的关系。尤其是当你的需求发生过变化、曾经说过前后矛盾的话的时候,助手很可能正在一本正经地给你一个基于错误理解的建议。
对于研究者来说,这项工作指出了一个清晰的改进方向:AI记忆系统需要在信息存储时保留更多细节(尤其是时间和情境信息),在检索时能够同时取回多条相关信息,在回答时能够识别矛盾并保持诚实。这三个方向任何一个单独突破,都能带来实质性的提升。
有兴趣深入探索这个话题的读者,可以通过arXiv:2606.05761查阅完整论文,研究团队的项目主页和代码也已经公开,方便有意在自己的记忆系统上运行SubtleMemory测试的开发者直接使用。
Q&A
Q1:SubtleMemory评测基准测的是AI记忆能力的哪个方面?
A:SubtleMemory不测AI能不能记住某件事,而是测AI能不能搞清楚它记住的多条相关信息之间是什么关系。具体来说分三种情况:多条信息是互相补充的,还是只在特定时间或情境下才成立,还是干脆互相矛盾。现有系统在这三类情况下的表现都有明显不足,矛盾关系的处理尤其困难,即使是最好的系统正确率也不到七成。
Q2:为什么AI记忆系统在处理矛盾信息时特别差?
A:核心原因有两个。一是现有记忆系统在把对话整理成记忆条目时,互相冲突的信息很容易被错误合并或丢弃,在存储阶段就已经损失了关键细节。二是大型语言模型本身在面对无法调和的矛盾时,倾向于强行选一边或发明理由把矛盾圆过去,而不是诚实承认信息存在冲突。这两个问题叠加,导致矛盾关系题目的得分在所有类别里垫底。
Q3:A-Mem为什么在保存环节表现特别好?
A:A-Mem除了把信息整理成结构化记忆条目之外,还额外保留了原始对话记录。原始对话里包含大量细节,这些细节在被压缩成摘要时很容易丢失,但SubtleMemory的很多题目恰恰需要这些细节才能答对。OpenClaw也有类似的特点,两者的保存成功率都超过了91%,远高于那些只保存结构化摘要的系统。