哈工大、上海AI实验室等发布:AI助手的"记性"到底有多靠谱？,哈工智能哈工大

这项由哈尔滨工业大学、上海人工智能实验室、同济大学、厦门大学、复旦大学以及上海交通大学共同完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.05761。感兴趣的读者可以通过该编号在arXiv平台查找完整论文。

**一段让AI"记性"现原形的故事**

你有没有这样的经历：和一个朋友相处多年，每次聊到某个话题，他总是前后矛盾——有时说自己喜欢安静的咖啡馆工作，有时又说喜欢热闹环境，最后还说最近换去图书馆了。这时候如果你要帮他订个地方，单靠他某一次说过的话，十有八九会订错。正确的做法是把他所有说过的话放在一起，弄清楚这些话是互相补充的、还是因时因地而异的、还是干脆前后矛盾无法调和的，然后再做决定。

这件听起来连小学生都懂的事，现在最顶尖的AI助手做起来却远远没那么轻松。为了搞清楚AI到底能不能做到这一点，研究团队设计了一套专门的"考题"，取名SubtleMemory，并用它对市面上十几款主流AI记忆系统进行了全面测试。结果出乎不少人意料——即使是最好的系统，距离满分也差了将近二十个百分点，而在某些特别刁钻的题目面前，号称最强的AI表现甚至连六成都不到。

**一、为什么AI助手需要"记性"，而且还需要"好记性"**

把AI助手想成一个你雇来处理日常事务的私人秘书。刚开始，你只有一两件事要交代，秘书很快就能搞定。但随着时间推移，你们合作越来越久，他知道的关于你的信息越积越多——你的饮食偏好、工作习惯、最近的计划变化、曾经提过的矛盾心理。这时候秘书面临的挑战就不再是"记住某件具体的事"，而是"在一大堆相互关联的信息里找到正确的那一条，并且清楚地知道它和其他信息之间是什么关系"。

现实中的AI助手（比如论文中提到的OpenClaw这类产品）每天都在积累大量用户的历史对话。这些历史对话里藏着形形色色的信息片段：有的互相印证、共同指向同一个结论；有的表面相似但其实只在特定情境下才成立；还有的则直接前后打架，无法同时为真。传统的AI记忆研究大多只问一个问题："AI能不能记住某件事？"而这项研究提出了一个更难的问题："AI能不能弄清楚它记住的这些事，彼此之间是什么关系？"

这个区别就像是：会背诵乘法口诀，和真正理解为什么三乘三等于九，是两回事。

**二、三种"记忆关系"：互补、微妙、矛盾**

研究团队把AI需要处理的记忆关系归纳成三大类，这三类就像是三种不同难度的迷宫，AI需要在里面找到正确出口。

第一种叫做"互补关系"。好比你从朋友不同时间说的三句话里，分别知道了他喜欢非洲文学、偏好两百到三百页的篇幅、希望书里有女性作者——这三条单独拿出来都不足以帮你从书架上选出两本书，但合在一起就能精准锁定答案。这种情况下AI需要把分散在不同时间、不同对话里的碎片信息拼接成完整图景。研究团队把这类情况进一步分成两个子类：一种是需要同时用到所有线索才能得出答案（叫做"多证据"型），另一种是任意一条线索都已经足够指向同一答案（叫做"任一证据"型）。

第二种叫做"细微区别关系"。这更像是侦探故事里最难办的情节：两条线索看上去说的是同一件事，但仔细一看，一条是关于"当年研究生阶段"的情况，另一条是关于"现在"的情况。或者一条适用于"在家"的场景，另一条适用于"给孩子设计工作坊"的场景。AI必须准确识别这些细微的时间或情境差异，不能把不该混用的信息混为一谈。研究团队把这类情况也分成两个子类：因时间不同而答案不同的（叫做"时间型"），和因情境不同而答案不同的（叫做"情境型"）。

第三种叫做"矛盾关系"，是三类里最难的。这相当于秘书记下了两条正面冲突的信息，比如"这个用户喜欢看Nordic noir犯罪剧"和"这个用户觉得黑暗犯罪剧太沉重、从不看"。这两条不可能同时为真，AI既不能随便选一条当作正确答案，也不能假装没看见另一条，正确做法是诚实地承认"我记录到的信息有冲突，需要用户来澄清"。

**三、SubtleMemory的"考卷"是怎么出的**

出这套考卷的过程，研究团队设计了一条精密的五步流水线，每一步都有专门的过滤机制确保质量。

整个流程从"选种子"开始。研究团队从已有的高质量数据集里挑选了两类基础信息：一类是和用户个人相关的信息，比如某个虚构用户的生活习惯、喜好和计划；另一类是和用户无关的世界知识，比如某个城市的市花是什么、某本书的类型是什么。前者来自一个叫PersonaMem-v2的个人化数据集，后者则来自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等多个知识问答数据集。

有了种子信息之后，研究团队用AI生成"变体"。以一条"Bonita喜欢日式极简室内设计"的信息为例：如果是互补关系，就生成三条都和室内设计相关但侧重不同细节的描述，比如"偏好浅色木质家具"、"偏好中性色调"、"偏好收纳空间充足的简洁布局"；如果是细微区别关系，就生成几条分别对应不同情境的描述，比如"在自己公寓里喜欢极简风"、"在工作室里喜欢北欧风"、"在临时展台上喜欢工业风"；如果是矛盾关系，就生成两条针锋相对的描述，比如"喜欢极简风"和"不再想要极简风，现在喜欢复古繁复风"。

接下来，每一条变体信息都不是直接以"条目"的形式出现，而是被悄悄藏进一段自然的多轮对话里。一个用户在和助手讨论如何整理公寓采购清单，谈到"那些能活过每次收拾整理的东西，都是线条简洁、浅木色、素净色的"——这句话里就藏着她对家居风格的偏好信息。用户自己没有明说"我喜欢极简风"，但读过这段对话的人能推断出来。这种设计模仿了真实助手使用场景里信息传递的方式——用户不会专门给助手背诵自己的偏好，而是在日常交谈中自然流露。

为了避免对话内容单调，研究团队定义了十种对话类型，包括决策支持、规划协调、故障排查、学习解释、资源选择、流程建立、信息整理、个人反思、产出内容、审阅本地化，每种类型还配有三种不同的交互节奏模板。每段对话从这些类型中随机采样，确保全套考卷里的对话场景尽可能丰富多样。

完成对话的生成之后，研究团队为每个知识点设计了对应的考题和参考答案。考题分两大类：针对世界知识的，就是直接问"谁在9-1-1里演Buck这个角色"这样的问题；针对用户个人信息的，要么是填表单（比如填写一张员工档案，其中有咖啡偏好一栏），要么是从提供的候选资源里选出最合适的（比如从一堆书里选出两本最符合这个用户品味的）。这两种形式都能让评判结果更客观、更可量化。

最后，所有这些对话都被拼成完整的长期历史记录。每份历史记录平均包含236.4段对话，合计约21.16万个词语单位，相关信息片段自然地散落在不同时间点，中间穿插大量无关内容。整个基准最终包含1522道评测题，背后对应1090组经过关系控制的信息变体集，其中互补关系占361组、细微区别关系占352组、矛盾关系占377组。

**四、谁来答这套卷子，谁来改卷**

研究团队评测了三种不同形态的AI记忆系统。第一种是"独立记忆系统"，相当于一个专门负责存储和检索信息的模块，测试了六款：Mem0、MemOS、EverMemOS、MIRIX、A-Mem和MemoBase。第二种是"自带记忆的完整AI助手"，测试了两款：OpenClaw和MetaClaw。第三种是"借助插件扩展记忆能力的AI助手"，测试了OpenClaw分别搭载Mem0、MemOS、EverMemOS三种外部记忆插件后的表现。

改卷的工作由Gemini 3.1 Pro Preview Thinking模型担任"评委"。为了验证这位AI评委靠不靠谱，研究团队事先让人工标注了225道题的参考答案，然后拿AI评委的结论和人工结论对比。结果显示，两者的一致程度达到了Cohen's κ值0.963——这是一个非常高的一致性分数，意味着AI评委的判断几乎和人工判断一样可靠。

回答问题的模型，研究团队主要测试了两款：GPT-5.4和GPT-OSS-120B。他们还针对回答问题时用的提示词设计了两个版本：一个是"软提示"，只给出大方向的指引；另一个是"强提示"，明确告诉模型要精准识别目标信息、识别冲突、忠于证据、在证据不足时说清楚。从一套包含141道题的小规模校准实验里，他们发现GPT-5.4配合强提示能达到90.1%的整体正确率——但注意，这是在把原始对话直接喂给模型、完全绕过记忆系统的"理想条件"下取得的成绩，现实中记忆系统会带来额外损耗。基于这个发现，正式评测统一采用GPT-5.4加强提示的组合。

**五、测试结果：没有一个系统能真正过关**

正式测试的结果让人印象深刻——不是因为哪个系统特别出色，而是因为所有系统距离理想状态都还差得很远。

在使用GPT-5.4作为答题模型的情况下，最好的独立记忆系统是A-Mem，整体正确率70.0%；其次是Mem0，69.0%；再次是EverMemOS，68.1%。而理想条件下的"上限"（直接把相关原始对话喂给模型，完全不经过记忆系统）是85.4%。也就是说，最好的记忆系统也比理想状态低了超过15个百分点。

把A-Mem和MemoBase对比，差距更加触目惊心：A-Mem整体正确率70.0%，而MemoBase只有32.1%——这差距几乎等于一半的题目都答错了。

搭载记忆插件的OpenClaw表现怎样？Mem0加OpenClaw的组合达到了71.3%，略优于单独使用Mem0的69.0%；EverMemOS加OpenClaw达到69.1%，也略优于单独使用EverMemOS的68.1%。然而MemOS加OpenClaw的组合却只有56.5%，反而低于单独使用MemOS的56.8%——这说明加上AI助手的上下文管理层并不总是帮忙，有时反而会干扰。尤其是在使用GPT-OSS-120B这个稍弱一些的模型时，加上OpenClaw层几乎在所有组合里都带来了负面效果。

MetaClaw的表现令人惊讶地低，整体只有20.3%，比瞎猜好不了多少。原因在于MetaClaw的记忆机制更侧重于提炼"技能"和"经验"这类可复用的程序性知识，而不擅长保存需要精确细节的事实性记忆，这和SubtleMemory考察的需求正好背道而驰。

**六、三类关系，难度大不相同**

如果把整体成绩按三种关系类型拆开来看，差异更加明显。

互补关系的题目整体还算好做，但也要分子类型来看。"任一证据"型的题目，因为只需要从记忆里找到任意一条相关信息就够了，难度相对较低；"多证据"型的题目则需要把散落在多段对话里的几条信息全都找到并整合，难度明显更高。

细微区别关系的题目在"理想条件"下表现最好，几乎能达到饱和。这是因为这类题目虽然需要从多条相似信息里选出正确的那一条，但本质上只需要精准匹配，而不需要同时处理多条信息之间的复杂关系。然而在现实记忆系统的条件下，时间型的题目明显比情境型更难——有趣的是，理想条件下的表现正好相反，说明现有的记忆系统在处理时间信息时有额外的弱点，也就是说AI助手对"什么时候说的什么"这件事记录得不够精准。

矛盾关系的题目则是三类里最难的，没有任何悬念。即使在完全理想的条件下，GPT-5.4也只答对了68.7%，GPT-OSS-120B更只有41.6%。这意味着即使把所有相关对话直接摆在模型面前，它仍然很难正确地识别冲突、拒绝给出武断的答案。各系统在矛盾关系题目上的表现，普遍比互补和细微区别两类低了二三十个百分点，差距之大超过了研究团队的预期。这背后揭示的问题是：当前大型语言模型在面对无法调和的矛盾信息时，很容易倾向于"强行解决"——或者偷偷选一边站，或者发明一个不存在的理由把矛盾圆过去，而不是诚实地承认"这个问题我没有足够的信息来回答"。

**七、记忆损耗的三个环节：存、取、用**

为了更精准地弄清楚问题出在哪里，研究团队设计了一套三阶段的诊断方法，把AI记忆系统的工作流程拆成三个环节来分别考察。

第一个环节叫做"记忆保存"。研究团队先把所有历史对话完整地送进每个记忆系统，然后用"理想检索"的方式——直接把系统存储的、来自相关对话的记忆条目拿出来——来答题，看看和直接用原始对话相比，正确率下降了多少。下降的部分就代表在"把信息从对话转存成记忆"这个环节里损失掉的信息。

第二个环节叫做"检索能力"。保存环节过关之后，换成系统自己去检索相关记忆来答题，看看和"理想检索"相比又下降了多少。这一步的下降代表检索环节的损失。

第三个环节就是默认条件下的整体表现，把两个环节的损失叠加起来，得出最终成绩。

从这个三阶段诊断来看，各个系统的短板各不相同。A-Mem和OpenClaw在保存环节表现最好，分别达到了93.5%和91.5%的保存成功率。这两个系统有一个共同特点：除了把信息整理成结构化的记忆条目之外，它们还保留了原始对话记录。原始对话里包含很多细节，这些细节在压缩成摘要的过程中很容易丢失，但解答SubtleMemory的题目往往需要这些细节。MemoBase在保存环节只有39.1%，大量信息在进入记忆的第一步就丢了，但它在检索环节相对较强，达到了75.6%——意思是虽然存进去的东西不多，但只要存进去了，基本上还能找得到。OpenClaw保存得很好，但检索时矛盾关系题目的检索成功率只有34.2%，导致最终矛盾关系题目只答对了25.5%。这说明把冲突信息正确召回是一个特别棘手的问题。

从关系类型来看，矛盾关系的信息在保存阶段就特别容易"丢"，很可能是因为互相冲突的事实在进入记忆系统时会相互干扰，被系统错误地合并或丢弃；互补和矛盾关系的题目在检索阶段也比细微区别关系更难，因为它们往往需要同时取出多条相关信息，而细微区别关系只需要取出最匹配的那一条。

**八、测试结论意味着什么**

说到底，这项研究做的事是用一把更精密的尺子来量AI助手的"记忆质量"。之前的研究问的是"AI记得住吗"，这项研究问的是"AI记得清吗"——记得清楚不同时间、不同情境说过的话之间是什么关系，能不能在需要的时候把相关的信息全部找出来，能不能在信息相互矛盾时诚实地告知，而不是假装问题不存在。

测试结果表明，最好的系统还差着将近二十个百分点才能达到理想水平，而矛盾关系的处理即便在最理想的条件下也没有超过七成正确。这个发现对于任何正在开发或使用长期AI助手的人都很有参考价值：不要以为你的助手"记住"了你说过的话，就代表它真正"理解"了这些话之间的关系。尤其是当你的需求发生过变化、曾经说过前后矛盾的话的时候，助手很可能正在一本正经地给你一个基于错误理解的建议。

对于研究者来说，这项工作指出了一个清晰的改进方向：AI记忆系统需要在信息存储时保留更多细节（尤其是时间和情境信息），在检索时能够同时取回多条相关信息，在回答时能够识别矛盾并保持诚实。这三个方向任何一个单独突破，都能带来实质性的提升。

有兴趣深入探索这个话题的读者，可以通过arXiv:2606.05761查阅完整论文，研究团队的项目主页和代码也已经公开，方便有意在自己的记忆系统上运行SubtleMemory测试的开发者直接使用。

Q&A

Q1：SubtleMemory评测基准测的是AI记忆能力的哪个方面？

A：SubtleMemory不测AI能不能记住某件事，而是测AI能不能搞清楚它记住的多条相关信息之间是什么关系。具体来说分三种情况：多条信息是互相补充的，还是只在特定时间或情境下才成立，还是干脆互相矛盾。现有系统在这三类情况下的表现都有明显不足，矛盾关系的处理尤其困难，即使是最好的系统正确率也不到七成。

Q2：为什么AI记忆系统在处理矛盾信息时特别差？

A：核心原因有两个。一是现有记忆系统在把对话整理成记忆条目时，互相冲突的信息很容易被错误合并或丢弃，在存储阶段就已经损失了关键细节。二是大型语言模型本身在面对无法调和的矛盾时，倾向于强行选一边或发明理由把矛盾圆过去，而不是诚实承认信息存在冲突。这两个问题叠加，导致矛盾关系题目的得分在所有类别里垫底。

Q3：A-Mem为什么在保存环节表现特别好？

A：A-Mem除了把信息整理成结构化记忆条目之外，还额外保留了原始对话记录。原始对话里包含大量细节，这些细节在被压缩成摘要时很容易丢失，但SubtleMemory的很多题目恰恰需要这些细节才能答对。OpenClaw也有类似的特点，两者的保存成功率都超过了91%，远高于那些只保存结构化摘要的系统。