Evo-Memory — 给"会自己长记性"的 agent 出一份统一考卷
是什么
Evo-Memory 是 2025 年 11 月一篇论文,做了两件事:第一,把 10+ 种”自进化 memory 模块”统一到一个框架;第二,提出一份流式任务 benchmark,专门测 agent 部署期间的”测试时学习”(test-time learning)能力。
日常类比:传统 LLM benchmark 像考一次性的笔试——题目独立,做完就清空。但真实场景的 agent 是连续上岗的员工,今天接的工单影响明天的判断。Evo-Memory 把考题排成一长串:每答完一题,agent 必须把经验写进 memory,下一题可能用得上。这才接近真实部署。
论文还顺手提了 ReMem——一个”act-think-memory”小循环 pipeline 作为强基线。
为什么重要
不接受”memory 应该会进化”,下面这些事就拼不到一起:
- 为什么 agent 在长会话/长任务流上越跑越钝
- 为什么 RAG 系统加了 memory 模块但没人能比较哪个更好
- 为什么各家”memory 模块”互相不兼容、对比无从谈起
- 为什么静态 QA benchmark 测不出 agent 的”学习”能力
核心要点
Evo-Memory 三块拼图:
-
统一接口:所有 memory 模块抽成
search / write / update三个原语。10+ 种现有方法(A-MEM、MemGPT、Reflexion-buffer、graph memory、向量库等)都能套进同一壳子,方便对比。类比:把 USB-A、Type-C、Lightning 都接到一个 hub 上。 -
流式数据集:把 10 个数据集(既有多轮目标导向也有单轮推理 QA)改写成”task stream”——一个一个串起来,agent 必须按序处理。类比:把高考的所有学科混成一张连续答题卡,做完一题不能回头。
-
ExpRAG + ReMem:作者给两个 baseline。ExpRAG 检索过去经验来辅助新任务;ReMem 是 action-think-memory refine 三段循环——动手、反思、修 memory。类比:ExpRAG 是”看历史档案”,ReMem 是”先想再做再总结”。
实践案例
案例 1:把 A-MEM 和 MemGPT 装进 Evo-Memory
class AMemAdapter: def search(self, query): ... def write(self, item): ... def update(self, item, new_meta): ...
class MemGPTAdapter: def search(self, query): ... def write(self, item): ... def update(self, item, new_meta): ...
bench.run(model=gpt4, memory=AMemAdapter())bench.run(model=gpt4, memory=MemGPTAdapter())# 同样数据流、同样模型,第一次能横向对比案例 2:流式答题真的能区分方法
在静态 QA 上 A-MEM 和 MemGPT 几乎打平。换到 Evo-Memory 流式跑 500 个任务:
前 100 题 301-500 题 累计平均A-MEM 62% 64% 63%MemGPT 61% 70% 66%ReMem 63% 77% 71%差距在”后期 task”才显现——这就是”自进化”应该测的能力,静态 benchmark 看不到。
案例 3:ReMem 的 action-think-memory 循环
for task in stream: think = llm("think about " + task + recent_memory) action = llm("act based on " + think) result = env.run(action) memory.refine(task, think, action, result) # 关键的 refine 步refine 不是简单 append,而是触发更新已有 memory(如修正之前错的判断)。这一步是 ReMem 击败简单 append 类方法的关键。
案例 4:相关度三档实验
Evo-Memory 设计了 high / mid / low 三档任务相关度。论文展示:
low corr mid corr high corrno memory 45% 47% 46%A-MEM 45% 58% 72%ReMem 48% 66% 81%低相关下 memory 几乎无用、高相关下提升巨大——单一相关度的 benchmark 容易得出片面结论,三档设计才公允。
踩过的坑
-
流式 vs 静态指标搞混:累计准确率会掩盖学习曲线——必须看分段曲线,看后期是否真的提升。
-
memory 大小没控制:A 模块 memory 长成 100MB,B 模块 1MB——比较不公平。Evo-Memory 强制 budget。
-
LLM 服务不稳定干扰评估:流式跑 500 任务遇 rate limit / 模型版本变化影响巨大。论文要求固定 snapshot。
-
task 之间相关性是双刃剑:相关度高 memory 收益巨大但容易”作弊”(类似题),相关度低 memory 几乎无用。Evo-Memory 设计了三档相关度。
适用 vs 不适用场景
适用:
- 设计 / 选型 memory 模块时做横向对比
- 评估自家 agent 的”长期学习”能力
- 写 paper 需要标准化 benchmark 来 challenge baseline
不适用:
- 单轮任务系统(用静态 benchmark 就够了)
- 模型权重微调路线(Evo-Memory 假设权重冻结)
- 需要真实多用户 / 多 session 场景(benchmark 是单 agent 流)
历史小故事(可跳过)
- 2023 年:MemGPT、A-MEM 等 memory 模块涌现,各家自报数据,无统一对比
- 2024 年:LongMemEval(Wu et al.)开始测 long-context memory,但仍是问答式
- 2025 年初:自进化 agent 综述(self-evolving-agents-survey)指出 memory 评估是空白
- 2025 年 11 月:Evo-Memory 把流式任务 + 统一接口 + 公开榜单做出来
学到什么
- benchmark 决定方向:没有合适 benchmark 的研究方向像没尺子的木匠
- 流式才是真实场景:静态 QA 测不出”学习”能力
- 统一接口是个体力活但回报巨大:让 10 种方法可比,价值远大于发明第 11 种
- ReMem 这种”refine 而不是 append”是 memory 设计的关键分水岭
- 相关度分档让对比更可信:单一难度容易过拟合方法
延伸阅读
- 论文 PDF:arXiv:2511.20857
- 配套 leaderboard:作者团队公开维护
- self-evolving-agents-survey —— Evo-Memory 给其中 memory 路径建评估平台
- exg-experience-graphs —— EXG 是 Evo-Memory 上可测的 memory 模块之一
- apex-policy-exploration —— 探索坍缩在长流上看得最清楚
关联
- self-evolving-agents-survey —— Evo-Memory 是 memory 路径的评估底座
- exg-experience-graphs —— 一种可被 Evo-Memory 评测的 memory 模块
- apex-policy-exploration —— 流式 benchmark 揭示探索坍缩
- misevolution-2509 —— 流式跑久了 misevolution 才显形
- code-as-agent-harness —— code agent 的 memory 一样能套这套接口
- react-agent —— ReAct + memory 是流式任务的常见基线
反向链接
- agent-r1-2511 —— Agent-R1 — 把 LLM agent 当 RL 环境训练的模块化框架
- apex-policy-exploration —— APEX — 给自进化 agent 配一张”策略图”防止它走老路
- code-as-agent-harness —— Code as Agent Harness — 把代码当 agent 的”骨架”来重新看 agentic AI
- eve-agent-evidence —— EVE-Agent — 自我训练前先把证据钉在桌上
- exg-experience-graphs —— EXG 经验图 — 把 agent 的成败拼成一张可复用的关系图
- kim-rowhammer-2014 —— RowHammer — 只读内存也能把邻居的 bit 敲 flip
- llm-wiki-retrieval-reasoning —— LLM-Wiki — 把外部知识编译成 agent 自己的”维基”
- memcoder-co-evolution —— MemCoder — code agent 跟着你 git commit 一起成长
- misevolution-2509 —— Misevolution — 自进化 agent 也会”越改越坏”,连顶配模型也躲不过
- self-evolving-agents-survey —— 自进化 AI agent 综述 — 给”会自己升级”的 agent 画一张统一地图
- self-evolving-recsys-2602 —— Self-Evolving RecSys — 让 LLM agent 自己跑超参实验上线
- self-evolving-software-agents —— BDI-LLM Self-Evolving Agents — 让 agent 自己改自己源代码