长期记忆论文与项目调研报告

文档目标

本文档汇总大语言模型长期记忆方向中较有代表性的论文、基准和开源项目，重点回答四个问题：

长期记忆问题到底在解决什么
这个领域近两年的主流技术路线是什么
哪些项目已经做到较强的工程落地
对当前 webnovel-writer 最值得借鉴的能力是什么

说明：

本报告优先使用论文原文、arXiv 页面和项目官方仓库
报告不是穷举式综述，而是面向架构决策的工程调研
截止本次检索时间，最新参考到 2026 年 3 月可见资料

一句话结论

当前长期记忆方向已经很明确地形成了三条主线：

外部记忆 + 检索：把历史信息存到外部存储，再按需召回
分层记忆 + 编排：把近期上下文、历史证据、长期摘要分层管理
图结构 / 时态记忆：用知识图谱或时态图来处理事实更新、关系变化和时间推理

对我们项目最直接有用的不是“更大上下文”，而是：

独立的长期摘要层
统一的记忆编排层
面向事实更新的状态管理

为什么长期记忆仍然是独立问题

代表性基准都在说明同一件事：

单纯增加上下文窗口，并不能稳定解决长期记忆
模型在多会话、多时间点、事实更新、跨章节整合时仍然容易退化
记忆系统的核心不只是“存”，还包括“写入、压缩、检索、更新、冲突裁决”

这一点在以下基准中都被反复验证：

LoCoMo
LongMemEval
BEAM

评测基准

1. LoCoMo

论文：

Evaluating Very Long-Term Conversational Memory of LLM Agents
arXiv:2402.17753
链接：https://arxiv.org/abs/2402.17753

关键点：

数据集聚焦“超长期对话记忆”
每条对话平均约 300 turns
平均约 9K tokens
覆盖最多 35 sessions
评测问答、事件总结、多模态对话生成

价值：

是很多后续 memory 系统对比的常用基准
强调多轮会话与长期连续性，而不只是单文档检索

来源：LoCoMo 论文摘要页 https://arxiv.org/abs/2402.17753

2. LongMemEval

论文：

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
arXiv:2410.10813
链接：https://arxiv.org/abs/2410.10813

关键点：

明确拆出五种长期记忆能力：
- 信息抽取
- 多会话推理
- 时间推理
- 知识更新
- 拒答
包含 500 个精心构造的问题
论文指出，商业助手和长上下文模型在持续交互上的准确率会出现约 30% 下滑

价值：

比纯“召回率”更接近真实助手场景
很适合衡量“事实更新”和“跨会话推理”

来源：LongMemEval 论文摘要页 https://arxiv.org/abs/2410.10813

3. BEAM

论文：

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
arXiv:2510.27246
链接：https://arxiv.org/abs/2510.27246

关键点：

生成最长可达 10M tokens 的连贯对话
构建 100 段对话和 2000 个校验问题
同时提出 LIGHT 记忆框架
作者报告 LIGHT 相对强基线平均提升 3.5% - 12.69%

价值：

把“超长上下文”与“长期记忆”区分得更清楚
对我们这种长篇创作系统非常有参考价值

来源：BEAM/LIGHT 论文摘要页 https://arxiv.org/abs/2510.27246

代表论文

A. 早期外部记忆路线

MemoryBank

论文：MemoryBank: Enhancing Large Language Models with Long-Term Memory
arXiv:2305.10250
链接：https://arxiv.org/abs/2305.10250

核心思想：

把对话历史转成外部记忆
检索相关记忆参与回答
引入类似“遗忘曲线”的更新机制
强调用户画像和长期陪伴式交互

意义：

很早就提出“记忆不是纯存档，而是要更新和遗忘”
适合人格化、陪伴式、个性化场景

局限：

更偏对话陪伴
工程结构相对较早，抽象层级不够细

LongMem

论文：Augmenting Language Models with Long-Term Memory
arXiv:2306.07174
链接：https://arxiv.org/abs/2306.07174

核心思想：

冻结 backbone LLM 作为 memory encoder
旁路引入 retriever/reader side-network
把长期上下文缓存为外部记忆

意义：

代表“模型架构级长期记忆”的路线
不只是 prompt engineering，而是显式引入 memory 模块

局限：

对我们当前项目这种插件式工程系统，可复用性不如外部存储方案高

B. 分层记忆与虚拟上下文路线

MemGPT

论文：MemGPT: Towards LLMs as Operating Systems
arXiv:2310.08560
链接：https://arxiv.org/abs/2310.08560

核心思想：

把 LLM 看成“应用层”
通过类似操作系统的虚拟内存管理，把不同记忆层在上下文和外部存储间切换
用 memory tier 和 control flow 管理超出窗口的历史

意义：

是“分层记忆编排”这条路线的关键代表作
强调 memory paging、分层存储和自管理

局限：

偏 agent runtime
对小说写作系统来说，直接照搬成本较高

LIGHT

论文：Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
arXiv:2510.27246
链接：https://arxiv.org/abs/2510.27246

核心思想：

明确拆成三层：
- episodic memory
- working memory
- scratchpad
用统一编排器组合三者

意义：

和我们项目当前改造方向最接近
对“长期写作上下文”非常适配

局限：

目前还是较新的研究工作
更像工程原型，不是现成平台

C. 生产化记忆层路线

Mem0

论文：Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
arXiv:2504.19413
链接：https://arxiv.org/abs/2504.19413
官方仓库：https://github.com/mem0ai/mem0

核心思想：

动态提取对话中的显著信息
做记忆 consolidation
检索时优先使用精炼后的 memory，而不是整段历史
还有 graph-based 变体

官方声称：

在 LoCoMo 上相对 OpenAI Memory 有 +26% 提升
相对 full-context 有更低延迟与 token 成本

工程价值：

非常重视生产环境指标：延迟、token 成本、SDK 接入
是“记忆层产品化”的代表项目

局限：

更适合通用 agent/assistant
对小说写作的结构化剧情状态，还需要定制

来源：

论文摘要页 https://arxiv.org/abs/2504.19413
官方仓库 README https://github.com/mem0ai/mem0

Zep

论文：Zep: A Temporal Knowledge Graph Architecture for Agent Memory
arXiv:2501.13956
链接：https://arxiv.org/abs/2501.13956

核心思想：

用 Graphiti 作为时态知识图谱引擎
将对话和业务数据融合到一个可追踪历史的时态图中
强调动态知识集成、历史关系维护、低延迟检索

论文报告：

在 DMR 上优于 MemGPT
在 LongMemEval 上最高可提升 18.5%
相对基线延迟降低 90%

工程价值：

很适合“事实会变、关系会变、时间有强语义”的场景
对角色关系、势力变化、设定修订这类小说问题很有参考性

来源：Zep 论文摘要页 https://arxiv.org/abs/2501.13956

MIRIX

论文：MIRIX: Multi-Agent Memory System for LLM-Based Agents
arXiv:2507.07957
链接：https://arxiv.org/abs/2507.07957

核心思想：

设计六类记忆：
- Core
- Episodic
- Semantic
- Procedural
- Resource Memory
- Knowledge Vault
用多 Agent 协同管理更新和检索
扩展到多模态记忆

意义：

展示了“记忆分工继续细化”的趋势
证明未来 memory system 不一定只分三层

局限：

架构更复杂
对当前项目来说有参考价值，但不适合第一阶段直接引入

来源：MIRIX 论文摘要页 https://arxiv.org/abs/2507.07957

代表开源项目

1. Letta

仓库：https://github.com/letta-ai/letta
说明：原 MemGPT 项目已经并入 Letta

官方定位：

stateful agents
强调 agent 可跨会话持续存在、学习、自我改进

值得关注的点：

长寿命 agent
memory blocks
持久化 agent runtime

对我们的启发：

适合作为“长期存在的创作 Agent”参考
但它更像完整 agent 平台，不适合直接嵌入当前插件架构

来源：

Letta 仓库 README https://github.com/letta-ai/letta
官方说明 https://www.letta.com/blog/memgpt-and-letta

2. Mem0

仓库：https://github.com/mem0ai/mem0

官方定位：

Universal memory layer for AI Agents

值得关注的点：

SDK 化程度高
支持自托管和托管
强调多层 memory、用户偏好、会话和 agent 状态

对我们的启发：

非常适合作为“独立 memory layer”的工程参考
尤其适合看它怎么做 API、接入层和 memory 抽取流程

来源：Mem0 官方仓库 README https://github.com/mem0ai/mem0

3. Graphiti

仓库：https://github.com/getzep/graphiti

官方定位：

Build Real-Time Knowledge Graphs for AI Agents

特点：

时态知识图谱
支持实体、事实关系、原始 episodes、ontology
适合动态环境中的 agent memory

对我们的启发：

非常适合角色关系、势力结构、事件时间线
如果后续想做“剧情知识图谱”，Graphiti/Zep 是最值得研究的一类

来源：Graphiti 官方仓库 README https://github.com/getzep/graphiti

研究趋势总结

趋势 1：从“长上下文”转向“记忆系统”

近两年最明确的结论是：

长上下文不等于长期记忆
真正有效的方案都在做外部 memory、结构化抽取、分层编排

趋势 2：从“检索片段”转向“记忆写入与更新”

早期系统重点是：

怎么检索历史

近年的重点已经变成：

记忆写什么
什么时候合并
什么时候标记过期
遇到冲突怎么裁决

趋势 3：从“平面向量库”转向“图结构和时态结构”

在纯向量检索之外，越来越多系统开始强调：

entity / relation
temporal validity
provenance
update / invalidation

这对任何“事实会变化”的系统都非常关键。

趋势 4：生产系统开始关注成本和延迟

像 Mem0、Zep 这类项目，不再只讲准确率，而是同时强调：

p95 延迟
token 成本
开发者接入成本
托管与可观测性

对当前项目最有用的结论

最值得借鉴的不是某一个项目，而是三类能力

1. LIGHT 的分层思想

最适合我们当前项目的核心抽象仍然是：

working memory
episodic memory
scratchpad

原因：

我们已经有 working 和 episodic 的基础
当前最缺的正是 scratchpad

2. Zep/Graphiti 的时态事实处理

对小说系统特别重要的是：

同一角色状态会变
同一关系会演化
同一设定可能被修订

所以光做向量检索不够，必须有事实状态和时间语义。

3. Mem0 的工程落地方式

Mem0 很值得借鉴的是：

memory layer 独立化
SDK/接口清晰
生产环境关注延迟和 token 成本

这对我们把长期记忆做成独立模块非常有帮助。

对 `webnovel-writer` 的映射建议

可以直接吸收的部分

LIGHT：三层记忆结构
Mem0：独立 memory layer 设计
Zep/Graphiti：关系和时间线建模方式

暂时不建议直接照搬的部分

Letta：完整 stateful agent 平台，体量过大
MIRIX：分类太细，第一阶段会过重
LongMem：更偏模型架构级改造，不适合当前插件工程

我的建议排序

如果以“对当前项目收益 / 改造成本”排序，我建议优先关注：

LIGHT
Mem0
Zep / Graphiti
MemGPT / Letta
MIRIX
MemoryBank
LongMem

结论

长期记忆方向现在已经很清楚：

上下文窗口只是基础设施，不是最终答案
真正有效的是“分层记忆 + 持续写入 + 智能检索 + 冲突管理”

对当前项目来说，最现实的路线不是做一个通用 agent 平台，而是：

保留现有 state.json / index.db / vectors.db
新增 scratchpad 长期摘要层
再加一个统一的 memory orchestrator

这条路线与近期论文结论最一致，也最贴合当前系统基础。

参考链接

MemoryBank: https://arxiv.org/abs/2305.10250
LongMem: https://arxiv.org/abs/2306.07174
MemGPT: https://arxiv.org/abs/2310.08560
LoCoMo: https://arxiv.org/abs/2402.17753
LongMemEval: https://arxiv.org/abs/2410.10813
Zep: https://arxiv.org/abs/2501.13956
Mem0 论文: https://arxiv.org/abs/2504.19413
Mem0 仓库: https://github.com/mem0ai/mem0
MIRIX: https://arxiv.org/abs/2507.07957
Graphiti 仓库: https://github.com/getzep/graphiti
Letta 仓库: https://github.com/letta-ai/letta
Letta / MemGPT 迁移说明: https://www.letta.com/blog/memgpt-and-letta
LIGHT / BEAM: https://arxiv.org/abs/2510.27246

long-term-memory-research-report.md 13 KB Permalink History Raw

长期记忆论文与项目调研报告

文档目标

一句话结论

为什么长期记忆仍然是独立问题

评测基准

1. LoCoMo

2. LongMemEval

3. BEAM

代表论文

A. 早期外部记忆路线

MemoryBank

LongMem

B. 分层记忆与虚拟上下文路线

MemGPT

LIGHT

C. 生产化记忆层路线

Mem0

Zep

MIRIX

代表开源项目

1. Letta

2. Mem0

3. Graphiti

研究趋势总结

趋势 1：从“长上下文”转向“记忆系统”

趋势 2：从“检索片段”转向“记忆写入与更新”

趋势 3：从“平面向量库”转向“图结构和时态结构”

趋势 4：生产系统开始关注成本和延迟

对当前项目最有用的结论

最值得借鉴的不是某一个项目，而是三类能力

1. LIGHT 的分层思想

2. Zep/Graphiti 的时态事实处理

3. Mem0 的工程落地方式

对 webnovel-writer 的映射建议

可以直接吸收的部分

暂时不建议直接照搬的部分

我的建议排序

结论

参考链接

long-term-memory-research-report.md 13 KB

Permalink History Raw

对 `webnovel-writer` 的映射建议