Appearance
Agent Research Weekly - 2026-02-09
本周聚焦:Agent Memory、Long-Horizon Agent、Context Retrieval & Long Context 筛选范围:2026-02-02 至 2026-02-09 | 排除多模态论文
一、Agent Memory 研究进展
领域趋势洞察
本周 Agent Memory 研究呈现三大主线:(1) Runtime Query-Aware Memory 成为热点,BudgetMem 等工作探索显式的性能-成本控制机制;(2) 跨 Agent/团队 Memory 共享 受到关注,Learning to Share 提出了并行系统中的选择性信息共享;(3) Graph-Based Memory 系统化,首篇全面综述从图视角梳理了 memory 的 taxonomy 和生命周期技术。此外,经验积累与持续进化也是重要方向,Self-Consolidation 和 UI-Mem 等框架探索 agent 的自我进化能力。
[1] BudgetMem: Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory 作者:Haozhen Zhang, Haodong Yue, Tao Feng et al. | 第一单位:清华大学等 链接:https://arxiv.org/abs/2602.06025
简单介绍:针对现有 agent memory 系统依赖离线、query-agnostic 内存构建导致的效率低下问题,提出 BudgetMem 框架,通过三层预算路由(Low/Mid/High)实现显式的 query-aware 性能-成本控制,在 LoCoMo、LongMemEval 和 HotpotQA 基准上超越强基线。
详细总结
相关工作:
- 离线内存构建:大多数现有系统在查询前静态构建 memory,可能丢弃关键信息
- 运行时内存利用:虽然更灵活,但以往工作开销大且缺乏显式的性能-成本控制
- 本工作差异:提出显式的 budget-tier routing 机制,通过轻量级神经网络策略动态选择 memory 模块的预算层级
创新点:
- BudgetMem 框架:将 memory 处理结构化为多个 memory 模块,每个模块提供三层预算(Low/Mid/High)
- 轻量级路由策略:使用紧凑的神经网络策略进行 budget-tier routing,通过强化学习训练
- 三层 tiering 策略:Implementation(方法复杂度)、Reasoning(推理行为)、Capacity(模块模型大小)
- 统一测试平台:系统研究不同 tiering 策略在各种预算制度下的 trade-offs
效果:
- 高预算设置:在 LoCoMo、LongMemEval、HotpotQA 上超越强基线
- 成本-准确率前沿:在 tighter budgets 下实现更好的准确率-成本权衡
- 策略分析:澄清了不同 tiering 策略在 varying budget regimes 下的优劣势
[2] Learning to Share (LTS): Selective Memory for Efficient Parallel Agentic Systems 作者:Joseph Fioresi, Parth Parag Kulkarni, Ashmal Vayani et al. | 第一单位:University of Central Florida 链接:https://arxiv.org/abs/2602.05965
简单介绍:针对并行 agentic 系统中多团队独立推理导致的大量重复计算问题,提出 Learning to Share (LTS) 框架,通过学习的选择性共享 memory 机制实现跨团队信息复用,在 AssistantBench 和 GAIA 基准上显著降低运行时间同时保持或提升任务性能。
详细总结
相关工作:
- 并行 agentic 系统:部署多团队并行探索 diverse reasoning trajectories 以提高鲁棒性和解决方案质量
- 计算成本问题:不同团队独立推理相似子问题时产生大量重叠计算
- 本工作差异:引入全局共享 memory bank 和轻量级控制器,实现选择性跨团队信息复用
创新点:
- 全局共享 Memory Bank:所有团队可访问的共享 memory 机制
- 轻量级 Memory 控制器:决定 agent 的中间步骤是否应该加入 memory
- Stepwise RL 训练:使用 usage-aware credit assignment 的逐步强化学习训练控制器
- 信息全局有用性识别:控制器能够识别在并行执行中全局有用的信息
效果:
- 效率提升:显著降低整体运行时间
- 性能保持:匹配或超越无 memory 并行基线的任务性能
- 基准测试:在 AssistantBench 和 GAIA 上验证有效
[3] Graph-based Agent Memory: Taxonomy, Techniques, and Applications 作者:Chang Yang, Chuang Zhou, Yilin Xiao et al. | 第一单位:厦门大学、香港理工大学等 链接:https://arxiv.org/abs/2602.05665
简单介绍:首篇从 graph-based 视角系统性综述 agent memory 的论文,提出完整的 taxonomy(短期 vs 长期、知识 vs 经验、非结构 vs 结构),覆盖 memory 生命周期的关键技术(提取、存储、检索、演化),并总结了开源库、benchmarks 及未来研究方向。
详细总结
相关工作:
- Agent memory 重要性:memory 是 LLM-based agents 处理长程复杂任务的核心模块
- Graph 结构优势:能够建模关系依赖、组织层次信息、支持高效检索
- 本工作差异:首次从 graph-based 视角全面综述 agent memory,提供 taxonomy 和关键技术系统分析
创新点:
- Taxonomy 分类框架:
- 短期 vs 长期 memory
- 知识 vs 经验 memory
- 非结构 vs 结构 memory
- Memory 生命周期技术:
- Memory Extraction:将数据转换为 memory 内容
- Storage:高效组织数据
- Retrieval:从 memory 检索相关内容支持推理
- Evolution:更新 memory 内容实现自我进化
- 开源资源总结:收集相关研究论文、开源数据和项目
- 未来方向:识别关键挑战和研究机遇
效果:
- 系统性:首次全面综述 graph-based agent memory
- 实用性:提供 actionable insights 促进高效可靠的 memory 系统开发
- 资源聚合:GitHub 收集相关资源 https://github.com/DEEP-PolyU/Awesome-GraphMemory
[4] UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents 作者:Han Xiao, Guozhi Wang, Hao Wang et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.05832
简单介绍:针对在线 RL 在 GUI agent 中的信用分配效率低和跨任务重复错误问题,提出 UI-Mem 框架,引入层次化经验记忆积累结构化知识(工作流、子任务技能、失败模式),支持跨任务和跨应用迁移,通过 Stratified Group Sampling 和 Self-Evolving Loop 实现 memory 与策略的持续对齐。
详细总结
相关工作:
- 在线 RL for GUI Agents:通过环境交互增强 GUI agent,但信用分配效率低
- 经验迁移缺失:缺乏经验迁移导致跨任务重复错误
- 传统 Replay Buffer:与 UI-Mem 的层次化经验记忆形成对比
创新点:
- 层次化经验记忆 (Hierarchical Experience Memory):
- 积累工作流、子任务技能、失败模式
- 参数化模板存储,支持跨任务和跨应用迁移
- Stratified Group Sampling:
- 在每个 rollout group 的不同轨迹中注入不同级别的 guidance
- 保持 outcome diversity,驱动无指导策略内化指导行为
- Self-Evolving Loop:
- 持续抽象新策略和错误
- 保持 memory 与 agent 进化策略的对齐
效果:
- 显著超越:显著超越传统 RL 基线和静态复用策略
- 强泛化性:在未见过的应用上表现良好
- 项目页: https://ui-mem.github.io
[5] InfMem: Learning System-2 Memory Control for Long-Context Agent 作者:Xinyu Wang, Mingze Li, Peng Lu et al. | 第一单位:McGill University 链接:https://arxiv.org/abs/2602.02704
简单介绍:针对超长文档(32k-1M tokens)中稀疏证据的多跳推理问题,提出 InfMem 控制中心 agent,通过 PreThink-Retrieve-Write 协议实现 System-2 风格的主动记忆管理,在保持有界内存的同时显著提升推理准确率并降低推理成本。
详细总结
相关工作:
- Streaming agents:采用被动内存更新策略,难以保留多跳推理所需的低显著性桥接证据
- MemAgent:作为主要对比基线
- 本工作差异:从被动流式处理转向主动控制式内存管理,引入认知科学 System-2 理论
创新点:
- PreThink-Retrieve-Write 协议:
- PreThink 阶段:监控当前内存是否足以回答问题,若不足则合成问题条件化的检索查询并预测检索规模
- Retrieve 阶段:对整个文档执行定向查询,支持非单调访问相关片段
- Write 阶段:将当前片段与检索证据联合整合到有界覆写内存中
- 自适应早停机制:一旦在内存中巩固足够证据即终止检索-写入循环
- SFT-to-RL 训练方法:先用推理正确轨迹进行监督微调预热,再应用基于验证器的强化学习
效果:
- 准确率提升:在 32k-1M token 超长 QA 基准(LongBench QA)上显著提升
- Qwen3-1.7B:平均绝对准确率 +10.17 分
- Qwen3-4B:平均绝对准确率 +11.84 分
- Qwen2.5-7B:平均绝对准确率 +8.23 分
- 效率优化:通过自适应早停,推理时间平均减少 3.9 倍(最高达 5.1 倍)
[6] Self-Consolidation for Self-Evolving Agents 作者:Hongzhuo Yu, Fei Zhu, Guo-Sen Xie et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.01966
简单介绍:针对现有 agent 系统作为静态系统缺乏终身交互进化能力的问题,提出自进化框架,引入对比反思策略总结错误模式和可复用洞察,通过自巩固机制将非参数化文本经验蒸馏为紧凑可学习参数,实现 agent 的长期进化。
详细总结
相关工作:
- 静态 Agent 系统:现有 LLM agents 通常作为静态系统运行
- 轨迹检索方法:主要依赖检索成功的过去轨迹作为演示,但忽略了失败尝试的教学价值
- 文本经验累积问题:持续累积文本经验增加检索时间并引入噪声
创新点:
- 对比反思策略 (Contrastive Reflection):
- 显式总结错误易发模式
- 捕获可复用的洞察
- 自巩固机制 (Self-Consolidation):
- 将非参数化文本经验蒸馏为紧凑可学习参数
- 使 agent 能够将大量历史经验内化到其潜在空间中
- 互补进化机制:对比反思 + 自巩固的双重机制
效果:
- 长期进化优势:在长期 agent 进化中展示优势
- 克服遗忘:避免仅关注成功而忽略失败的问题
- 克服上下文限制:解决文本经验累积导致的上下文窗口耗尽问题
二、Long-Horizon Agent 研究进展
领域趋势洞察
本周 Long-Horizon Agent 研究聚焦于结构化规划和边缘设备部署两大方向。Table-as-Search 将长程信息搜索重构为表格补全任务,通过结构化状态管理提升长程探索的稳定性。AgentCPM-Explore 则突破了边缘 scale 模型的长程探索能力,证明 4B 参数模型通过系统训练框架可以达到 8B 甚至更大模型的性能。此外,OdysseyArena 等基准测试推动了对 agent 归纳能力和极端长程交互的评估。ProAct 和 Empirical-MCTS 则从训练范式角度探索如何让 agent 内化前瞻推理能力。
[7] Table-as-Search (TaS): Formulate Long-Horizon Agentic Information Seeking as Table Completion 作者:Tian Lan, Felix Henry, Bin Zhu et al. | 第一单位:Alibaba International Digital Commerce 链接:https://arxiv.org/abs/2602.06724
简单介绍:针对长程信息搜索中状态追踪困难的问题,提出 Table-as-Search 框架,将 InfoSeeking 任务重构为表格补全任务,通过结构化表模式管理搜索状态,统一 Deep Search、Wide Search 和 DeepWide Search,在长程 InfoSeeking 中展示出优越的鲁棒性、效率和可扩展性。
详细总结
相关工作:
- 长程 InfoSeeking 挑战:在纯文本上下文中追踪搜索状态(规划过程和大量搜索结果)本质上很脆弱
- 现有 agent 困境:难以在长程探索中保持专注和连贯性
- 本工作差异:将任务重构为结构化表格补全,而非自由文本生成
创新点:
- 表格化状态管理:
- 将查询映射到外部数据库中维护的结构化表模式
- 行表示搜索候选,列表示约束或所需信息
- 双重功能设计:
- 已填充单元格:严格记录历史和搜索结果
- 空单元格:作为显式搜索计划
- 统一三种 InfoSeeking 任务:Deep Search、Wide Search、DeepWide Search
- 结构化规划框架:提供显式、可解释的搜索状态管理
效果:
- 显著超越:显著优于多种 SOTA 基线(包括多 agent 框架和商业系统)
- 长程鲁棒性:在长程 InfoSeeking 中展示优越鲁棒性
- 效率与可扩展性:高效且可扩展
[8] AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents 作者:Haotian Chen, Xin Cong, Shengda Fan et al. | 第一单位:清华大学等 链接:https://arxiv.org/abs/2602.06485
简单介绍:首个针对 4B 参数规模边缘 agent 模型的系统性研究,识别出阻碍边缘模型性能的三大瓶颈(SFT 灾难性遗忘、RL 奖励噪声敏感、长上下文冗余信息),提出 holistic 训练框架(参数空间模型融合、奖励信号去噪、上下文信息精炼),在 GAIA 文本任务上达到 97.09% 准确率,匹配或超越 8B 模型。
详细总结
相关工作:
- 大模型依赖:现有系统严重依赖大规模模型,边缘 scale 模型能力未被充分探索
- 边缘模型瓶颈:SFT 灾难性遗忘、RL 奖励噪声敏感、长上下文冗余信息导致的推理退化
- 本工作差异:首个系统研究 4B 参数规模 agent 模型的训练方法
创新点:
- 参数空间模型融合 (Parameter-Space Model Fusion):解决 SFT 灾难性遗忘
- 奖励信号去噪 (Reward Signal Denoising):降低 RL 对奖励噪声的敏感性
- 上下文信息精炼 (Contextual Information Refinement):处理长上下文冗余信息
- Holistic 训练框架:整合上述三种技术的完整训练流程
效果:
- SOTA 性能:在 4B 类模型中达到 SOTA
- 超越 8B 模型:在四个基准上匹配或超越 8B 类 SOTA 模型
- 超越大模型:在五个基准上超越 Claude-4.5-Sonnet、DeepSeek-v3.2 等更大模型
- GAIA 表现:在 GAIA 文本任务上达到 97.09% 准确率 (pass@64)
- 核心结论:边缘模型的瓶颈不是固有能力上限,而是推理稳定性
[9] OdysseyArena: Benchmarking LLMs for Long-Horizon, Active and Inductive Interactions 作者:Fangzhi Xu, Hang Yan, Qiushi Sun et al. | 第一单位:复旦大学等 链接:https://arxiv.org/abs/2602.05843
简单介绍:现有评估主要采用演绎范式,忽略了 agent 从经验中自主发现潜在转移规律的归纳能力。OdysseyArena 重新聚焦于长程、主动、归纳交互,形式化并实例化四个原语,提供 120 个标准化任务(OdysseyArena-Lite)和极端交互场景(>200步,OdysseyArena-Challenge),揭示即使前沿模型在归纳场景中也存在缺陷。
详细总结
相关工作:
- 演绎范式局限:现有评估基于显式规则和静态目标,规划范围有限
- 归纳能力缺失:忽视了 agent 自主发现潜在转移规律的能力
- 本工作差异:首次系统评估 agent 的归纳效率和长程发现能力
创新点:
- 归纳交互形式化:形式化并实例化四个原语,将抽象转移动态转化为具体交互环境
- 标准化基准 (OdysseyArena-Lite):
- 120 个任务
- 测量 agent 的归纳效率和长程发现能力
- 极端挑战 (OdysseyArena-Challenge):
- 极端交互场景(>200 步)
- 压力测试 agent 稳定性
- 统一评估框架:系统评估 15+ 领先 LLM
效果:
- 发现瓶颈:即使前沿模型在归纳场景中也存在缺陷
- 识别关键挑战:发现复杂环境中自主发现的关键瓶颈
- 推动研究:为长程归纳交互研究提供标准化评估平台
[10] ProAct: Agentic Lookahead in Interactive Environments 作者:Yangbin Yu, Mingyu Yang, Junyou Li et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.05327
简单介绍:针对 LLM agents 在长程规划中的复合错误问题,提出 ProAct 框架,通过两阶段训练范式使 agent 内化准确的前瞻推理。Grounded LookAhead Distillation (GLAD) 将环境搜索轨迹压缩为简洁的因果推理链,Monte-Carlo Critic (MC-Critic) 通过轻量级环境 rollout 校准价值估计,4B 模型在 2048 和 Sokoban 上超越所有开源基线并匹敌 SOTA 闭源模型。
详细总结
相关工作:
- 长程规划挑战:模拟未来状态时的复合错误
- 现有方法局限:缺乏有效的前瞻推理内化机制
- 本工作差异:通过蒸馏将搜索能力转化为模型内在能力
创新点:
- Grounded LookAhead Distillation (GLAD):
- 基于环境搜索的轨迹进行监督微调
- 将复杂搜索树压缩为简洁因果推理链
- 学习预见逻辑而无需推理时搜索开销
- Monte-Carlo Critic (MC-Critic):
- 即插即用的辅助价值估计器
- 利用轻量级环境 rollout 校准价值估计
- 为 PPO 和 GRPO 等策略梯度算法提供低方差信号
- 两阶段训练范式:GLAD + MC-Critic 的组合训练
效果:
- 规划准确率提升:在随机(2048)和确定性(Sokoban)环境中均显著提升
- 4B 模型表现优异:超越所有开源基线,匹敌 SOTA 闭源模型
- 强泛化性:在未见过环境上表现鲁棒
[11] Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search 作者:Hao Lu, Haoyuan Huang, Yulin Zhou et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.04248
简单介绍:针对现有 MCTS 方法无状态、丢弃成功推理模式的问题,提出 Empirical-MCTS 双循环框架,通过 Pairwise-Experience-Evolutionary Meta-Prompting (PE-EMP) 和 Memory Optimization Agent 实现局部探索与全局 memory 优化的统一,在 AIME25、ARC-AGI-2 和 MathArena Apex 上显著超越无状态 MCTS 策略。
详细总结
相关工作:
- Inference-time Scaling:MCTS 显著增强 LLM 推理能力
- 现有 MCTS 局限:主要无状态,每个问题实例后丢弃成功推理模式
- 人类问题解决:人类通过经验积累智慧,而非每次重新学习
- 本工作差异:将无状态搜索转化为连续的、非参数化的学习过程
创新点:
- 双循环框架 (Dual-Loop Framework):统一局部探索与全局 memory 优化
- PE-EMP (Pairwise-Experience-Evolutionary Meta-Prompting):
- 在局部搜索中作为反射式优化器
- 使用成对反馈动态合成自适应标准
- 实时演化 meta-prompts (system prompts)
- Memory Optimization Agent:
- 管理全局 repository 作为动态 policy prior
- 使用原子操作跨问题蒸馏高质量洞察
- 经验积累机制:结构化搜索与经验积累耦合
效果:
- AIME25:显著超越无状态 MCTS 策略
- ARC-AGI-2:超越独立经验驱动 agents
- MathArena Apex:在复杂开放推理任务上表现优异
- 核心结论:结构化搜索与经验积累耦合对于掌握复杂开放推理任务至关重要
三、Context Retrieval & Long Context 研究进展
领域趋势洞察
本周 Context Retrieval 和 Long Context 研究呈现三大趋势:(1) 结构化文档理解成为焦点,DeepRead 利用文档原生结构(标题、段落边界)提升长文档问答;(2) Context 检索评估基准涌现,ContextBench 针对 coding agent 的上下文检索过程进行细粒度评估,CL-bench 则测试模型从复杂上下文中学习新知识的能力;(3) 长上下文推理效率持续优化,LycheeDecode 通过混合头稀疏解码在 128K 上下文实现 2.7 倍加速。Bifrost 则探索了无需训练的上下文自适应方法。
[12] DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search 作者:Zhanli Li, Huiwen Tian, Lvzhou Luo et al. | 第一单位:中国科学院等 链接:https://arxiv.org/abs/2602.05014
简单介绍:针对现有 agentic 搜索将长文档视为扁平 chunk 集合、未充分利用文档层级结构和顺序话语结构的问题,提出 DeepRead,通过 LLM-based OCR 将 PDF 转为保留结构的 Markdown,引入坐标式元数据和 Retrieve/ReadSection 工具,实现类似人类的"定位-阅读"行为范式。
详细总结
相关工作:
- Agentic RAG 演进:从一次性被动检索向多轮决策驱动证据获取演进
- 文档处理局限:现有框架将长文档视为扁平 chunk 集合
- 本工作差异:显式利用文档原生先验(层级组织、顺序话语结构)
创新点:
- LLM-based OCR 转换:将 PDF 转为保留标题和段落边界的结构化 Markdown
- 坐标式元数据:为每个段落分配编码章节身份和章节内顺序的坐标式元数据键
- 双工具设计:
- Retrieve 工具:定位相关段落并暴露其结构坐标(带轻量级扫描上下文)
- ReadSection 工具:在指定章节和段落范围内进行连续、保序阅读
- "定位-阅读"范式:类似人类的文档阅读理解行为
效果:
- 显著提升:在文档问答中显著优于 Search-o1 风格的 agentic 搜索
- 工具协同效应:检索和阅读工具之间的协同效应得到验证
- 细粒度行为分析:揭示类似人类的"定位-阅读"行为模式
[13] ContextBench: A Benchmark for Context Retrieval in Coding Agents 作者:Han Li, Letian Zhu, Bohan Zhang et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.05892
简单介绍:现有 coding agent 评估主要关注最终任务成功,缺乏对上下文检索过程的洞察。ContextBench 是面向 coding agent 上下文检索的过程导向评估基准,包含 1,136 个 issue-resolution 任务和人工标注的 gold contexts,测量上下文召回率、精确率和效率,揭示 agent scaffolding 在上下文检索中仅带来边际提升("The Bitter Lesson")。
详细总结
相关工作:
- End-to-End 评估局限:现有评估关注最终成功率,忽略中间过程
- Context 检索黑盒:缺乏对 agent 如何检索和使用代码上下文的洞察
- 本工作差异:过程导向评估,追踪 agent 轨迹并测量中间指标
创新点:
- 大规模数据集:
- 1,136 个 issue-resolution 任务
- 来自 66 个 repositories,覆盖 8 种编程语言
- 人工标注的 gold contexts
- 自动化评估框架:
- 追踪 agent 轨迹
- 测量上下文召回率、精确率和效率
- 过程导向指标:提供中间 gold-context 指标,解构 issue-resolution 过程
- 细粒度分析:揭示探索和利用上下文之间的差距
核心发现:
- Bitter Lesson:复杂的 agent scaffolding 在上下文检索中仅带来边际提升
- Recall > Precision:LLMs 一致偏好召回而非精确
- 探索-利用差距:探索的上下文与利用的上下文之间存在显著差距
[14] LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding 作者:Gang Lin, Dongfang Li, Zhuoen Chen et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.04541
简单介绍:针对长上下文 LLM 推理中 KV cache 快速扩展导致的内存和延迟瓶颈,提出 LycheeDecode,通过细粒度混合头注意力机制和硬件高效的 top-k 选择策略,将注意力头分为检索头和稀疏头,在 128K 上下文长度实现 2.7 倍加速,生成质量匹敌甚至超越全注意力基线。
详细总结
相关工作:
- KV Cache 瓶颈:长上下文推理中 KV cache 快速扩展
- 粗粒度共享局限:跨层共享同一组关键 token 忽视注意力头的功能多样性
- 本工作差异:细粒度混合头注意力,保留注意力头的功能多样性
创新点:
- HardKuma-based 机制:
- 将注意力头分为检索头(动态识别关键 token)和稀疏头(复用关键 token)
- 硬件高效的 top-k 选择策略:确保高效计算
- 细粒度策略:克服现有粗粒度方法的性能瓶颈
- 功能多样性保留:不同注意力头承担不同功能角色
效果:
- 生成质量:在 Llama3 和 Qwen3 上,生成质量匹敌甚至超越全注意力基线
- 显著加速:在 128K 上下文长度实现 2.7 倍加速
- 多基准验证:在 LongBench、RULER(长上下文理解)和 AIME24、OlympiadBench(复杂推理)上验证
会议: ICLR 2026
[15] Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents 作者:Quan M. Tran, Zhuo Huang, Wenbin Zhang et al. | 第一单位:未明确 链接:https://arxiv.org/abs/2602.05810
简单介绍:针对自改进 agent 在跨任务复用轨迹时的上下文不匹配问题,提出 Bifrost,利用上下文差异精确引导历史轨迹适应目标任务。发现上下文-轨迹相关性(上下文偏移与轨迹偏移高度平行),在表示层面使用 agent hidden states 进行轨迹自适应,无需训练即可实现有效复用。
详细总结
相关工作:
- 轨迹复用挑战:跨任务时存在上下文不匹配
- 现有方法局限:要么丢弃轨迹,要么使用启发式操作,导致微调成本高或性能无保证
- 本工作差异:无需训练,利用上下文差异进行精确的轨迹自适应
创新点:
- 上下文-轨迹相关性发现:上下文偏移与轨迹偏移高度平行
- BrIdge contextual gap FoR imprOvised trajectory STeering (Bifrost):
- 利用上下文差异精确引导历史轨迹适应目标任务
- 缓解上下文偏移导致的错位
- 表示层面自适应:
- 使用 agent hidden states 进行轨迹自适应
- 在共享空间中准确对齐目标上下文
- 无需训练:training-free 方法
效果:
- 一致超越:在多个基准上一致超越现有轨迹复用和微调自改进方法
- 有效复用:即使存在显著上下文偏移,agent 也能有效利用过去经验
[16] CL-bench: A Benchmark for Context Learning 作者:Shihan Dou, Ming Zhang, Zhangyue Yin et al. | 第一单位:复旦大学等 链接:https://arxiv.org/abs/2602.03587
简单介绍:现有 LMs 主要利用预训练知识进行推理,但现实世界任务更复杂且依赖上下文:模型必须从任务特定上下文中学习并利用预训练之外的新知识。CL-bench 是首个 context learning 基准,包含 500 个复杂上下文、1,899 个任务,要求模型学习新领域知识、规则系统、复杂流程和经验数据导出的规律,揭示前沿模型平均仅解决 17.2% 的任务。
详细总结
相关工作:
- 预训练知识局限:现有 LMs 主要依赖预训练知识
- Context Learning 缺失:从上下文中学习并利用新知识的 capability 被 largely overlooked
- 长上下文 vs Context Learning:长上下文任务主要测试检索或阅读理解,in-context learning 主要学习简单任务模式
创新点:
- 真实世界基准:
- 500 个复杂上下文
- 1,899 个任务
- 31,607 个验证标准
- 由经验丰富的领域专家精心制作
- 多样化学习内容:
- 新领域特定知识
- 规则系统
- 复杂流程
- 经验数据导出的规律
- 超越现有任务:远超长上下文任务和 in-context learning 任务的复杂度
核心发现:
- 模型表现不佳:10 个前沿 LM 平均仅解决 17.2% 的任务
- 最佳模型局限:即使 GPT-5.1 也仅解决 23.7%
- Critical Bottleneck:Context learning 是处理真实世界复杂上下文依赖任务的关键瓶颈
意义:
- 新 capability 评估:首次系统评估 LMs 的 context learning 能力
- 推动研究:为构建具有这一基础能力的 LMs 提供评估平台
本周综合洞察
研究趋势总览
| 主题 | 核心趋势 | 代表论文 |
|---|---|---|
| Agent Memory | Runtime Query-Aware、跨 Agent 共享、Graph-Based、自进化 | BudgetMem、LTS、Graph Survey、Self-Consolidation |
| Long-Horizon Agent | 结构化规划、边缘 scale 探索、归纳能力评估、前瞻推理内化 | Table-as-Search、AgentCPM-Explore、OdysseyArena、ProAct |
| Context Retrieval | 结构化文档理解、过程导向评估、长上下文效率优化 | DeepRead、ContextBench、LycheeDecode |
关键趋势总结
从被动 Memory 到主动控制:BudgetMem 和 InfMem 展示了通过 query-aware routing 和 System-2 控制实现显式 memory 管理的新方向
Memory 共享与协作:Learning to Share 提出并行 agentic 系统中的选择性 memory 共享,多 agent 协作中的信息复用成为热点
边缘 Scale Agent 突破:AgentCPM-Explore 证明 4B 参数模型通过系统训练可以达到甚至超越大模型的长程探索能力
结构化 Context 理解:DeepRead 和 Table-as-Search 展示了利用文档/任务结构提升长上下文理解的有效路径
过程导向评估兴起:ContextBench 和 CL-bench 推动从 end-to-end 成功率向中间过程指标的评估转变
经验积累与持续学习:Empirical-MCTS 和 Self-Consolidation 探索 agent 通过 memory 实现持续学习和进化的机制
技术演进方向
- Memory:静态 → 动态/runtime → 主动控制/query-aware
- Context:扁平 chunk → 结构化文档 → 层次化表示
- 评估:End-to-end → 过程导向 → 细粒度中间指标
- 效率:全注意力 → 稀疏解码 → 混合头机制
- Scale:大模型中心 → 边缘 scale 优化 → 效率与能力并重
Generated by EamonBot 🔥 | 2026-02-09