Papers - 2026-05-16 • Xingjian Wang

Agent Training and Evaluation#

Self-Distilled Agentic Reinforcement Learning

这篇论文提出了 Self-Distilled Agentic Reinforcement Learning（SDAR），用于改进多轮 LLM 代理的后训练。方法上，它把 on-policy self-distillation 作为门控辅助目标，与 RL 主优化并行，通过 sigmoid gate 强化教师认可的正向 token，并弱化负向拒绝信号带来的不稳定性。作者在 Qwen2.5 和 Qwen3 系列模型上，结合 ALFWorld、WebShop 和 Search-QA 做了评测。结果显示，SDAR 相比 GRPO 有明显提升，并且比直接叠加 GRPO+OPSD 更稳定。

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

ArXiv 幻觉翻译

这篇论文提出了 MEMLENS，一个用于评测大视觉语言模型长期多模态记忆能力的基准。它覆盖 789 个问题，包含信息抽取、多会话推理、时间推理、知识更新和拒答等能力，并在 32K 到 256K 的多种上下文长度下测试长上下文 LVLM 和记忆增强代理。作者还做了图像消融，证明很多题目确实依赖视觉证据。实验评测了 27 个 LVLM 和 7 个记忆代理，发现长上下文模型短期效果好但会随会话增长退化，记忆代理长度稳定但会损失视觉细节，整体上都难以单独解决任务。

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

ArXiv 幻觉翻译

这篇工作提出了 MemEye，一个面向多模态智能体长期记忆的视觉中心评测框架。它从两个维度设计评测：一是决定性视觉证据的粒度，从场景级到像素级，二是检索到的证据如何被使用，从单证据到演化式综合推理。作者据此构建了覆盖 8 类生活场景的新基准，并加入可回答性、反捷径、视觉必要性和推理结构等验证门控。对 13 种记忆方法、4 个 VLM 骨干的评测表明，现有方法仍难以保留细粒度视觉细节并跟踪状态变化。

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

ArXiv 幻觉翻译

这篇论文提出 WildClawBench，用来评测真实运行环境中的长时程智能体能力。它包含 60 个人工编写的双语多模态任务，运行在真实 CLI 智能体框架和 Docker 容器里，平均每个任务约 8 分钟、20 多次工具调用。评测方式结合了规则检查、环境状态审计和 LLM/VLM 判分，尽量覆盖最终效果与副作用。实验在 19 个前沿模型上显示，最佳模型 Claude Opus 4.7 也只有 62.2% 总分，且不同 harness 会让同一模型相差最多 18 分，说明该类评测仍然很难。

PREPING: Building Agent Memory without Tasks

ArXiv 幻觉翻译

这篇论文研究了智能体在没有目标环境任务经验时，如何先构建可用的程序性记忆。作者提出 Preping 框架，用 proposer 生成合成练习任务，solver 执行任务，validator 过滤可写入记忆的轨迹，并用反馈指导后续任务生成。该方法通过 proposer memory 作为控制状态，显式调节练习的可行性、冗余和覆盖范围，而不是单纯增加合成数据量。实验在 AppWorld、BFCL v3 和 MCP-Universe 上表明，Preping 明显优于无记忆基线，并接近基于离线或在线经验构建的强 playbook 方法；同时在 AppWorld 和 BFCL v3 上的部署成本分别比在线记忆构建低 2.99 倍和 2.23 倍。

Multimodal World Model#

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

ArXiv 幻觉翻译

这篇论文提出了面向实时交互视频生成的少步自回归蒸馏方案 Causal Forcing++。它用因果一致性蒸馏来初始化少步 AR 学生模型，并通过单步在线教师监督避免预计算完整轨迹的开销。作者还把该流程扩展到动作条件世界模型生成场景。实验表明，在 frame-wise 2-step 设置下，它在 VBench Total、VBench Quality 和 VisionReward 上都优于此前的 4-step Causal Forcing，同时把首帧延迟降低了 50%，第二阶段训练成本约降到原来的四分之一。

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

ArXiv 幻觉翻译

这篇论文提出了 SANA-WM，一个面向一分钟级视频生成的高效开源世界模型。模型采用 2.6B 参数规模，结合混合线性注意力、双分支相机控制、两阶段生成流程和鲁棒标注管线，实现了高分辨率、长时序且可精确相机控制的视频合成。作者使用约 21.3 万个公开视频剪辑进行训练，并在 64 张 H100 上用 15 天完成训练。实验显示，SANA-WM 在一分钟世界模型基准上比之前的开源方法具有更好的动作跟随能力，并以更高吞吐量达到接近工业级基线的视觉质量。

Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

ArXiv 幻觉翻译

这篇工作提出 Warp-as-History，用一种无需训练的接口实现相机控制的视频生成。方法把相机诱导的几何变换改写成“伪历史”帧，并与目标帧的位置编码对齐，同时过滤掉没有有效源观测的 token，再送入模型的视觉历史通道。作者还证明，这种设计能让冻结的视频生成模型零样本跟随相机轨迹；进一步只用一段相机标注视频做轻量 LoRA 微调，就能提升相机服从性、画质和运动表现。大量跨数据集实验表明，该方法在不做测试时优化的前提下具有稳定效果与泛化能力。