Papers - 2026-06-03 • Xingjian Wang

Agent Training and Evaluation#

A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

本文提出 TASTE，一种从工具序列演化出发自动合成评测任务的方法，用来提升 agent benchmark 的覆盖度和难度。它先用基于 LLM 评判有效性的自适应对比 n-gram 模型采样可行工具序列，再通过聚类挑选代表序列、实例化为完整任务，并通过迭代难度演化生成更难样本。作者据此构建了 τ^c-Bench，覆盖 τ^2-Bench 的三个领域。实验显示，接近饱和现有基准的模型在新任务上性能大幅下降，例如 Gemini-3-Flash 从 0.82-0.94 降到 0.28-0.61。生成的任务使独特工具组合数超过翻倍，说明现有高分并不一定代表稳健的任务解决能力。

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

ArXiv 幻觉翻译

本文提出 K-BrowseComp，一个面向韩国语境的网页浏览 agent 基准，共包含 400 道题。作者构建了 300 题的人工验证子集，由母语者手工编写和核验，并额外生成了 100 题合成对抗子集用于压力测试。实验表明，GPT-5.5、DeepSeek-V4-Pro、GLM-5.1 等前沿模型在验证子集上的准确率只有 30.00% 到 45.67%，明显低于 BrowseComp 水平。韩国本土模型表现更弱，仅有 0.00% 到 10.33%。在对抗过滤后的合成子集上，最强模型也只有 26.00%，说明该基准能有效暴露网页浏览与检索能力的薄弱环节。

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

ArXiv 幻觉翻译

本文提出 Harness-1，一种在状态外置的搜索 harness 中进行强化学习训练的 20B 搜索 agent。核心思路是把候选池、重要证据集合、验证记录和压缩后的观察等可恢复状态放到环境侧，由策略主要负责搜索决策、取舍和停止时机。这样可以减少模型在长轨迹中承担的记忆与整理负担，让 RL 更聚焦于语义搜索行为。作者在 8 个覆盖网页、金融、专利和多跳问答的检索基准上评测，Harness-1 平均 curated recall 达到 0.730，比下一个最强开源搜索子代理高 11.4 个百分点，并且在未见过的迁移基准上也表现稳健。结果表明，显式搜索状态配合 RL 能学到更可泛化的检索策略。

X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

ArXiv 幻觉翻译

这篇工作提出了 X-Stream，这是首个面向多流流式理解的基准，用来评估 MLLM 在多窗口、多视角和多设备场景下的在线跨流推理能力。数据集包含 932 个视频上的 4,220 个高质量问答，并通过双重验证流程避免模型过度依赖单一路流。作者还把 MLLM 视为“简单复用器”，并从信号复用理论角度系统分析其性能。实验显示，当前最先进的 MLLM 在并发流场景下表现仍然明显不足，整体得分大约只有 50%，主动推理能力也较弱。

SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

ArXiv 幻觉翻译

这篇工作提出 SkillAdaptor，用于让 LLM Agent 从失败轨迹中自动修正外部技能，而且不需要额外训练。方法先在失败轨迹里定位第一个可行动的错误步骤，再将责任归因到候选技能，并在显式验收检查下做定点更新，同时保持基座模型冻结。作者在 WebShop、PinchBench 和 Claw-Eval 上，结合 Kimi-K2.5、GLM-5 和 GPT-5.2 进行了评测。结果显示，该方法在三套基准上都优于无技能和现有技能适配基线，最高分别提升 PinchBench 平均分 1.5、Claw-Eval 平均分 1.8、WebShop 成功率 1.7 个点。

Multimodal World Model#

VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

ArXiv 幻觉翻译

这篇工作把 VLM 从“解题器”改造成“教师”，用于指导视频生成模型完成推理任务。方法上，VLM 先抽取任务规则并构造成可微奖励，再通过测试时在线优化一个轻量 LoRA 模块来修正视频生成模型的行为。这样做能更好地约束过程一致性和最终目标达成，而不是只依赖文本计划。作者在 VBVR-Bench 和 RULER-Bench 上评估，平均提升 16.7 分，明显超过 VLM-as-Solver 和 Best-of-N 基线。

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

ArXiv 幻觉翻译

这篇工作提出 VideoMLA，用低秩潜变量共享多头 KV cache，并配合解耦的 3D-RoPE 位置键来压缩分钟级自回归视频扩散的缓存开销。作者系统分析了视频扩散中 MLA 为什么有效，指出性能并不依赖预训练注意力本身的低秩谱结构，而是由 MLA 的瓶颈容量所主导。实验表明，该方法在每个缓存层可将每 token KV 内存减少 92.7%，同时保持生成质量。它在 VBench 上与短时流式基线相当，并在长时序设置下取得评测方法中的最佳总体分数，单卡 B200 吞吐提升 1.23 倍。