Papers - 2026-05-13 • Xingjian Wang

Agent Training and Evaluation#

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

这篇论文提出了 Soohak，一个由 64 位数学家从头编写的 439 题研究级数学评测基准，用来衡量大模型在接近数学前沿问题上的能力。它把题目分成挑战集和拒答集，前者测试真正的研究型推理，后者测试模型识别题目是否良定义并学会拒答的能力。实验显示，Gemini-3-Pro、GPT-5 和 Claude-Opus-4.5 在挑战集上的正确率分别为 30.4%、26.4% 和 10.4%，仍有很大提升空间。拒答集上没有模型超过 50%，说明当前模型对“不该答时主动停下”的能力还很弱。

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

ArXiv 幻觉翻译

这篇论文提出 TMAS，用多智能体协同的方式提升测试时计算扩展效果。方法上，它把推理过程组织成多个专门代理之间的协作，并引入分层记忆：经验库保存可靠的中间结论和局部反馈，指南库记录已尝试过的高层策略，避免重复探索。作者还设计了混合奖励强化学习，用来同时保持基础推理能力、增强经验复用并鼓励探索新策略。实验表明，TMAS 在多个高难推理基准上比现有测试时扩展方法获得更强的迭代提升，且训练后的扩展效果和稳定性更好。

SEIF: Self-Evolving Reinforcement Learning for Instruction Following

ArXiv 幻觉翻译

这篇工作提出 SEIF，用自我演化强化学习持续提升大模型的指令跟随能力。方法上，它把训练过程做成闭环，由 Instructor 逐步生成更难的指令，Filter 过滤冲突或无效样本，Follower 学习执行，Judger 提供强化学习奖励，并让 Instructor 与 Follower 交替共进化。作者在多个模型规模和架构上验证了方法的通用性，结果显示 SEIF 能稳定带来指令跟随性能提升。分析还指出，先充分训练打基础、再在后期适度训练更有利于避免过拟合并获得更好最终效果。

Multimodal World Model#

WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors

ArXiv 幻觉翻译

这篇工作提出 WorldReasonBench，用来从人类对齐角度压力测试视频生成器是否适合作为未来世界状态预测器。方法上，它构建了一套面向视频生成模型的评测基准，重点检查模型在世界状态推演、时序一致性和人类可理解推理上的表现。实验结果表明，这类模型在作为世界模型时仍存在明显短板，基准能够有效暴露这些失败模式。论文因此为评估和改进视频世界模型提供了更贴近人类判断的测试工具。