Papers - 2026-05-21 • Xingjian Wang

3D LLM#

Aurora: Unified Video Editing with a Tool-Using Agent

No summary available.

Agent Training and Evaluation#

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

这篇工作提出 OpenComputer，用可验证的软件世界来支持 computer-use agent 的训练和评测。它把应用级状态验证器、自我改进的验证层、任务生成管线和评测框架整合在一起，让桌面任务可以被机器检查并给出可审计的部分奖励。作者覆盖了 33 个桌面应用和 1000 个任务。实验表明，硬编码验证器比 LLM-as-judge 更接近人工判定，尤其在需要细粒度状态判断时更可靠；同时也揭示了 frontier agent 和开源模型在端到端完成上的明显差距。

AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

ArXiv 幻觉翻译

这篇工作提出 AutoResearchClaw，用多智能体协作来做自治科研流程。方法上结合了结构化多智能体辩论、自修复执行器、Pivot/Refine 决策循环、可验证结果报告以及跨运行经验累积。作者在 ARC-Bench 25 个任务上实验，结果比 AI Scientist v2 提升了 54.7%，并且在人机协作消融中发现定点介入比完全自治或全程监督更有效。

Process Rewards with Learned Reliability

ArXiv 幻觉翻译

这篇工作提出 BetaPRM，用分布式过程奖励模型同时预测步骤成功概率和该预测的可靠性。方法上用 Beta-Binomial 似然来学习 Beta 信念，而不是把有限样本成功率直接回归成点估计。作者在四种 backbone 和四个推理基准上验证，BetaPRM 提升了基于 PRM 的 Best-of-N 选择效果，并保持了步骤级错误检测能力；基于该可靠性信号的 ACA 最多可减少 33.57% 的 token 同时提升最终准确率。