Papers - 2026-05-27 • Xingjian Wang

Multimodal Agent#

Macaron-A2UI: A Model for Generative UI in Personal Agents

这篇论文提出了 Macaron-A2UI，用于个人代理中的 Generative UI，让模型不仅输出文本，还能生成轻量可执行的界面动作。方法上，作者构建了大规模 Generative UI 语料，提出 A2UI-Bench 进行受控评测，并用 LoRA 监督微调结合奖励驱动强化学习训练 30B、235B 和 754B 模型。实验结果显示，最好的模型在不提供显式 schema 提示的情况下，在 A2UI-Bench 上取得 75.6 的总分，超过了最强的全 schema 基线。该工作还释放了模型、基准和评测协议，为后续个人代理的 UI 生成研究提供了基础。

4D Understanding and Generation#

Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

ArXiv 幻觉翻译

这篇工作提出 Pantheon360，用于从稀疏的 360° 输入生成高质量、可控的数字孪生视频。方法核心是先从输入重建一个显式的 3D Cache 作为几何支架，再让扩散模型在任意用户指定相机路径下完成纹理与细节补全，从而兼顾全局几何一致性和画面真实感。相比依赖窄视角透视视频生成的方案，它更容易覆盖完整场景并减少跨视角不一致与时间漂移。实验表明，该方法在视觉质量和几何一致性上都优于现有方法，并能稳定支持下游仿真和数字孪生应用。

Agent Training and Evaluation#

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

ArXiv 幻觉翻译

这篇工作提出了 ParaVT，用强化学习训练多模态视频代理在一次交互中并行调用多个视频工具窗口，而不是逐步串行裁剪。作者指出，现有方法容易出现单次错误传播、上下文污染和推理成本线性增长等问题，并提出 PARA-GRPO 来稳定格式与工具调用偏好。方法上结合了结构位置上的定向格式奖励和按提示随机化帧预算的奖励设计，缓解了工具先验带来的训练不稳定。实验显示，在 6 个长视频理解基准上，ParaVT 相比 Qwen3-VL 平均提升 7.9%，训练时格式遵从率从 0.13 提升到 0.64。

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

ArXiv 幻觉翻译

这篇工作提出 QUEST，一组面向深度检索研究的开源代理模型，覆盖 2B 到 35B 参数规模，目标是处理长链路搜索、事实核查、引用对齐和报告生成等任务。作者构建了一个由中间训练、监督微调和强化学习组成的训练流程，并通过统一 rubric tree 的数据合成管线，在无需人工标注的情况下生成可验证奖励的训练数据。系统还加入了内置的上下文管理机制，用于长程推理和知识综合。实验表明，QUEST 仅用 8K 合成任务就在 8 个深度研究基准上接近甚至超过闭源前沿系统，并取得近期开源代理中的最佳总体表现。

AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

ArXiv 幻觉翻译

这是一篇关于 AI 科研自动化的综述，系统梳理了从文献检索、假设生成、实验执行到结果报告的端到端研究工作流。作者将现有系统归纳为 AutoResearch 光谱，并区分了人类主导的 Vibe Research 与更高自治的 AI-led 研究系统。论文采用五个工作流条件来组织分析，包括文献 grounding、规划、工具使用、反馈验证以及报告沟通，并进一步总结了系统、基准与基础设施的发展现状。最后，作者提出 novelty、validity、impact、reliability 和 provenance 五个评估维度，指出当前自治能力在结构化、可执行、可快速验证场景中更可信，在具身、延迟、异构和强责任场景中仍受限。

Multimodal World Model#

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

ArXiv 幻觉翻译

这篇工作提出了 WBench，用于系统评测交互式视频世界模型在多轮交互下的表现。它从视频质量、设定遵循、交互遵循、一致性和物理一致性五个维度设计了 289 个测试案例和 1058 轮交互，并覆盖导航、主体动作、事件编辑和视角切换等任务。作者还设计了 22 个自动子指标，并用人工判断验证其有效性。对 20 个主流模型的评测显示，没有任何单一模型能在所有维度上都表现强劲，同时也揭示了各模型的典型优缺点。