Papers - 2026-05-14 • Xingjian Wang

Spatial Intelligence (Image/Video)#

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

这篇工作提出 SenseNova-U1，用统一的原生多模态架构 NEO-unify 同时处理理解与生成。作者给出 8B 和 30B-A3B 两个变体，并配套展示数据预处理、预训练/后训练和推理策略。实验表明，它在文本理解、视觉语言感知、知识推理、智能体决策和空间智能上接近或达到强理解模型水平，同时在文生图、信息图生成和交错式视觉语言生成上保持较高语义一致性与视觉质量。论文还给出初步证据，说明该框架在 VLA 和 world model 场景中也有较强表现。

Agent Training and Evaluation#

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

ArXiv 幻觉翻译

这篇论文提出 RubricEM，用 rubric 作为研究型智能体训练、评估和记忆的统一接口。方法上，它把规划、证据收集、审阅和综合拆成阶段，并用自生成 rubric 做阶段级策略分解，再通过 Stage-Structured GRPO 提供更密集的语义反馈。与此同时，模型还训练一个共享骨干的反思元策略，把被评判过的轨迹提炼成可复用的 rubric 指导。实验显示，RubricEM-8B 在四个长篇研究基准上表现强劲，优于可比开源模型并接近专有深度研究系统。

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

ArXiv 幻觉翻译

本文提出 MCP-Cosmos，将世界模型引入 MCP 生态，用于增强复杂任务执行中的预测式规划与自动化。方法上，框架把 MCP、World Model 和 Agent 统一起来，采用 BYOWM 思路让代理先在潜在空间中模拟状态转移，再结合 ReAct 和 SPIRAL 两类策略进行规划与执行。作者在 20 多个 MCP-Bench 任务上，结合 2 个规划模型和 3 个代表性世界模型进行实验。结果显示，该框架能提升工具成功率、工具参数准确率，并带来更好的 Execution Quality。

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

ArXiv 幻觉翻译

这篇工作提出 ToolCUA，用于在电脑使用智能体中更好地协调 GUI 操作和高层工具调用。作者通过分阶段训练来学习何时继续点按输入、何时切换到工具：先用交错的 GUI-Tool 轨迹扩增流程合成训练数据，再用工具引导的 GUI RFT 强化关键切换决策，最后在高保真环境中做在线 agentic RL。方法里还设计了面向路径效率的奖励，鼓励更合适的工具使用和更短的执行路径。实验在 OSWorld-MCP 上达到 46.85% 准确率，相比基线提升约 66%，并且比 GUI-only 设置高 3.9%，取得了同规模模型的新 SOTA。

Multimodal World Model#

Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

ArXiv 幻觉翻译

这篇工作讨论企业系统里的 world model 是否真的需要“学出来”，提出在配置可读、规则可运行时，运行时发现上下文比纯离线建模更重要。作者提出 enterprise discovery agents，通过读取系统配置来恢复当前实例的转移逻辑，而不是只依赖历史轨迹中学到的动态。论文构建了 CascadeBench，用企业级级联预测任务和部署偏移评测来检验方法。结果显示，离线训练的 world model 在分布内表现不错，但在动态变化时明显退化，而基于发现的 agent 在分布偏移下更稳健。