Papers - 2026-04-25 • Xingjian Wang

Embodied Agent#

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

UniT 聚焦人形机器人中的策略学习与世界建模，目标是为人类到人形机器人的控制建立统一的物理语言。论文将动作、状态和物理交互纳入同一表征框架，以支持跨任务迁移、长时序决策和世界模型学习。方法上，它通过统一表示连接不同来源的数据和技能，减少策略学习与建模之间的接口碎片化。实验表明，该统一物理语言能够提升人形机器人相关任务中的策略学习效果，并增强世界建模能力。

4D Understanding and Generation#

Seeing Fast and Slow: Learning the Flow of Time in Videos

ArXiv 幻觉翻译

这篇工作研究如何把“时间流速”作为视频中的可学习概念来理解和控制。作者先利用视频中的多模态线索和时序结构，自监督训练模型检测视频是否被加速或减速，并估计播放速度。基于这些时序表征，他们进一步从真实世界噪声数据中筛选并构建了大规模慢动作视频集。实验表明，模型不仅能进行速度条件的视频生成，还能做时间超分辨率，把低帧率模糊视频恢复为更高帧率、细节更丰富的序列。

Agent Training and Evaluation#

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

ArXiv 幻觉翻译

这篇工作提出 COSPLAY，用协同进化框架提升长时序任务中的 LLM 决策能力与技能复用能力。方法上，决策代理从可学习的 skill bank 中检索技能来指导动作生成，同时技能代理从未标注的 rollout 中持续发现、提炼和更新可复用技能及其契约。该设计让策略选择和技能库演化形成闭环，从而更好地应对多步推理、延迟奖励和部分可观测环境。实验覆盖六个游戏环境，结果显示 8B 基座模型在单人游戏基准上相比四个前沿 LLM 基线平均奖励提升超过 25.1%，并在多人社交推理游戏中保持竞争力。

Multimodal World Model#

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

ArXiv 幻觉翻译

WorldMark 提出了一个统一的交互式视频世界模型评测基准，用来解决不同模型各自使用私有场景和轨迹、难以公平比较的问题。它设计了统一的动作映射层，把共享的 WASD 风格动作翻译为各模型原生控制格式，并构建了覆盖第一/第三人称、真实/风格化场景以及不同难度的 500 个测试用例。论文还提供了模块化评测工具，分别衡量视觉质量、控制对齐和世界一致性。实验在六个主流模型上验证了该基准的可比性，并配套发布在线 Arena 供持续对战评测。

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

ArXiv 幻觉翻译

No summary available.