Papers - 2026-04-02 • Xingjian Wang

Thinking with Images#

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

LongCat-Next 引入 Discrete Native Autoregressive（DiNA）框架，将文本、视觉与音频统一映射到共享离散空间，实现单一自回归目标下的多模态建模。核心组件 dNaViT 能在任意分辨率下完成视觉信号的层级离散化与反离散化，使连续图像信息可在统一离散令牌上建模。整个模型尽量减少模态专用设计，通过统一接词与生成机制，在理解与生成两类任务间找到平衡。实验结果表明，LongCat-Next 在多个多模态基准上表现强劲，尤其在离散视觉理解任务上突破以往性能天花板。模型与分词器已开源，为原生多模态研究与工业应用提供基础设施。

Multimodal Agent#

GEMS: Agent-Native Multimodal Generation with Memory and Skills

ArXiv 幻觉翻译

GEMS（Agent-Native Multimodal Generation with Memory and Skills）通过代理循环、记忆与技能三大组件，克服基础模型处理复杂指令与专业任务的局限。Agent Loop 采用结构化多代理闭环优化，反复改进生成质量；Agent Memory 保存轨迹级别的事实与压缩经验，保证全局视角并消减冗余；Agent Skill 则以可按需加载的领域专长扩展能力，适应多样下游场景。该框架在五个主流任务与四个下游任务上评估，跨不同生成后端均显著提升性能。尤其在 GenEval2 上，轻量级的 6B 模型 Z-Image-Turbo 在 GEMS 驱动下超越了 Nano Banana 2，验证代理化机制能将模型能力拓展到原始极限之外。

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

ArXiv 幻觉翻译

Unify-Agent提出了一个面向世界级图像合成的统一多模态智能体框架，把生成过程拆解为提示理解、多模态证据检索、落地重述和最终合成四个agentic步骤。为此构建了专门的数据管道，收集了143K条agent轨迹用于训练整条流水线，并引入FactIP基准涵盖12类文化意义和长尾知识点，评估生成与外部知识一致性。结果显示在多项公开与现实任务上，Unify-Agent相比基线模型有明显提升，并在知识丰富性上接近最强闭源大模型，说明紧耦合搜索、推理与合成有助于开放世界图像生成。该工作验证了agent式建模在知识密集图像合成场景中的价值。

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

ArXiv 幻觉翻译

CutClaw构建一个多agent框架，用于自动将数小时素材剪辑成与音乐节奏同步的短视频艺术作品。它首先通过层级多模态分解捕捉视觉与音频的细节与全局结构，再由Playwriter Agent统筹叙事节奏、把视觉场景与音乐变化对齐，最后Editor和Reviewer Agents协作依据美学与语义标准筛选画面优化剪辑。实验表明CutClaw在生成节奏感强、叙事一致的视频方面显著优于现有最先进方法，验证了agent协作策略在长视频剪辑中的有效性。

3D Agent#

Extend3D: Town-Scale 3D Generation

ArXiv 幻觉翻译

Extend3D 提出一个无需训练的 3D 场景生成流水线，基于面向对象的 3D 生成模型，通过在 x、y 方向扩展隐空间并将其分块，允许对镇级规模的图像进行重建。为实现图像与局部隐空间严格对齐，作者以单目深度估计生成点云先验初始化场景，再通过 SDEdit 反复优化遮挡区域，并提出将结构不完整视为噪声的“欠噪”概念以完成推理。为了避免对象中心模型在子场景上的效果退化，扩展隐变量在去噪阶段被优化，并引入多项 3D 感知的几何与纹理一致性目标。实验证明在几何与纹理质量上均优于之前的方法，并通过人类偏好与定量指标验证了更高的泛化表现。

Embodied Agent#

CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

ArXiv 幻觉翻译

CARLA-Air 提供一个统一的基础设施，在单个 Unreal Engine 进程中将高保真城市驾驶和物理精确的多旋翼飞行结合，为低空经济与空地协同任务建模。该平台保留 CARLA 与 AirSim 原生 Python API 和 ROS 2 接口，通过统一的物理刻度与渲染管线同步捕获多达 18 种传感器模态，实现光线写实环境、合规交通以及流畅的社会感知行人。研究者可以用零改动重用已有的飞行与地面代码，且支持定制机器人平台与多模态感知、导航与 RL 策略训练等典型的空地体现智能工作负载。继承 AirSim 的飞行堆栈同时增加可扩展资源管线，让用户继续在现代基础设施中维护已广泛采用的空中能力。该平台已开源并提供预编译二进制与完整源码，便于社区构建完整的空地协同实验环境。

Agent Training and Evaluation#

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

ArXiv 幻觉翻译

FIPO（Future-KL Influenced Policy Optimization）针对大语言模型在推理过程中因粗粒度奖励导致的瓶颈，提出基于未来 KL 散度增强的稠密优势函数。该方法通过对策略更新引入衰减的未来 KL，令关键逻辑词元在策略更新中获得更大权重，从而区分高影响与低影响词元。与传统的经验奖励（ORM）相比，FIPO 形成了一套密集优势的训练机制，显著延展模型在长链式思维任务中的长度上限。实验以 Qwen2.5-32B 为基座，平均链式思维长度从约 4,000 提升至 10,000 以上，AIME 2024 Pass@1 准确率峰值达 58.0%，收敛时约 56.0%。该表现分别优于 DeepSeek-R1-Zero-Math-32B（约 47.0%）与 o1-mini（约 56.0%），凸显稠密优势在提升 ORM 式训练中的潜力。

Multimodal World Model#

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

ArXiv 幻觉翻译

VGGRPO旨在在保持预训练视频扩散模型能力的前提下提升几何一致性，以提供世界级连续的视频生成。方法通过引入Latent Geometry Model，将潜在视频特征与几何基础模型对齐，从潜在空间直接解码四维重建信息，并在此基础上用Group Relative Policy Optimization优化两个补充奖励：相机运动平滑性和几何重投影一致性，从而增强跨视角的几何连贯性。该方法能扩展到动态场景，避免频繁的VAE解码开销，并通过潜在空间的几何引导强化学习实现高效训练。实验在静态与动态基准上均证明VGGRPO在相机稳定性、几何一致性和整体质量上的提升，验证了其处理复杂场景的能力。