

Papers - 2026-04-02
吾能观之数千而面色如故
Thinking with Images#
LongCat-Next: Lexicalizing Modalities as Discrete Tokens
LongCat-Next 引入 Discrete Native Autoregressive(DiNA)框架,将文本、视觉与音频统一映射到共享离散空间,实现单一自回归目标下的多模态建模。核心组件 dNaViT 能在任意分辨率下完成视觉信号的层级离散化与反离散化,使连续图像信息可在统一离散令牌上建模。整个模型尽量减少模态专用设计,通过统一接词与生成机制,在理解与生成两类任务间找到平衡。实验结果表明,LongCat-Next 在多个多模态基准上表现强劲,尤其在离散视觉理解任务上突破以往性能天花板。模型与分词器已开源,为原生多模态研究与工业应用提供基础设施。
Multimodal Agent#
GEMS: Agent-Native Multimodal Generation with Memory and Skills
GEMS(Agent-Native Multimodal Generation with Memory and Skills)通过代理循环、记忆与技能三大组件,克服基础模型处理复杂指令与专业任务的局限。Agent Loop 采用结构化多代理闭环优化,反复改进生成质量;Agent Memory 保存轨迹级别的事实与压缩经验,保证全局视角并消减冗余;Agent Skill 则以可按需加载的领域专长扩展能力,适应多样下游场景。该框架在五个主流任务与四个下游任务上评估,跨不同生成后端均显著提升性能。尤其在 GenEval2 上,轻量级的 6B 模型 Z-Image-Turbo 在 GEMS 驱动下超越了 Nano Banana 2,验证代理化机制能将模型能力拓展到原始极限之外。
Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis
Unify-Agent提出了一个面向世界级图像合成的统一多模态智能体框架,把生成过程拆解为提示理解、多模态证据检索、落地重述和最终合成四个agentic步骤。为此构建了专门的数据管道,收集了143K条agent轨迹用于训练整条流水线,并引入FactIP基准涵盖12类文化意义和长尾知识点,评估生成与外部知识一致性。结果显示在多项公开与现实任务上,Unify-Agent相比基线模型有明显提升,并在知识丰富性上接近最强闭源大模型,说明紧耦合搜索、推理与合成有助于开放世界图像生成。该工作验证了agent式建模在知识密集图像合成场景中的价值。
CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
CutClaw构建一个多agent框架,用于自动将数小时素材剪辑成与音乐节奏同步的短视频艺术作品。它首先通过层级多模态分解捕捉视觉与音频的细节与全局结构,再由Playwriter Agent统筹叙事节奏、把视觉场景与音乐变化对齐,最后Editor和Reviewer Agents协作依据美学与语义标准筛选画面优化剪辑。实验表明CutClaw在生成节奏感强、叙事一致的视频方面显著优于现有最先进方法,验证了agent协作策略在长视频剪辑中的有效性。
3D Agent#
Extend3D: Town-Scale 3D Generation
Extend3D 提出一个无需训练的 3D 场景生成流水线,基于面向对象的 3D 生成模型,通过在 x、y 方向扩展隐空间并将其分块,允许对镇级规模的图像进行重建。为实现图像与局部隐空间严格对齐,作者以单目深度估计生成点云先验初始化场景,再通过 SDEdit 反复优化遮挡区域,并提出将结构不完整视为噪声的“欠噪”概念以完成推理。为了避免对象中心模型在子场景上的效果退化,扩展隐变量在去噪阶段被优化,并引入多项 3D 感知的几何与纹理一致性目标。实验证明在几何与纹理质量上均优于之前的方法,并通过人类偏好与定量指标验证了更高的泛化表现。
Embodied Agent#
CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence
CARLA-Air 提供一个统一的基础设施,在单个 Unreal Engine 进程中将高保真城市驾驶和物理精确的多旋翼飞行结合,为低空经济与空地协同任务建模。该平台保留 CARLA 与 AirSim 原生 Python API 和 ROS 2 接口,通过统一的物理刻度与渲染管线同步捕获多达 18 种传感器模态,实现光线写实环境、合规交通以及流畅的社会感知行人。研究者可以用零改动重用已有的飞行与地面代码,且支持定制机器人平台与多模态感知、导航与 RL 策略训练等典型的空地体现智能工作负载。继承 AirSim 的飞行堆栈同时增加可扩展资源管线,让用户继续在现代基础设施中维护已广泛采用的空中能力。该平台已开源并提供预编译二进制与完整源码,便于社区构建完整的空地协同实验环境。
Agent Training and Evaluation#
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
FIPO(Future-KL Influenced Policy Optimization)针对大语言模型在推理过程中因粗粒度奖励导致的瓶颈,提出基于未来 KL 散度增强的稠密优势函数。该方法通过对策略更新引入衰减的未来 KL,令关键逻辑词元在策略更新中获得更大权重,从而区分高影响与低影响词元。与传统的经验奖励(ORM)相比,FIPO 形成了一套密集优势的训练机制,显著延展模型在长链式思维任务中的长度上限。实验以 Qwen2.5-32B 为基座,平均链式思维长度从约 4,000 提升至 10,000 以上,AIME 2024 Pass@1 准确率峰值达 58.0%,收敛时约 56.0%。该表现分别优于 DeepSeek-R1-Zero-Math-32B(约 47.0%)与 o1-mini(约 56.0%),凸显稠密优势在提升 ORM 式训练中的潜力。
Multimodal World Model#
VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward
VGGRPO旨在在保持预训练视频扩散模型能力的前提下提升几何一致性,以提供世界级连续的视频生成。方法通过引入Latent Geometry Model,将潜在视频特征与几何基础模型对齐,从潜在空间直接解码四维重建信息,并在此基础上用Group Relative Policy Optimization优化两个补充奖励:相机运动平滑性和几何重投影一致性,从而增强跨视角的几何连贯性。该方法能扩展到动态场景,避免频繁的VAE解码开销,并通过潜在空间的几何引导强化学习实现高效训练。实验在静态与动态基准上均证明VGGRPO在相机稳定性、几何一致性和整体质量上的提升,验证了其处理复杂场景的能力。