Papers - 2026-04-07 • Xingjian Wang

Grounding-driven Visual Reasoning#

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

该论文指出当前 VLMs 的训练流程过度强调将视觉信息映射到已有的文本概念，导致它们在需要细粒度感知和新颖视觉实体推理的任务中失效。作者在语义、形状和人脸对齐的视觉对应任务上系统评估模型，发现当实体无法被语言命名时性能明显下降。通过 Logit Lens 分析，他们进一步发现模型会显式分配语义标签给可命名实体，而对不可命名实体输出的 token 更加模糊和重复。论文还尝试给未知视觉对象统一赋予任意名称，发现这能提升对应任务性能；而进行任务特定微调可以不依赖语言先验实现更强的泛化。整体来看，VLMs 的失败更像是训练中学到的文本捷径，而非多模态架构的根本限制。

Thinking with Images#

Token Warping Helps MLLMs Look from Nearby Viewpoints

ArXiv 幻觉翻译

Token Warping 提出用变形 tokens 替代像素来增强 MLLM 对近景视角变化的稳定理解，基于 ViT token 考察前向与后向 warping。方法采用后向 token warping：在目标视角上定义密集网格，再依次检索源视角的语义 token，保留结构一致性并规避小深度误差导致的几何扭曲。作者还基于 ViewBench 设计对比实验，结果显示该 token-level 变形在各种基线（包括像素级 warping、空间调优的 MLLM 和生成式变形）上都能更可靠地从附近视角推理。实验表明 token warping 大幅提升对视角变化的鲁棒性，使 MLLM 更接近人类所依赖的部分级结构心理意象。

Spatial Intelligence (Image/Video)#

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

ArXiv 幻觉翻译

该论文推出了COSMIC基准，用于考察多模态大语言模型在多个视角下通过对话整合空间信息、形成共享 allocentric 心智模型的能力。实验中，两个人工智能代理分别从不同视角观察三维室内场景，并通过自然语言消息协作回答空间问题，同时还收集了250组人类对话用于行为对比分析。COSMIC覆盖899个场景与1250个问答，结果显示模型在定位共享锚点物体方面最可靠，但在关系推理上表现更差，并且几乎无法构建全局一致的地图，最强模型（Gemini-3-Pro-Thinking）总体准确率仅72%，远低于人类的95%。研究还发现思考能力能提升锚点 grounding，但不足以支撑更高层次的空间交流；人类对话随着共识增强变得越来越精确，而模型则不断探索未收敛的表征。

Agent Training and Evaluation#

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

ArXiv 幻觉翻译

Agentic-MME 构建了一个过程可验证的多模态 agent 能力评估基准，围绕 6 个领域、3 个难度等级的 418 个真实任务衡量视觉+搜索工具协同解决问题的质控。方法上为每条任务路径构建沙箱代码与 API 调用环境，同时提供双轴注释（S 轴和 V 轴）的人工参考轨迹，并在 2000+ 个逐步检查点记录真实流程，从而不仅验证最终答复还检验是否正确调用和有效使用工具。为了度量效率，还引入“过度思考”指标与人类轨迹对齐，揭示模型是否多余搜索或重复操作。实验显示最强模型 Gemini3-pro 总体准确率为 56.3%，而在最高难度 Level-3 上骤降至 23.0%，凸显真实世界多模态 agentic 问题求解的挑战。

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

ArXiv 幻觉翻译

XpertBench 构建了一个包含 1,346 个跨金融、医疗、法务、教育、STEM 和人文等 80 个专业领域任务的高保真基准，所有题目均由顶尖研究者或资深从业者提交，因而具备优越的生态效度。每个任务配套 15-40 项加权评分细则，以确保评估聚焦专业严谨度。作者提出 ShotJudge，即用专家 few-shot 示例调校的 LLM 评审器，避免模型自评带来的偏差，实现可扩展的人类对齐评估。实验揭示即使是最先进模型也只在某些任务取得约 66% 的峰值成功率、平均得分约 55%，且在定量推理与语言整合任务上表现出非重叠的领域强项。该基准揭示当前通用模型与真实专家能力之间的“专家差距”，为专业协作型系统的训练与评价提供了重要工具。

Multimodal World Model#

A Simple Baseline for Streaming Video Understanding

ArXiv 幻觉翻译

SimpleStream 证明在流式视频理解场景中，仅用最近 N 帧喂给现成的 VLM 就能达到甚至超越多种复杂的记忆机制，提出了一个简单的滑动窗口基线。方法上只保留最靠近当前帧的短时窗，避免了复杂的长历史缓存并继续使用标准 VLM 推理。实验证明，在 OVO-Bench 上用 4 帧就能达到 67.7% 平均准确率，在 StreamingBench 上取得 80.59%，并在 13 个主流离线/在线基线中持续保持竞争力。对 ablation 研究显示：上下文长度的收益与 backbone 有关，长期上下文虽然提升召回但可能削弱实时感知，提示未来的记忆/检索模块必须在同协议下优于 SimpleStream 才算真正进步，也建议将短期感知和长期记忆拆开评测。