

Papers - 2026-04-07
吾能观之数千而面色如故
Grounding-driven Visual Reasoning#
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
该论文指出当前 VLMs 的训练流程过度强调将视觉信息映射到已有的文本概念,导致它们在需要细粒度感知和新颖视觉实体推理的任务中失效。作者在语义、形状和人脸对齐的视觉对应任务上系统评估模型,发现当实体无法被语言命名时性能明显下降。通过 Logit Lens 分析,他们进一步发现模型会显式分配语义标签给可命名实体,而对不可命名实体输出的 token 更加模糊和重复。论文还尝试给未知视觉对象统一赋予任意名称,发现这能提升对应任务性能;而进行任务特定微调可以不依赖语言先验实现更强的泛化。整体来看,VLMs 的失败更像是训练中学到的文本捷径,而非多模态架构的根本限制。
Thinking with Images#
Token Warping Helps MLLMs Look from Nearby Viewpoints
Token Warping 提出用变形 tokens 替代像素来增强 MLLM 对近景视角变化的稳定理解,基于 ViT token 考察前向与后向 warping。方法采用后向 token warping:在目标视角上定义密集网格,再依次检索源视角的语义 token,保留结构一致性并规避小深度误差导致的几何扭曲。作者还基于 ViewBench 设计对比实验,结果显示该 token-level 变形在各种基线(包括像素级 warping、空间调优的 MLLM 和生成式变形)上都能更可靠地从附近视角推理。实验表明 token warping 大幅提升对视角变化的鲁棒性,使 MLLM 更接近人类所依赖的部分级结构心理意象。
Spatial Intelligence (Image/Video)#
Communicating about Space: Language-Mediated Spatial Integration Across Partial Views
该论文推出了COSMIC基准,用于考察多模态大语言模型在多个视角下通过对话整合空间信息、形成共享 allocentric 心智模型的能力。实验中,两个人工智能代理分别从不同视角观察三维室内场景,并通过自然语言消息协作回答空间问题,同时还收集了250组人类对话用于行为对比分析。COSMIC覆盖899个场景与1250个问答,结果显示模型在定位共享锚点物体方面最可靠,但在关系推理上表现更差,并且几乎无法构建全局一致的地图,最强模型(Gemini-3-Pro-Thinking)总体准确率仅72%,远低于人类的95%。研究还发现思考能力能提升锚点 grounding,但不足以支撑更高层次的空间交流;人类对话随着共识增强变得越来越精确,而模型则不断探索未收敛的表征。
Agent Training and Evaluation#
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
Agentic-MME 构建了一个过程可验证的多模态 agent 能力评估基准,围绕 6 个领域、3 个难度等级的 418 个真实任务衡量视觉+搜索工具协同解决问题的质控。方法上为每条任务路径构建沙箱代码与 API 调用环境,同时提供双轴注释(S 轴和 V 轴)的人工参考轨迹,并在 2000+ 个逐步检查点记录真实流程,从而不仅验证最终答复还检验是否正确调用和有效使用工具。为了度量效率,还引入“过度思考”指标与人类轨迹对齐,揭示模型是否多余搜索或重复操作。实验显示最强模型 Gemini3-pro 总体准确率为 56.3%,而在最高难度 Level-3 上骤降至 23.0%,凸显真实世界多模态 agentic 问题求解的挑战。
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
XpertBench 构建了一个包含 1,346 个跨金融、医疗、法务、教育、STEM 和人文等 80 个专业领域任务的高保真基准,所有题目均由顶尖研究者或资深从业者提交,因而具备优越的生态效度。每个任务配套 15-40 项加权评分细则,以确保评估聚焦专业严谨度。作者提出 ShotJudge,即用专家 few-shot 示例调校的 LLM 评审器,避免模型自评带来的偏差,实现可扩展的人类对齐评估。实验揭示即使是最先进模型也只在某些任务取得约 66% 的峰值成功率、平均得分约 55%,且在定量推理与语言整合任务上表现出非重叠的领域强项。该基准揭示当前通用模型与真实专家能力之间的“专家差距”,为专业协作型系统的训练与评价提供了重要工具。
Multimodal World Model#
A Simple Baseline for Streaming Video Understanding
SimpleStream 证明在流式视频理解场景中,仅用最近 N 帧喂给现成的 VLM 就能达到甚至超越多种复杂的记忆机制,提出了一个简单的滑动窗口基线。方法上只保留最靠近当前帧的短时窗,避免了复杂的长历史缓存并继续使用标准 VLM 推理。实验证明,在 OVO-Bench 上用 4 帧就能达到 67.7% 平均准确率,在 StreamingBench 上取得 80.59%,并在 13 个主流离线/在线基线中持续保持竞争力。对 ablation 研究显示:上下文长度的收益与 backbone 有关,长期上下文虽然提升召回但可能削弱实时感知,提示未来的记忆/检索模块必须在同协议下优于 SimpleStream 才算真正进步,也建议将短期感知和长期记忆拆开评测。