Papers - 2026-04-14 • Xingjian Wang

Grounding-driven Visual Reasoning#

Structured Causal Video Reasoning via Multi-Objective Alignment

这篇文章提出在推理前构建“结构化事件事实”作为一个紧凑的语义先验，以便更明确地捕捉视频中的实体、动作和因果关系，从而弥补现有Video-LLM在因果推理上的脆弱性。为训练这种结构化表示，作者收集CausalFact-60K数据集并设计了四阶段训练流程（事实对齐、格式预热、思考预热以及基于强化学习的后训练），以逐步让模型适应结构化输入。强化学习阶段面临结构完整性、因果保真度和推理简洁性之间的冲突，故作者通过多目标强化学习将优化问题转换为寻找Pareto前沿。最终推出Factum-4B模型，在需要细粒度时间推理的挑战性视频理解任务上表现更加稳定，并在多条基准中获得优于以往方法的推理质量。

Thinking with Images#

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

ArXiv 幻觉翻译

VisionFoundry通过仅输入任务关键词（如深度顺序）让LLM生成问题、答案和图像提示，然后用文本到图像模型合成图像并借助私有VLM检验一致性，从而构建任务感知的合成视觉训练数据。该流程不依赖参考图像或人工标注，产生VisionFoundry-10K合成VQA数据集，涵盖10种低层视觉技能任务。实验显示，模型在MMVP基准上提升7%、在CV-Bench-3D上提升10%，说明目标性合成监督可以显著改善VLM的空间理解和视角识别能力，同时在扩展数据规模时仍能保持其他能力。

3D/Space Reasoning#

WildDet3D: Scaling Promptable 3D Detection in the Wild

ArXiv 幻觉翻译

WildDet3D提出统一的几何感知框架，原生支持文本、点和框三种提示，并在推理阶段可融合辅助深度信号以增强开放世界泛化能力。作者还构建了迄今最大的开放式3D检测数据集WildDet3D-Data，它基于现有2D标注生成候选3D包围盒并经人工验证，涵盖13.5K类、超过百万张多样场景图像。模型在结构上融合几何编码模块，使其能同时处理多模态提示并利用深度先验。在新建的WildDet3D-Bench上，模型在文本提示和框提示下分别达到22.6和24.8 AP3D，并在Omni3D上取得34.2/36.4 AP3D。零样本评估中，在Argoverse 2与ScanNet分别达到40.3/48.9 ODS，进一步在所有场景中加入深度后平均提效20.7 AP，验证了结构与数据的互补价值。

Agent Training and Evaluation#

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

ArXiv 幻觉翻译

FORGE构建了面向制造场景的高质量多模态数据集，结合实际2D图像与3D点云，并标注了细粒度领域语义，例如精确的型号与结构表面描述，便于衡量制造任务的真实需求。论文对18个先进的多模态大模型在工件验证、结构表面检测与装配验证三类任务上进行细致评估，结果表明视觉定位并非瓶颈，域知识缺失才是性能上限。为了验证数据的训练价值，作者对一个3B参数模型进行监督微调，利用FORGE数据后在多个制造场景上实现最高达90.8%的相对精度提升。该工作提供了明确的评估基准与训练路径，为制造领域的可部署多模态智能体指明方向。

Multi-User Large Language Model Agents

ArXiv 幻觉翻译

该工作首次系统性研究多用户大语言模型代理的多委托问题，目标是识别在多利益相关者与指令冲突下的薄弱环节。作者将多用户交互建模为多委托决策问题，提出统一的多用户交互协议，并设计三类压力测试场景评估指令遵循、隐私保护与协调能力。实验显示前沿模型在冲突目标下难以维持优先级，随着多轮交互隐私违规风险上升，协调时迭代信息收集导致效率瓶颈。该研究在多用户、多角色的组织级部署背景下总结出结构化评估流程，为未来多主体代理系统的改进提供依据。

Backdoor Attacks on Decentralised Post-Training

ArXiv 幻觉翻译

该论文首次提出针对流水线并行的后训练后门攻击，目标是通过控制模型中间阶段而不是全模或数据投毒对齐，从而揭示去中心化后训练的脆弱性。作者在模型中间阶段植入触发词后，强制模型学习错误关联，设计评估展示触发词出现时对齐率从80%骤降至6%。为了考察坚韧性，还在最终模型上加入安全对齐训练，结果仍有60%的后门成功率。实验在不同数据集与领域下反复验证，证明仅凭中间阶段有限控制就足以造成严重后门行为。

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

ArXiv 幻觉翻译

AgentSwing针对长期 Web 代理的有限上下文问题提出自适应并行上下文管理路由框架，强调搜索效率与终端精度两维度的概率性评估。方法是在每个触发点并行扩展多个上下文分支，并通过前瞻路由动态挑选最优延续，从而替代静态策略。作者进一步提出概率框架分析成功率，并在各类基准与代理骨干中与静态方法比较。实验结果显示 AgentSwing 以最多3倍更少的交互轮次匹配或超过静态策略表现，同时也提高了长期搜索的最终性能上限。

Multimodal World Model#

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

ArXiv 幻觉翻译

Matrix-Game 3.0面向720p实时长视频生成，提出集成记忆的交互式世界模型以兼顾高分辨率与长时一致性。数据方面采用升级的工业级无限数据引擎，融合Unreal引擎合成、AAA游戏自动采集与真实视频扩增，生成Video-Pose-Action-Prompt四元组；训练中通过残差建模与将非理想生成帧再注入实现自我纠错，并引入摄像机感知记忆检索注入，保障长期时空一致性。推理上采用基于分布匹配蒸馏的多段自回归策略、量化与VAE解码器剪枝，提升效率。实验显示5B模型可在720p下实现最高40 FPS实时生成，并在分钟级序列中保持稳定的记忆一致性；升级至2×14B后质量、动态与泛化进一步改善，展示可工业化部署的实用路径。