

Papers - 2026-04-14
吾能观之数千而面色如故
Grounding-driven Visual Reasoning#
Structured Causal Video Reasoning via Multi-Objective Alignment
这篇文章提出在推理前构建“结构化事件事实”作为一个紧凑的语义先验,以便更明确地捕捉视频中的实体、动作和因果关系,从而弥补现有Video-LLM在因果推理上的脆弱性。为训练这种结构化表示,作者收集CausalFact-60K数据集并设计了四阶段训练流程(事实对齐、格式预热、思考预热以及基于强化学习的后训练),以逐步让模型适应结构化输入。强化学习阶段面临结构完整性、因果保真度和推理简洁性之间的冲突,故作者通过多目标强化学习将优化问题转换为寻找Pareto前沿。最终推出Factum-4B模型,在需要细粒度时间推理的挑战性视频理解任务上表现更加稳定,并在多条基准中获得优于以往方法的推理质量。
Thinking with Images#
VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
VisionFoundry通过仅输入任务关键词(如深度顺序)让LLM生成问题、答案和图像提示,然后用文本到图像模型合成图像并借助私有VLM检验一致性,从而构建任务感知的合成视觉训练数据。该流程不依赖参考图像或人工标注,产生VisionFoundry-10K合成VQA数据集,涵盖10种低层视觉技能任务。实验显示,模型在MMVP基准上提升7%、在CV-Bench-3D上提升10%,说明目标性合成监督可以显著改善VLM的空间理解和视角识别能力,同时在扩展数据规模时仍能保持其他能力。
3D/Space Reasoning#
WildDet3D: Scaling Promptable 3D Detection in the Wild
WildDet3D提出统一的几何感知框架,原生支持文本、点和框三种提示,并在推理阶段可融合辅助深度信号以增强开放世界泛化能力。作者还构建了迄今最大的开放式3D检测数据集WildDet3D-Data,它基于现有2D标注生成候选3D包围盒并经人工验证,涵盖13.5K类、超过百万张多样场景图像。模型在结构上融合几何编码模块,使其能同时处理多模态提示并利用深度先验。在新建的WildDet3D-Bench上,模型在文本提示和框提示下分别达到22.6和24.8 AP3D,并在Omni3D上取得34.2/36.4 AP3D。零样本评估中,在Argoverse 2与ScanNet分别达到40.3/48.9 ODS,进一步在所有场景中加入深度后平均提效20.7 AP,验证了结构与数据的互补价值。
Agent Training and Evaluation#
FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
FORGE构建了面向制造场景的高质量多模态数据集,结合实际2D图像与3D点云,并标注了细粒度领域语义,例如精确的型号与结构表面描述,便于衡量制造任务的真实需求。论文对18个先进的多模态大模型在工件验证、结构表面检测与装配验证三类任务上进行细致评估,结果表明视觉定位并非瓶颈,域知识缺失才是性能上限。为了验证数据的训练价值,作者对一个3B参数模型进行监督微调,利用FORGE数据后在多个制造场景上实现最高达90.8%的相对精度提升。该工作提供了明确的评估基准与训练路径,为制造领域的可部署多模态智能体指明方向。
Multi-User Large Language Model Agents
该工作首次系统性研究多用户大语言模型代理的多委托问题,目标是识别在多利益相关者与指令冲突下的薄弱环节。作者将多用户交互建模为多委托决策问题,提出统一的多用户交互协议,并设计三类压力测试场景评估指令遵循、隐私保护与协调能力。实验显示前沿模型在冲突目标下难以维持优先级,随着多轮交互隐私违规风险上升,协调时迭代信息收集导致效率瓶颈。该研究在多用户、多角色的组织级部署背景下总结出结构化评估流程,为未来多主体代理系统的改进提供依据。
Backdoor Attacks on Decentralised Post-Training
该论文首次提出针对流水线并行的后训练后门攻击,目标是通过控制模型中间阶段而不是全模或数据投毒对齐,从而揭示去中心化后训练的脆弱性。作者在模型中间阶段植入触发词后,强制模型学习错误关联,设计评估展示触发词出现时对齐率从80%骤降至6%。为了考察坚韧性,还在最终模型上加入安全对齐训练,结果仍有60%的后门成功率。实验在不同数据集与领域下反复验证,证明仅凭中间阶段有限控制就足以造成严重后门行为。
AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents
AgentSwing针对长期 Web 代理的有限上下文问题提出自适应并行上下文管理路由框架,强调搜索效率与终端精度两维度的概率性评估。方法是在每个触发点并行扩展多个上下文分支,并通过前瞻路由动态挑选最优延续,从而替代静态策略。作者进一步提出概率框架分析成功率,并在各类基准与代理骨干中与静态方法比较。实验结果显示 AgentSwing 以最多3倍更少的交互轮次匹配或超过静态策略表现,同时也提高了长期搜索的最终性能上限。
Multimodal World Model#
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
Matrix-Game 3.0面向720p实时长视频生成,提出集成记忆的交互式世界模型以兼顾高分辨率与长时一致性。数据方面采用升级的工业级无限数据引擎,融合Unreal引擎合成、AAA游戏自动采集与真实视频扩增,生成Video-Pose-Action-Prompt四元组;训练中通过残差建模与将非理想生成帧再注入实现自我纠错,并引入摄像机感知记忆检索注入,保障长期时空一致性。推理上采用基于分布匹配蒸馏的多段自回归策略、量化与VAE解码器剪枝,提升效率。实验显示5B模型可在720p下实现最高40 FPS实时生成,并在分钟级序列中保持稳定的记忆一致性;升级至2×14B后质量、动态与泛化进一步改善,展示可工业化部署的实用路径。