Papers - 2026-04-03 • Xingjian Wang

Thinking with Images#

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

ViGoR-Bench 提出以视觉生成模型为对象的推理压力测试，指出现有 AIGC 虽视觉真实但在物理、因果与空间推理能力上存在“逻辑荒漠”。该框架以图像到图像与视频等跨模态任务为基础，采用双路径评估流程、证据驱动自动判分和细粒度认知维度诊断。作者通过再现生成过程与结果双轨，以及一个与人类一致的自动评审器，确保评估同时考察推理链与输出质量。超过 20 个顶级模型的实验揭示主流系统仍有显著推理缺陷，证明 ViGoR 可作为下一代视觉模型的关键“压力测试”。

Thinking with Code/Structure#

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

ArXiv 幻觉翻译

Vision2Web 建立了从静态 UI 到全栈网站开发的分级评测，涵盖 193 个任务、918 张原型图和 1,255 条测试用例，以真实网站为素材。方法引入工作流驱动的代理验证范式，结合 GUI 代理验证器和基于视觉语言模型的裁判，确保评估既灵活又可复现。实验对多种视觉语言模型在不同编码代理框架下进行测试，结果显示在全面开发任务上仍存在巨大差距，尤其是跨页面交互与后端集成。该基准帮助诊断视觉编码代理在复杂工程场景中的短板并推动多任务协同能力提升。

3D LLM#

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

ArXiv 幻觉翻译

GaussianGPT提出用自回归方式直接生成3D高斯表示以完成完整场景的序列化构建，是对现有扩散或流匹配3D生成方法的另类补充。该方法先用带向量量化的稀疏3D卷积自编码器压缩高斯原语为离散令牌，再将令牌序列化并交给带有3D旋转位置编码的因果Transformer进行建模。Transformer通过逐步拼接空间结构与外观令牌，自然支持场景补全、续画，同时还能借助温度调节实现可控采样并灵活设定生成长度。实验展示GaussianGPT在保持与现代神经渲染管线兼容的同时，凭借显式高斯表示和自回归位置偏置，达成了可控且上下文感知的3D生成能力。

Agent Training and Evaluation#

Terminal Agents Suffice for Enterprise Automation

ArXiv 幻觉翻译

论文表明只依赖终端和文件系统的编码代理即可承担多种企业任务，无需复杂的多轮界面交互。作者通过让代理直接调用平台 API 并基于编程操作流程来办事，强调低级接口配合强大的基础模型就足够强。评估涵盖多样的真实企业系统，结果显示终端代理在准确率和效率上都能匹配甚至超越依赖复杂工具协议的架构。实验进一步证明这种端到端程序化路径在实际运维和自动化场景中更为稳定且成本更低。整体强调简化代理设定，避免不必要的图形或高层抽象层。

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

ArXiv 幻觉翻译

MiroEval 构建了适配深度研究代理的评估基准，覆盖 100 个真实用户任务并允许周期性更新，填补以往静态文本评测的空白。方法包括对结果的自适应合成评估、通过检索与多模态附件核验事实的机制、以及审计代理的搜索、推理再迭代过程三个维度套件。多维度评估揭示不同系统在结果与过程上的差异，流程质量成为预测最终表现的可靠指标。实验在 13 个系统上运行，发现多模态任务普遍难度上升 3 至 10 分，MiroThinker-H1 在两种设定中表现最均衡。人工验证与鲁棒性测试确保基准的信度，为下一代研究代理提供诊断工具。

Reasoning Shift: How Context Silently Shortens LLM Reasoning

ArXiv 幻觉翻译

Reasoning Shift 研究多种推理模型在不同上下文条件下的表现稳健性，发现上下文会悄然压缩推理轨迹长度。方法设计了三种情境：加长的无关上下文、多轮对话中的独立任务和作为复杂任务子步骤的问题，并分析推理轨迹、自我验证与不确定性管理。结果显示相比孤立呈现，同一问题在上下文干扰下推理步骤最多减半，同时自证与双重检查行为显著减少。虽然对简单问题仍保持性能，但在更难问题上可能削弱模型的可靠性，提示需要加强上下文管理机制。

HippoCamp: Benchmarking Contextual Agents on Personal Computers

ArXiv 幻觉翻译

HippoCamp在个人电脑级别上构建了真实用户文件系统的多模态文件管理基准，涵盖42.4GB、2K+文件、581条问答和46.1K条用于故障诊断的结构化轨迹，逼近真实的用户画像、搜索与逻辑推理需求。它针对用户画像、跨模态证据感知与多步语境推理设计评价流程，强调在密集个人文件系统中对长程检索与跨模态理解的考察。实验表明即使顶级商用模型在用户画像任务也仅拿到48.3%准确率，并由分步轨迹指出多模态感知与证据落地是主要瓶颈，提示当前个人助手能力仍难满足现实需求。([huggingface.co](https://huggingface.co/papers/2604.01221))

Brevity Constraints Reverse Performance Hierarchies in Language Models

ArXiv 幻觉翻译

研究发现大模型因自发冗长的回答而在部分基准上落后小模型，但限定简短输出能揭示其更强的潜在能力。通过在5个数据集、1485道题上对31种模型（0.5B-405B）系统评估，作者把过度展开归因于尺度相关的“overthinking”，并用“50词内回答”之类的brevity constraints干预。结果表明简短约束使大模型准确率提升26.3个百分点、性能差距缩小67%，在GSM8K与MMLU-STEM等集上甚至从输掉13.1/27.3个百分点反转为赢7.7/15.9个百分点，并在多家族模型上复现，强调需尺度感知的提示工程。([huggingface.co](https://huggingface.co/papers/2604.00025))

Universal YOCO for Efficient Depth Scaling

ArXiv 幻觉翻译

Universal YOCO将YOCO的解码器-解码器结构与递归计算结合，构造具有参数共享的Universal Self-Decoder，在有限的高效注意力层内反复迭代以控制KV缓存与预填充开销。该方案在保持常量全局KV缓存、线性预填充的同时通过部分递归拓展表示深度，从而实现YOCO与递归各自无法达到的能力-效率权衡。实验证实YOCO-U在通用与长上下文基准上依旧具备竞争力，说明高效注意力架构与递归计算的整合是可扩展LLM的有希望方向。([huggingface.co](https://huggingface.co/papers/2604.01220))

Multimodal World Model#

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

ArXiv 幻觉翻译

PerceptionComp通过人工标注的279段视频与1114道题构建复杂的感知推理基准，确保每道题必须整合多段时序视觉证据与组合逻辑才能解答。题目覆盖物体/属性/关系/位置/动作/事件等语义与空间子任务，要求模型兼顾语义识别、视觉对应、时间推理与空间推理等感知技能。人类在无法重放视频时准确率接近18.97%，Gemini-3-Flash五选问题也只有45.96%，开源模型更低于40%，表明感知驱动的长程视频推理仍是主要瓶颈。([huggingface.co](https://huggingface.co/papers/2603.26653))