Papers - 2026-06-20 • Xingjian Wang

3D/Space Reasoning#

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

这篇工作提出了一个无需训练的文本驱动 3D 视觉幻觉生成框架 JanusMesh，目标是让同一个 3D 网格从不同视角呈现出完全不同的语义。方法上，它将生成拆成两阶段：先在体素空间做跨空间双分支去噪，结合 CLIP 引导的方向对齐和 SDF 融合来保证几何连贯；再用视角条件纹理合成模块，把不同视角的 2D 扩散先验投到融合后的几何上。实验显示，该方法只需约 3 到 5 分钟即可生成高真实感、双语义的 3D 幻觉。与现有方法相比，它在几何完整性、语义可辨识度和效率上都更优。

Embodied Agent#

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

ArXiv 幻觉翻译

这篇工作提出 DragMesh-2，用于让灵巧机械手在关节式物体上完成物理上可行的交互与拖拽操作。方法上，它把原本偏对象中心的关节运动生成，改造成由手部接触驱动的交互建模，并提出 PICA 机制，在没有触觉或力反馈的情况下把物理信号注入策略学习，以提升对接触载荷变化的鲁棒性。作者还系统评估了不同阻尼条件和多类关节物体，专门考察接触负载变化下的稳定性。实验显示，DragMesh-2 在 7 个 GAPartNet 物体上相较对比方法具有更强的鲁棒性，同时保持较高任务成功率。

Playful Agentic Robot Learning

ArXiv 幻觉翻译

这篇工作研究具身代码智能体如何通过“玩耍式”自我探索来持续学习技能。作者提出 RATs，让机器人智能体在下游任务到来前，先主动生成可学习的探索任务、执行 Code-as-Policy 程序、检查中间结果、诊断失败并把成功经验沉淀到持久技能库中。测试时，智能体会从冻结技能库中检索相关技能来辅助新任务求解。实验在 LIBERO-PRO 和 MolmoSpaces 上表明，这种 play-learned 技能相比无玩耍和随机玩耍基线带来显著提升，并且把技能直接注入其他 inference-time Code-as-Policy 智能体后，也能在 RoboSuite 和真实世界迁移上继续提升表现。

ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

ArXiv 幻觉翻译

这篇工作提出 ImageWAM，用图像编辑模型替代传统依赖视频生成的世界动作模型，用于机器人动作预测。作者认为图像编辑更适合建模从当前帧到目标帧的变化，因此能够聚焦与动作相关的视觉差异，并通过编辑预训练更好地对齐任务指令与局部变化。方法上，模型不在推理时解码目标帧，而是利用图像编辑去噪过程产生的 KV cache 作为紧凑的世界-动作上下文，再驱动动作专家进行流匹配预测。实验表明，ImageWAM 在模拟和真实世界任务上都优于常见 VLA 基线和有竞争力的 WAM，并且在不额外做 policy 预训练的情况下取得更好的表现。作者还报告其 FLOPs 约降到视频版 WAM 的 1/6、延迟降到 1/4，注意力分析也显示缓存主要关注任务相关的变化区域。

Spatial Intelligence (Image/Video)#

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

ArXiv 幻觉翻译

这篇论文提出 S-Agent，用空间工具调用来激发视觉语言模型的空间推理能力。方法上，它把空间推理建模为跨多视角与视频的证据累积过程，由 VLM 负责规划需要什么证据，再调用二维定位、三维几何提升和时序记忆等工具，把对象、测量、方向和相对位置等信息汇总成高层空间知识。系统还设计了 Scene Memory 和 Agent Memory，用于维护场景状态并累积推理上下文。实验显示，S-Agent 在多视角和视频空间推理基准上能以训练免费方式持续提升开源和闭源 VLM 的表现，进一步用 S-300K 做监督微调后，紧凑模型 S-Agent-8B 能显著超过同规模基线，并接近更强的闭源模型。

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

ArXiv 幻觉翻译

这篇工作发布了一个用于无干扰新视角合成的大规模真实数据集 DF3DV-1K，并配套构建了基准评测。作者收集了 1,048 个场景、89,924 张图像，显式包含干净图像和含干扰物图像，以评估 radiance field 方法在复杂现实环境中的鲁棒性。论文还设计了 DF3DV-41 这一更具挑战性的子集，用来系统测试模型在困难场景下的表现。基于该数据集，作者评测了 9 种近期方法和 3D Gaussian Splatting，找出了最稳健的方法与最难处理的场景。进一步地，他们用 DF3DV-1K 微调一个扩散式 2D 增强器，在保留集上平均提升了 0.96 dB PSNR 和 0.057 LPIPS。

Agent Training and Evaluation#

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

ArXiv 幻觉翻译

这篇工作讨论了如何评估 LLM 智能体，而不是只看静态榜单分数。作者汇总了一个基于 MCP 的工业智能体基准的多项并行深挖实验，并结合多个既有 agent benchmark，指出聚合分数排名在分布外场景中不稳定，难以真实反映部署表现。方法上，他们提出用“预测有效性”来衡量基准排序在训练内外的一致性，并给出一套覆盖十二个层面的测量框架，还设计了三个可证伪的分布外判据。实验和历史基准回顾表明，传统平均分排名会掩盖关键差异，而该框架更能暴露部署相关的评测维度。

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

ArXiv 幻觉翻译

这篇工作提出 ENPIRE，一个面向真实世界机器人策略自我改进的 harness 框架，目标是把策略优化变成可重复、可自动化的闭环流程。它将流程拆成四个模块：环境重置与验证、策略改进、并行实机 rollout 评测，以及由 coding agent 读取日志、查阅文献并修改训练代码和算法代码的演化环节。作者强调该框架把真实机器人学习从高人工依赖转成可控优化过程，并支持不同训练配方和 agent 版本的公平对比。实验中，借助 ENPIRE，前沿 coding agents 能够在整理针盒、系扎带和工具使用等复杂操作任务上把策略训练到 99% 成功率。结果还显示，当在机器人集群上分派 agent 团队时，整个自我改进过程会进一步加速。