Papers - 2026-04-24 • Xingjian Wang

3D/Space Reasoning#

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

这篇工作提出 C-GenReg，一个无需训练的三维点云配准框架。它先利用世界模型把输入几何体转成多视角一致的 RGB 图像，再用擅长稠密匹配的视觉基础模型在图像域寻找对应点，最后通过深度图把像素匹配回投到三维空间。为了增强鲁棒性，作者还设计了将生成视图分支与原始几何分支概率后验进行融合的 Match-then-Fuse 机制。实验表明，该方法在室内的 3DMatch、ScanNet 以及室外 Waymo 上都取得了强零样本性能，并表现出更好的跨域泛化能力。

Embodied Agent#

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

ArXiv 幻觉翻译

本文提出 OpenMobile，一个用于构建开放式移动智能体的合成数据与轨迹生成框架。方法上，它先通过探索构建全局环境记忆，再利用该记忆生成更丰富且有依据的任务指令；同时引入 learner/expert 轮换的策略切换来采集标准模仿学习中常缺失的纠错轨迹。基于这些数据训练的智能体在 AndroidWorld 等三个移动智能体基准上表现出有竞争力的结果，其中微调后的 Qwen2.5-VL 和 Qwen3-VL 分别达到 51.7% 和 64.7%。作者还分析了合成指令与测试集的重叠，验证性能提升主要来自覆盖更广的功能而非对基准过拟合。

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

ArXiv 幻觉翻译

这篇论文提出 DeVI，用合成视频来做基于物理的精细人-物交互控制。方法上，作者利用文本条件生成的视频作为模仿信号，并设计融合 3D 人体跟踪与鲁棒 2D 物体跟踪的混合奖励，以弥补生成视频在物理精度和三维信息上的不足。与依赖高质量 3D 示范的方法不同，DeVI 只需要生成视频即可进行零样本泛化，适用于不同目标物体和交互类型。实验结果表明，DeVI 在多种任务上优于现有的 3D 人-物交互模仿方法，尤其在灵巧手-物体交互建模上提升明显，并且在多物体场景和文本驱动动作多样性上也验证了有效性。

Spatial Intelligence (Image/Video)#

Exploring Spatial Intelligence from a Generative Perspective

ArXiv 幻觉翻译

这篇工作从生成角度重新定义了空间智能，关注模型在图像生成与编辑时是否真正遵守三维空间约束。作者提出了 GSI-Bench，这是首个用于衡量生成式空间智能的基准，包含真实世界数据集 GSI-Real 和可控合成基准 GSI-Syn，并配套统一评测协议。方法上，GSI-Real 通过 3D 先验引导生成与筛选构建，GSI-Syn 则支持自动标注的空间编辑操作。实验表明，用 GSI-Syn 对统一多模态模型进行微调，能够显著提升合成与真实任务表现，并且还会反哺下游空间理解能力。

Agent Training and Evaluation#

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

ArXiv 幻觉翻译

本文提出 DR-Venus，一个面向边缘端部署的 4B 深度研究智能体，完全基于开放数据训练。作者采用两阶段训练：先用 agentic SFT 结合严格清洗与长轨迹重采样提升基础代理能力，再用 agentic RL 进一步增强长链路任务的执行可靠性。为让小模型上的强化学习更有效，论文基于 IGPO 设计了按轮次的 information gain 奖励和格式约束正则，以改善监督密度和信用分配。实验显示，DR-Venus-4B 在多个深度研究基准上显著超过此前 9B 以下的 agent 模型，并缩小了与 30B 级系统的差距。

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

ArXiv 幻觉翻译

这篇论文提出 TACO，用于为终端智能体做观测上下文压缩，以缓解长链路多轮交互中历史反馈冗余和 token 成本快速增长的问题。方法上，TACO 是一个可插拔、自演化的压缩框架，会从交互轨迹中自动发现并迭代压缩规则，适配不同终端环境。作者在 TerminalBench（1.0 和 2.0）以及 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 上进行了系统评测。结果显示，TACO 在主流 agent 框架和强基座模型上都能稳定提升性能，在减少约 10% token 开销的同时，TerminalBench 上普遍带来 1% 到 4% 的增益。

SWE-chat: Coding Agent Interactions From Real Users in the Wild

ArXiv 幻觉翻译

这篇论文提出了 SWE-chat，一个来自真实开源开发者使用场景的大规模编码代理交互数据集，用来研究 AI 编码代理在自然工作流中的实际表现。作者通过自动化流水线持续发现并处理公开仓库中的会话，目前包含 6000 个 session、超过 6.3 万个用户提示和 35.5 万次代理工具调用。基于该数据集，论文系统分析了真实使用模式与失败方式，发现编码代理的使用呈现明显双峰：41% 的会话几乎由代理完成全部提交代码，而 23% 完全由人类自己写码。实验与统计结果还表明，代理生成代码最终只有 44% 会进入用户提交，且其引入的安全漏洞更多，用户也会在 44% 的轮次中通过纠正、报错或中断来反向约束代理输出。