Xingjian Wang
Papers - 2026-04-24Blur image

3D/Space Reasoning#

C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion

这篇工作提出 C-GenReg,一个无需训练的三维点云配准框架。它先利用世界模型把输入几何体转成多视角一致的 RGB 图像,再用擅长稠密匹配的视觉基础模型在图像域寻找对应点,最后通过深度图把像素匹配回投到三维空间。为了增强鲁棒性,作者还设计了将生成视图分支与原始几何分支概率后验进行融合的 Match-then-Fuse 机制。实验表明,该方法在室内的 3DMatch、ScanNet 以及室外 Waymo 上都取得了强零样本性能,并表现出更好的跨域泛化能力。

Embodied Agent#

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

本文提出 OpenMobile,一个用于构建开放式移动智能体的合成数据与轨迹生成框架。方法上,它先通过探索构建全局环境记忆,再利用该记忆生成更丰富且有依据的任务指令;同时引入 learner/expert 轮换的策略切换来采集标准模仿学习中常缺失的纠错轨迹。基于这些数据训练的智能体在 AndroidWorld 等三个移动智能体基准上表现出有竞争力的结果,其中微调后的 Qwen2.5-VL 和 Qwen3-VL 分别达到 51.7% 和 64.7%。作者还分析了合成指令与测试集的重叠,验证性能提升主要来自覆盖更广的功能而非对基准过拟合。

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

这篇论文提出 DeVI,用合成视频来做基于物理的精细人-物交互控制。方法上,作者利用文本条件生成的视频作为模仿信号,并设计融合 3D 人体跟踪与鲁棒 2D 物体跟踪的混合奖励,以弥补生成视频在物理精度和三维信息上的不足。与依赖高质量 3D 示范的方法不同,DeVI 只需要生成视频即可进行零样本泛化,适用于不同目标物体和交互类型。实验结果表明,DeVI 在多种任务上优于现有的 3D 人-物交互模仿方法,尤其在灵巧手-物体交互建模上提升明显,并且在多物体场景和文本驱动动作多样性上也验证了有效性。

Spatial Intelligence (Image/Video)#

Exploring Spatial Intelligence from a Generative Perspective

这篇工作从生成角度重新定义了空间智能,关注模型在图像生成与编辑时是否真正遵守三维空间约束。作者提出了 GSI-Bench,这是首个用于衡量生成式空间智能的基准,包含真实世界数据集 GSI-Real 和可控合成基准 GSI-Syn,并配套统一评测协议。方法上,GSI-Real 通过 3D 先验引导生成与筛选构建,GSI-Syn 则支持自动标注的空间编辑操作。实验表明,用 GSI-Syn 对统一多模态模型进行微调,能够显著提升合成与真实任务表现,并且还会反哺下游空间理解能力。

Agent Training and Evaluation#

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

本文提出 DR-Venus,一个面向边缘端部署的 4B 深度研究智能体,完全基于开放数据训练。作者采用两阶段训练:先用 agentic SFT 结合严格清洗与长轨迹重采样提升基础代理能力,再用 agentic RL 进一步增强长链路任务的执行可靠性。为让小模型上的强化学习更有效,论文基于 IGPO 设计了按轮次的 information gain 奖励和格式约束正则,以改善监督密度和信用分配。实验显示,DR-Venus-4B 在多个深度研究基准上显著超过此前 9B 以下的 agent 模型,并缩小了与 30B 级系统的差距。

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

这篇论文提出 TACO,用于为终端智能体做观测上下文压缩,以缓解长链路多轮交互中历史反馈冗余和 token 成本快速增长的问题。方法上,TACO 是一个可插拔、自演化的压缩框架,会从交互轨迹中自动发现并迭代压缩规则,适配不同终端环境。作者在 TerminalBench(1.0 和 2.0)以及 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 上进行了系统评测。结果显示,TACO 在主流 agent 框架和强基座模型上都能稳定提升性能,在减少约 10% token 开销的同时,TerminalBench 上普遍带来 1% 到 4% 的增益。

SWE-chat: Coding Agent Interactions From Real Users in the Wild

这篇论文提出了 SWE-chat,一个来自真实开源开发者使用场景的大规模编码代理交互数据集,用来研究 AI 编码代理在自然工作流中的实际表现。作者通过自动化流水线持续发现并处理公开仓库中的会话,目前包含 6000 个 session、超过 6.3 万个用户提示和 35.5 万次代理工具调用。基于该数据集,论文系统分析了真实使用模式与失败方式,发现编码代理的使用呈现明显双峰:41% 的会话几乎由代理完成全部提交代码,而 23% 完全由人类自己写码。实验与统计结果还表明,代理生成代码最终只有 44% 会进入用户提交,且其引入的安全漏洞更多,用户也会在 44% 的轮次中通过纠正、报错或中断来反向约束代理输出。

Papers - 2026-04-24
https://xingjianwang.com/blog/papers-2026-04-24
Author 猫柒-
Published at April 24, 2026