Xingjian Wang
Papers - 2026-05-20Blur image

Thinking with Code/Structure#

Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

论文提出 Code-as-Room,把俯视图图像转成 3D 房间生成任务,并用 agentic code synthesis 作为中间表示。方法通过生成和执行结构化代码来组织空间布局、几何关系与物体放置,从而把视觉输入映射到可构建的 3D 场景。实验显示,这种方式相比直接生成式方案更稳定地恢复房间结构,并提升了结果的可控性与一致性。

Spatial Intelligence (Image/Video)#

LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

这篇工作提出 LiteFrame,用更高效的视觉编码器来缓解 Video LLM 在长视频场景下的视觉 token 和编码开销问题。作者提出 Compressed Token Distillation(CTD),让紧凑学生编码器直接预测教师模型产生的时空压缩表示,并结合 Language Model Adaptation 提升整体适配性。实验表明,在多个视频理解基准上,LiteFrame 相比 InternVL3-8B 可将端到端延迟降低 35%,同时处理 8 倍更多帧,并提升平均视频理解准确率。

Agent Training and Evaluation#

Code as Agent Harness

这篇综述把“代码”重新定义为智能体的运行脚手架,而不只是生成目标。作者系统总结了代码如何连接推理、行动、环境建模、长期规划、记忆和工具使用,并进一步讨论了从单智能体到多智能体的共享代码协作与验证机制。文章也梳理了代码型智能体在编程助手、GUI/OS 自动化、具身智能、科学发现和企业工作流中的代表性应用。实验部分主要是对相关方法和应用的归纳比较,强调了超越最终成功率的评测、带反馈的可靠控制以及共享状态一致性等关键挑战。

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

这篇工作提出 SkillsVote,用于管理智能体技能的全生命周期,包括收集、推荐和演化。方法上,它先对大规模开源技能库做环境需求、质量和可验证性分析,再进行面向可验证技能的任务合成;执行前通过结构化技能库检索暴露可用上下文,执行后把轨迹拆解为技能相关子任务并按证据门控更新技能库。作者还设计了归因机制,将结果信号分配到技能使用、智能体探索和环境因素上,减少噪声更新。实验显示,离线演化可使 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点,在线演化可使 SWE-Bench Pro 提升 2.6 个百分点。

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

论文提出 CHI-Bench,用来评测 AI agent 是否能端到端自动化长链路、强政策约束的医疗工作流。作者把真实医疗流程组织成多步任务,系统考察规划、执行、合规与异常处理能力。实验表明,现有通用 agent 在这类场景下仍有明显不足,尤其是在长程依赖和政策遵循上。该基准为后续医疗 agent 的训练与评估提供了更贴近真实业务的测试场景。

OProver: A Unified Framework for Agentic Formal Theorem Proving

论文提出 OProver,一个统一的 agentic formal theorem proving 框架,用于把定理证明过程组织成可搜索、可规划的多步推理与证明构造。方法将证明任务抽象为 agent 与证明环境之间的交互,并统一不同证明策略与组件以提升推理效率。实验结果表明,该框架在多个形式化定理证明设置上取得了更高的证明成功率,并带来更稳定的搜索表现。

Papers - 2026-05-20
https://xingjianwang.com/blog/papers-2026-05-20
Author 猫柒-
Published at May 20, 2026