Papers - 2026-05-20 • Xingjian Wang

Thinking with Code/Structure#

Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

论文提出 Code-as-Room，把俯视图图像转成 3D 房间生成任务，并用 agentic code synthesis 作为中间表示。方法通过生成和执行结构化代码来组织空间布局、几何关系与物体放置，从而把视觉输入映射到可构建的 3D 场景。实验显示，这种方式相比直接生成式方案更稳定地恢复房间结构，并提升了结果的可控性与一致性。

Spatial Intelligence (Image/Video)#

LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

ArXiv 幻觉翻译

这篇工作提出 LiteFrame，用更高效的视觉编码器来缓解 Video LLM 在长视频场景下的视觉 token 和编码开销问题。作者提出 Compressed Token Distillation（CTD），让紧凑学生编码器直接预测教师模型产生的时空压缩表示，并结合 Language Model Adaptation 提升整体适配性。实验表明，在多个视频理解基准上，LiteFrame 相比 InternVL3-8B 可将端到端延迟降低 35%，同时处理 8 倍更多帧，并提升平均视频理解准确率。

Agent Training and Evaluation#

Code as Agent Harness

ArXiv 幻觉翻译

这篇综述把“代码”重新定义为智能体的运行脚手架，而不只是生成目标。作者系统总结了代码如何连接推理、行动、环境建模、长期规划、记忆和工具使用，并进一步讨论了从单智能体到多智能体的共享代码协作与验证机制。文章也梳理了代码型智能体在编程助手、GUI/OS 自动化、具身智能、科学发现和企业工作流中的代表性应用。实验部分主要是对相关方法和应用的归纳比较，强调了超越最终成功率的评测、带反馈的可靠控制以及共享状态一致性等关键挑战。

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

ArXiv 幻觉翻译

这篇工作提出 SkillsVote，用于管理智能体技能的全生命周期，包括收集、推荐和演化。方法上，它先对大规模开源技能库做环境需求、质量和可验证性分析，再进行面向可验证技能的任务合成；执行前通过结构化技能库检索暴露可用上下文，执行后把轨迹拆解为技能相关子任务并按证据门控更新技能库。作者还设计了归因机制，将结果信号分配到技能使用、智能体探索和环境因素上，减少噪声更新。实验显示，离线演化可使 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点，在线演化可使 SWE-Bench Pro 提升 2.6 个百分点。

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

ArXiv 幻觉翻译

论文提出 CHI-Bench，用来评测 AI agent 是否能端到端自动化长链路、强政策约束的医疗工作流。作者把真实医疗流程组织成多步任务，系统考察规划、执行、合规与异常处理能力。实验表明，现有通用 agent 在这类场景下仍有明显不足，尤其是在长程依赖和政策遵循上。该基准为后续医疗 agent 的训练与评估提供了更贴近真实业务的测试场景。

OProver: A Unified Framework for Agentic Formal Theorem Proving

ArXiv 幻觉翻译

论文提出 OProver，一个统一的 agentic formal theorem proving 框架，用于把定理证明过程组织成可搜索、可规划的多步推理与证明构造。方法将证明任务抽象为 agent 与证明环境之间的交互，并统一不同证明策略与组件以提升推理效率。实验结果表明，该框架在多个形式化定理证明设置上取得了更高的证明成功率，并带来更稳定的搜索表现。