Papers - 2026-04-30 • Xingjian Wang

Thinking with Images#

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

本文提出 Meta-CoT，用于提升图像编辑中的理解粒度与泛化能力。方法把单张图像编辑操作分解为两层：先将编辑意图表示为任务、目标与所需理解能力的三元组，再进一步拆成五个基础 meta-task，以此生成任务特定的 CoT 并指导编辑学习。作者还引入 CoT-Editing Consistency Reward，增强推理链与编辑行为的一致性。实验表明该方法在 21 个编辑任务上平均提升 15.8%，并且只用少量 meta-task 训练就能较好泛化到未见过的编辑任务。

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

ArXiv 幻觉翻译

这篇工作提出了 Refinement via Regeneration（RvR），用于统一多模态模型中的图像精修。它将精修从“基于编辑的局部修改”重新表述为“条件图像再生成”，用目标提示词和初始图像的语义 token 作为条件，从而扩大可修改空间并提升语义对齐程度。相比依赖编辑指令和像素级保留的传统 RvE 方法，RvR 更能覆盖提示与图像之间的细粒度不一致。实验显示，该方法在 Geneval、DPGBench 和 UniGenBench++ 上分别取得 0.78→0.91、84.02→87.21、61.53→77.41 的提升。

Agent Training and Evaluation#

Recursive Multi-Agent Systems

ArXiv 幻觉翻译

本文提出 RecursiveMAS，把递归式计算从单模型扩展到多智能体协作系统，将异构智能体通过轻量的 RecursiveLink 连接为统一的潜空间递归过程。作者进一步设计了内外循环联合优化算法，使系统能够在多轮递归中进行整体协同训练和共享梯度归因。理论分析表明该框架在运行时复杂度和训练稳定性上优于传统文本式多智能体系统。实验在 4 种协作模式和 9 个涵盖数学、科学、医学、搜索与代码生成的基准上验证，平均准确率提升 8.3%，端到端推理速度提升 1.2-2.4 倍，token 使用量减少 34.6%-75.6%。

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

ArXiv 幻觉翻译

本文提出 DV-World，用于评测真实场景中的数据可视化智能体，共包含 260 个任务。基准覆盖电子表格原生操作、跨语言与跨范式的可视化演化，以及通过用户模拟器进行意图对齐的交互式任务。作者还设计了结合数值对齐与 MLLM-as-a-Judge 的混合评测框架，以同时衡量精度和语义视觉质量。实验显示当前最先进模型的整体表现仍低于 50%，说明现有系统在真实企业级数据可视化流程中仍存在明显短板。

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

ArXiv 幻觉翻译

这篇论文研究多轮自主智能体中的 on-policy distillation 训练问题，指出朴素 OPD 会出现轨迹级 KL 不稳定，导致训练过程和性能波动。作者提出 TCOD，通过时间课程学习逐步限制学生模型接触的轨迹深度，并从短到长逐渐扩展监督范围，以缓解多轮误差累积带来的偏移。实验在 ALFWorld、WebShop 和 ScienceWorld 三个基准上、覆盖四组师生模型对，结果显示 TCOD 显著稳定了 KL 并将智能体性能相较朴素 OPD 最多提升 18 分，还能在部分任务上超过教师模型。