Papers - 2026-04-23 • Xingjian Wang

Agent Training and Evaluation#

AgentSPEX: An Agent SPecification and EXecution Language

这篇论文提出了 AgentSPEX，一种用于描述和执行大语言模型智能体工作流的规范语言。它把控制流、分支、循环、并行执行、可复用子模块和显式状态管理都写成结构化步骤，并通过配套的 agent harness 提供工具访问、沙箱环境、检查点、验证和日志能力。作者还给出了同步的图形与工作流可视化编辑器，方便编写和检查复杂智能体。实验在 7 个基准上验证了该框架，并通过用户研究表明，AgentSPEX 比现有智能体框架更易理解、也更便于修改。

PlayCoder: Making LLM-Generated GUI Code Playable

ArXiv 幻觉翻译

这篇论文提出了 PlayEval 和 PlayCoder，用于评估并修复 LLM 生成的 GUI 应用代码是否真的“可玩”。PlayEval 是一个覆盖 43 个多语言 GUI 项目的仓库级基准，Play@k 用于衡量多个候选中是否至少有一个能端到端通过交互流程，PlayTester 则自动进行任务式试玩并检测逻辑错误。作者进一步设计了 PlayCoder，一个仓库感知的多智能体闭环框架，能够生成、评估并迭代修复 GUI 代码。实验显示，10 个先进代码模型虽然编译率不低，但 Play@3 几乎为零；PlayCoder 则把性能显著提升到最高 38.1% 的 Exec@3 和 20.3% 的 Play@3。

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

ArXiv 幻觉翻译

这篇论文提出了 Chat2Workflow 基准，用于评测大模型能否仅根据自然语言生成可执行的可视化工作流。作者基于真实业务流程构建数据集，并给出一个稳健的 agentic 框架来缓解多轮执行中的反复错误。实验表明，当前最先进的大模型通常只能理解高层意图，但在复杂或需求变化时仍难以生成正确、稳定且可直接部署的工作流；所提出的方法最多可带来 5.34% 的 resolve rate 提升。

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

ArXiv 幻觉翻译

这篇论文提出 AJ-Bench，用于系统评测 Agent-as-a-Judge 在复杂环境中的验证能力。基准覆盖搜索、数据系统和图形界面三类场景，共包含 155 个任务和 516 条标注轨迹，重点考察信息获取、状态验证和过程验证能力。实验结果显示，Agent-as-a-Judge 相比传统 LLM-as-a-Judge 基线有稳定提升，但在真实环境中的泛化和可靠验证上仍存在明显挑战。