Xingjian Wang
Papers - 2026-04-23Blur image

Agent Training and Evaluation#

AgentSPEX: An Agent SPecification and EXecution Language

这篇论文提出了 AgentSPEX,一种用于描述和执行大语言模型智能体工作流的规范语言。它把控制流、分支、循环、并行执行、可复用子模块和显式状态管理都写成结构化步骤,并通过配套的 agent harness 提供工具访问、沙箱环境、检查点、验证和日志能力。作者还给出了同步的图形与工作流可视化编辑器,方便编写和检查复杂智能体。实验在 7 个基准上验证了该框架,并通过用户研究表明,AgentSPEX 比现有智能体框架更易理解、也更便于修改。

PlayCoder: Making LLM-Generated GUI Code Playable

这篇论文提出了 PlayEval 和 PlayCoder,用于评估并修复 LLM 生成的 GUI 应用代码是否真的“可玩”。PlayEval 是一个覆盖 43 个多语言 GUI 项目的仓库级基准,Play@k 用于衡量多个候选中是否至少有一个能端到端通过交互流程,PlayTester 则自动进行任务式试玩并检测逻辑错误。作者进一步设计了 PlayCoder,一个仓库感知的多智能体闭环框架,能够生成、评估并迭代修复 GUI 代码。实验显示,10 个先进代码模型虽然编译率不低,但 Play@3 几乎为零;PlayCoder 则把性能显著提升到最高 38.1% 的 Exec@3 和 20.3% 的 Play@3。

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

这篇论文提出了 Chat2Workflow 基准,用于评测大模型能否仅根据自然语言生成可执行的可视化工作流。作者基于真实业务流程构建数据集,并给出一个稳健的 agentic 框架来缓解多轮执行中的反复错误。实验表明,当前最先进的大模型通常只能理解高层意图,但在复杂或需求变化时仍难以生成正确、稳定且可直接部署的工作流;所提出的方法最多可带来 5.34% 的 resolve rate 提升。

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

这篇论文提出 AJ-Bench,用于系统评测 Agent-as-a-Judge 在复杂环境中的验证能力。基准覆盖搜索、数据系统和图形界面三类场景,共包含 155 个任务和 516 条标注轨迹,重点考察信息获取、状态验证和过程验证能力。实验结果显示,Agent-as-a-Judge 相比传统 LLM-as-a-Judge 基线有稳定提升,但在真实环境中的泛化和可靠验证上仍存在明显挑战。

Papers - 2026-04-23
https://xingjianwang.com/blog/papers-2026-04-23
Author 猫柒-
Published at April 23, 2026