Xingjian Wang
Papers - 2026-04-08Blur image

Grounding-driven Visual Reasoning#

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

SpatialEdit本体设计了SpatialEdit-Bench基准集合、SpatialEdit-500k控制合成数据集和SpatialEdit-16B基线模型,专注于细粒度的图像空间编辑能力评测。Benchmark通过视角重建与画面构图分析双管齐下,联合衡量感知合理性与几何精度;数据集借助可控Blender流水线在多背景下渲染对象与系统化摄像机轨迹,从而提供精确的对象与摄像机变换标注。基于此数据训练出的SpatialEdit-16B不仅保持通用编辑水平,还显著压倒此前方法在空间操控任务上的表现。实验结果表明,该模型在空间编辑指标上领先,资源已开放以推动后续研究。

Multimodal Agent#

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

AURA设计了面向实时流视频的端到端视觉大模型交互框架,目标在“Always-On”模式下同时支持问答与主动响应。其方法整合了上下文管理、数据构建、训练目标与部署优化,使单一VideoLLM可以持续观察流媒体并维持长时视角。在系统层面提供语音识别与合成并在两个80G卡上以2FPS实现了Demo,验证了稳定长程流式交互的可行性。在多个流式基准上刷新状态,对应指标与实测延迟都说明该框架已接近实用级别。

Embodied Agent#

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

LIBERO-Para提出面向机器人视觉语言动作模型的诊断基准,通过独立变化动作表达与物体引用来解析语言泛化能力,目标是恢复对指令改述的鲁棒性。方法上构建精细控制的改写对,并设计PRIDE难度度量,结合语义与句法特征量化改写导致的难度差异。实验表明七种VLA模型(0.6B-7.5B)在改写指令下性能下降22-52个百分点,且词汇层面变化如同义词替换就会大幅损失表现,说明模型依赖表面匹配而非语义。失败案例中有80-96%因规划轨迹偏离而非执行错误,说明改写破坏了任务识别,基准和度量帮助揭示这一瓶颈。

Agent Training and Evaluation#

ClawArena: Benchmarking AI Agents in Evolving Information Environments

ClawArena面向持续演化信息环境定义了一个新评测基准,模拟多源噪声、内部冲突与隐性个性化的现实助理场景。每个情形保持完整隐藏真值,而只向代理揭示多通道、部分且有时矛盾的证据,评估任务涵盖多源冲突推理、动态信念修正与隐式个性化,并以14类问题的多选与可执行Shell校验实现多模态 grounding。作者发布64个跨8个专业领域的场景,总计1,879轮评估与365次动态更新,并在5个代理框架与5个语言模型上实验。结果显示模型能力与框架设计分别带来约15.4%与9.2%的性能跨度,自演化技能架构可部分弥补能力差距,而信念修正难度更取决于更新策略而非更新本身。

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

FileGram提出以文件系统行为轨迹为根基的个性化记忆框架,解决协同AIagent在本地文件系统中的个性化与数据稀缺问题。核心包括FileGramEngine用于模拟现实工作流与生成细粒度多模态动作序列、FileGramBench评价多种记忆任务(如画像恢复、轨迹解缠、人格漂移检测与多模态对齐)、以及FileGramOS以原子动作与内容增量构建过程、语义、情节三个信息通道并在查询时抽象化。该架构直接从行为痕迹学习用户特征,减少对对话摘要的依赖。实验结果表明FileGramBench对现有记忆系统仍具挑战性,同时FileGramEngine与FileGramOS可提升个性化表现,证实框架对未来记忆中心文件系统agent的支撑价值。

LightThinker++: From Reasoning Compression to Memory Management

LightThinker++从推理压缩演化为显式自适应记忆管理,旨在维持LLM长链思维的效率与稳定性。方法通过内建记忆原语与轨迹合成流水线训练记忆调度器,在行为层面动态管理中间思考并避免固定压缩丢失关键信息。结果显示LightThinker在标准推理中峰值令牌量减少69.9%并在相同上下文预算下带来2.42%的准确率提升;在长时序agent任务中保持80轮以上稳定占用、减少60%~70%资源,平均性能提升14.8%。此外LightThinker整体减少峰值词元70%与推理时长26%,证明框架能在持续推理中保持极低开销。

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

SRPO统一GRPO与SDPO中的群体相对与自蒸馏优化策略,通过样本路由机制分别将正确回合分发给与奖励对齐的强化学习模块,而将失败样本交给强调logit级纠错的自蒸馏模块,并辅以熵感知动态加权以弱化高熵不可靠的蒸馏目标。该框架解决了SDPO长期训练中信号退化与已正确样本带来的优化歧义,同时保留SDPO的密集指令与GRPO的稳定性。五个基准与两种模型规模上实验表明,SRPO兼具快速早期提升与长周期稳定性,在Qwen3-8B上平均性能比GRPO高3.4%、比SDPO高6.3%,并在响应长度与每步算力上分别有所节省(最高达17.2%)。

Multimodal World Model#

OpenWorldLib: A Unified Codebase and Definition of Advanced World Models

该工作提出了OpenWorldLib,给出一个统一的“以感知为中心、具备交互与长期记忆”的高级世界模型定义,并系统地归纳其关键能力。通过构建统一推理框架,OpenWorldLib整合不同任务的模型与接口,实现了跨任务的高效复用和协作推理流程。框架还配套了标准化的数据与能力描述,便于研究者在同一平台上对世界模型进行一致的评估与比较。实践中,该库展示了通过共享基础模块和统一协同推理可以覆盖更多任务需求,从而为未来世界模型研究指明更清晰的方向。

Papers - 2026-04-08
https://xingjianwang.com/blog/papers-2026-04-08
Author 猫柒-
Published at April 8, 2026