2025年09月01日
MMBench-GUI:跨平台AI动手能力测试框架!
7月25日,《MMBench-GUI:层次化多平台评估框架用于GUI代理》新研究提出了MMBench-GUI,这是一个多平台、多层级的 GUI代理能力测试系统。 MMBench-GUI测什么?它分了4个层次,逐步拔高挑战[一] GUI内容理解:能不能看懂界面上的字和图标?[二] 元素精准定位:找对按钮了吗?点对地方了吗?[三] 任务自动化:能否执行如“打开+编辑+保存”的复合操作?[四] 任务协作:多个App间跳转协作,AI能搞定吗? 引入创新指标EQA很多模型完成了任务,但做了大量“废操作”? 就像一个人绕了好几圈才找到厕所……于是 MMBench-GUI提出了新指标 EQA(Efficiency-Quality Area),不仅看你“完成没有”,还看你“做得高效不高效”! 实验怎么做的? 用真实App截图(不是模拟!) 涵盖全平台:Win / Mac / Linux / Android / iOS / Web 对每一个截图界面都加了标注,精准打点 任务设计参考了多个权威数据集,例如WebArena、WindowsAgentArena、OSWorld等 涵盖100+常见桌面+移动任务,细粒度评估每个模型 哪些模型被测试了?测试模型包括多个GUI领域的代表:模型名称→特点UI-TARS-72B-DPO→定位能力优秀UI-TARS-1.5-7B→轻量高效的桌面代理InternVL3-72B→多模态理解强测试发现,最关键的不是语言模型的理解能力,而是“视觉定位”的精准性! 点错位置 → 一切都白搭 冗余操作 → 效率低得吓人 发现了哪些问题? 当前GUI代理的通病: 点错按钮(无法精确定位) 没记性(缺乏上下文记忆) 做事啰嗦(多余步骤太多) 动作空间太小(缺乏灵活性) 跨平台泛化差(只能适应特定平台) 哪怕任务最终完成了,整个过程常常绕远路,浪费大量操作步骤。 那该怎么改进? 想让 AI 更像“数字员工”而不是“指令机器人”,必须: 引入 模块化定位系统 加强 长上下文记忆与多工具配合 优化 提前终止机制,避免不必要操作 打造 跨平台泛化能力(别只会在Win系统上干活) 一句话总结:MMBench-GUI 把 GUI 代理的“动手能力”从表面理解推向实战细节,是所有做“可执行AI”项目的必备测试!
标签:web自动化测试框架