通义实验室开源MAI-UI模型：可跨应用执行复杂任务提升交互效率-科技-沃资讯

通义实验室开源MAI-UI模型：可跨应用执行复杂任务提升交互效率

发布时间：2025-12-29 15:01 来源：快讯作者：朱天宇

通义实验室多模态交互团队近日宣布，其研发的通用GUI智能体基座模型MAI-UI正式开源。这一模型专注于屏幕界面理解与操作执行，能够跨应用完成多步骤复杂任务，例如查询车票信息、在通讯群组中同步内容，或调整会议安排等日常高频场景。

据团队介绍，MAI-UI的核心优势在于其主动交互能力。当用户指令模糊时，模型会通过提问澄清需求，避免因理解偏差导致任务失败。模型支持调用结构化工具，例如地图搜索或路线规划API，直接替代繁琐的界面点击操作，显著提升任务执行效率与成功率。目前，该模型已推出2B和8B两种参数规模的版本，其中2B与8B版本均已开源，供开发者自由使用。

在性能验证方面，MAI-UI在ScreenSpot-Pro、AndroidWorld等多个GUI理解与任务执行基准测试中表现优异，成绩位居当前领先水平。其应用场景覆盖手机、电脑等主流操作系统，能够适应不同设备的界面交互需求。这一特性使其在跨平台任务自动化领域具有广泛潜力。

开源后，MAI-UI有望推动智能体技术在终端设备上的落地应用。开发者可基于其基座模型，快速构建定制化解决方案，例如自动化办公助手、智能客服系统等。团队表示，未来将持续优化模型性能，并探索更多场景下的交互可能性。

更多>同类内容

通义实验室开源MAI-UI模型：可跨应用执行复杂任务 提升交互效率

通义实验室开源MAI-UI模型：可跨应用执行复杂任务提升交互效率