阿里云通义千问团队发布Qwen3.7-Plus多模态Agent模型 跻身全球视觉大模型前列

   发布时间:2026-06-02 19:16 作者:唐云泽

阿里云通义千问团队近日宣布推出一款名为Qwen3.7-Plus的多模态智能体模型,该模型通过整合视觉与语言处理能力,构建了统一化的智能体基座框架。据研发团队介绍,新模型在继承Qwen3.7文本处理与任务执行优势的基础上,创新性地将视觉识别模块深度嵌入系统架构,实现了对图像、视频、屏幕界面及网页内容的跨模态理解。

在技术验证环节,Qwen3.7-Plus展现出显著突破。该模型在国际权威视觉大模型评测平台Vision Arena的最新排名中,以综合得分跻身全球前五,同时位列中国参赛模型榜首。测试数据显示,模型在复杂场景下的多模态交互准确率较前代提升37%,特别是在动态视频解析与跨平台界面识别领域达到行业领先水平。

实际应用测试中,基于Qwen3.7-Plus构建的Hybrid-Agent系统完成了长达11小时的连续自主运行。该系统在无人工干预条件下,自主完成了从需求分析到代码编写的英语单词学习应用全流程开发,并成功复现了macOS系统原生Stocks应用的完整功能模块。研发团队特别指出,系统在界面元素识别与交互逻辑还原方面达到98.7%的相似度,验证了模型在真实开发场景中的实用价值。

 
 
更多>同类内容
全站最新
热门内容