阿里通义千问团队近日宣布推出全新多模态智能体模型Qwen3.7-Plus,这款模型在传统图像识别基础上实现了界面感知、工具调用、代码生成和任务交付的深度融合,标志着人工智能从"被动理解"向"主动执行"的跨越式发展。该模型已在阿里云百炼平台上线,开发者可通过OpenAI兼容API或Anthropic协议直接调用,同时Qwen Studio开放了在线体验通道。
在基准测试中,Qwen3.7-Plus展现出显著优势:多模态推理方面,BabyVision得分70.4/64.7,超越Gemini 3.1 Pro的55.9和GPT-5.4(xhigh)的53.1;视觉编程领域,ScreenSpot Pro得分79.0,领先GPT-5.4(xhigh)11.6分。该模型在RealWorldQA测试中取得86.9分,较前代提升1.5分,证明其在真实场景解析能力上的持续进化。技术团队创新性地构建了"看-想-写-做-验"的端到端闭环系统,将GUI操作、CLI调用、代码生成和结果验证整合为统一智能体循环。
实际应用测试中,模型展现了强大的任务执行能力。在连续11小时的App开发测试中,Hybrid-Agent系统累计生成超10000行代码,触发1000余次工具调用,完整实现了单词本、消消乐游戏、限时挑战等12项功能模块。更令人瞩目的是,该模型成功复刻macOS原生Stocks应用,不仅还原了暗色主题和分栏布局,还通过接入LongBridge API实现了实时行情数据的动态更新。技术文档显示,整个复刻过程涉及10项功能验证测试,包括多周期视图切换、搜索过滤等复杂交互场景。
针对视觉推理任务,模型开发了独特的空间建模算法。在找不同测试中,系统通过坐标比对和差异图分析,准确识别出5处细微差异;植物病害诊断场景下,模型经过7次迭代检索,综合分析病斑颜色、纹理特征后给出专业判断。对于复杂图表处理,模型展现出惊人的路径规划能力,能够在新加坡地铁线路图中自动规划最优换乘路线,准确识别13条线路的21个换乘站点。
浏览器智能助手功能进一步拓展了应用边界。基于Chrome插件的Agent模式可感知网页内容并自动执行多步操作,在ECS采购测试中,系统自动完成云服务器比价、镜像配置和安全组设置,面对价格波动时能动态调整采购策略。技术白皮书显示,该功能支持超过200种网页元素的精准识别,操作成功率达到92.3%。

















