阿里千问Qwen3-VL、Qwen2.5-VL登顶SpatialBench 空间推理能力领先国际

   发布时间:2025-11-26 18:01 作者:吴俊

在近期更新的空间推理基准测试SpatialBench榜单中,阿里推出的视觉理解模型Qwen3-VL和Qwen2.5-VL表现抢眼,分别占据榜单前两名,将Gemini 3、GPT-5.1、Claude Sonnet4.5等国际知名模型甩在身后。这一成绩标志着国产大模型在多模态空间推理领域取得了重大进展。

根据榜单数据,Qwen3-VL-235B以13.5分的成绩领跑,Qwen2.5-VL-72B则以12.9分紧随其后。相比之下,Gemini 3.0 Pro Preview获得9.6分,GPT-5.1仅得7.5分,其他海外模型的表现也未能超越这两款国产模型。这一结果充分展现了阿里在视觉理解技术上的领先优势。

尽管大模型在空间推理能力上取得突破,但与人类水平仍存在显著差距。目前人类在该测试中的基准线约为80分,能够熟练处理电路分析、CAD工程设计和分子生物学等复杂任务。而现有大模型尚无法完全自动化完成这类工作,说明技术发展仍有提升空间。

作为阿里2025年开源的新一代产品,Qwen3-VL在视觉感知和多模态推理方面实现了多项创新。在32项核心能力评估中,该模型超越了Gemini2.5-Pro和GPT-5等对手。其独特之处在于能够调用抠图、搜索等工具进行"带图推理",甚至可以根据设计草图或游戏视频直接生成代码,实现"视觉编程"功能。

针对3D空间感知的特殊需求,Qwen3-VL专门强化了3D检测能力。这项改进使机器人能够更精准地判断物体方位、视角变化和遮挡关系。在实际应用中,搭载该模型的机器人已能完成远处苹果的精准抓取任务,展现了技术落地的潜力。

目前Qwen3-VL已全面开源,提供2B、4B、8B、32B等密集模型,以及30B-A3B、235B-A22B等MoE架构模型。每个版本都包含指令版和推理版两种选择,成为企业和开发者最受欢迎的开源视觉理解模型之一。同时,用户还可通过千问APP免费体验该模型的强大功能。

SpatialBench作为新兴的第三方测试标准,专注于评估多模态模型在空间、结构和路径推理方面的综合能力。该测试不仅考察模型掌握的现有知识,更注重其在二维和三维空间中处理抽象概念的能力,这对具身智能技术的发展具有重要参考价值。测试标准的设计充分考虑了技术落地的实际需求,为行业提供了新的评估维度。

 
 
更多>同类内容
全站最新
热门内容