阿里通义团队近日宣布了一项重要开源成果——通义千问3向量模型系列Qwen3-Embedding(简称千问3向量模型)。这一全新系列模型的推出,标志着阿里在AI技术领域的又一次重大突破。
千问3向量模型以千问3大模型为基础,经过精心优化训练,专门针对文本表征、检索和排序等核心任务。相较于前代模型,新模型在文本检索、聚类、分类等关键性能指标上实现了显著提升,部分提升幅度高达40%以上。这一改进无疑将为用户带来更加高效、准确的文本处理体验。
在业界知名的MTEB等专项榜单中,千问3向量模型表现抢眼。其中,Qwen3-Embedding-8B模型更是力压群雄,超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微软的multilingual-e5-large-instruct等顶尖模型,成功夺得同类模型的最佳性能SOTA称号。这一荣誉不仅是对千问3向量模型实力的认可,也是阿里在AI领域深厚技术底蕴的体现。
向量模型作为AI的“翻译器”,扮演着将非结构化信息(如文本、图片等)转化为机器更易理解的向量空间的重要角色。基于这一原理,千问3向量模型能够实现对信息的高效分类、检索和排序。为了满足不同用户的需求,通义团队通过对比训练、SFT、模型融合等多种方法,精心打造出包含文本嵌入模型Qwen3-Embedding和文本排序模型Qwen3-Reranker在内的全新千问3向量模型系列。
得益于千问3大模型的多语言能力,千问3向量模型系列也具备了强大的多语言、跨语言及代码检索能力。目前,该系列模型已率先支持超过100种语言,并涵盖多种编程语言,为用户提供了更加便捷、高效的跨语言信息检索服务。
此次开源的千问3向量模型系列共包含9款不同尺寸的模型,包括0.6B、4B、8B等多种规格,以及GGUF版本。开发者可以根据自己的需求选择合适的模型,并自由组合模块,甚至自定义向量或指令,以实现特定任务、语言和场景的深度优化。这一灵活性无疑将大大拓宽千问3向量模型的应用场景和范围。
目前,千问3 Embedding和Reranker模型均已在魔搭社区、Hugging Face和GitHub等平台上开源。开发者可以直接通过这些平台获取模型资源,并利用阿里云百炼提供的API服务进行开发和应用。这一举措无疑将大大降低开发者的门槛,推动AI技术的普及和应用。
自4月29日千问3大模型开源以来,该模型已在Artificial Analysis、LiveBench、LiveCodeBench、SuperClue等多个榜单上夺得全球开源冠军。这一连串的荣誉不仅彰显了千问3大模型的强大实力,也预示着阿里在AI领域将持续保持领先地位。