在AI科研领域,一场由中国团队引领的变革正在悄然发生。由上海交通大学人工智能学院、上海算法创新研究院与深势科技联合组建的SciMaster团队,近日凭借其自主研发的AI机器学习专家ML-Master 2.0,在OpenAI设立的权威基准测试MLE-bench中力压国际科技巨头,以56.44%的奖牌率登顶全球榜首。这一突破不仅标志着中国在AI驱动科研领域的技术实力,更展现了国产开源大模型DeepSeek-V3.2-Speciale的强大潜力。
传统AI在科研中的应用往往局限于短程任务,例如生成代码或解答特定问题。然而,真实科研场景远比想象复杂:科研人员需要经历假设设定、实验设计、代码调试、结果分析的完整闭环,这个过程可能持续数小时甚至数天,且失败是常态。SciMaster团队敏锐捕捉到这一痛点,将ML-Master 2.0定位为“为真实机器学习工程而生”的自主智能体,其核心目标是在无人工干预的条件下,实现超长程自主探索。
ML-Master 2.0的突破性在于其“超长程自主”能力。团队摒弃了将上下文视为一次性推理材料的传统思路,转而构建了一套层次化认知缓存(HCC)机制。该机制将科研过程中的认知资产分为三个层级:即时经验(Experience)服务于当前决策,稳定知识(Knowledge)在任务中反复调用,先验智慧(Wisdom)则跨任务迁移复用。通过动态筛选和层级提升,系统既能避免“上下文爆炸”导致的混乱,又能防止“遗忘历史”造成的重复试错,从而在长达数十小时的探索中保持方向稳定。
在MLE-bench的评测中,ML-Master 2.0展现了显著优势。该基准测试要求AI在真实机器学习工程场景中完成实验设计、代码实现、调试修正等完整流程,其难度远超理想化的答题任务。测试结果显示,ML-Master 2.0的奖牌率较Google、meta等团队基于闭源模型的智能体提升28.3%,且全程无需人工干预。这一成绩的取得,得益于其基于国产大模型DeepSeek-V3.2-Speciale的架构优化,以及HCC机制对长期试错经验的高效积累。
目前,ML-Master 2.0已进入实际应用阶段。在理论计算物理领域,它协助科研人员模拟复杂量子系统,通过自主调整实验参数,显著缩短了模拟周期;在具身智能机器人训练中,其超长程自主能力使机器人能够持续优化动作策略,无需频繁人工重置。这些落地案例证明,ML-Master 2.0不仅能在评测中领先,更能解决真实科研中的关键问题。
为推动技术普惠,SciMaster团队已将ML-Master 2.0的核心代码开源,并通过SciMaster平台逐步开放产品化能力。目前,该平台已上线Waiting List申请通道,感兴趣的研究者和工程团队可通过“SciMaster的朋友圈”提前体验。这一举措不仅降低了AI科研工具的使用门槛,更为全球AI4Science社区提供了中国方案的参考。
从科幻作品中的“智子”到现实中的自主AI科学家,人类对智能体探索科学的想象正逐步成真。ML-Master 2.0的突破表明,通过将认知过程视为可积累、可演化的资源,AI已具备在真实科研环境中长期成长的能力。在这场全球竞逐中,中国团队正以开源大模型为基石,书写属于自己的篇章。





















