智谱GLM-5.1模型发布:8小时持续工作,代码能力与长程任务表现亮眼

   发布时间:2026-04-08 15:05 作者:孙明

近日,一款名为GLM-5.1的人工智能模型正式亮相,凭借其在代码处理和长程任务执行领域的突破性表现引发行业关注。与传统模型仅能维持分钟级交互不同,该模型可独立持续工作超过8小时,期间自主完成从任务规划到成果交付的全流程,展现出工程级应用潜力。

在权威代码评测基准测试中,GLM-5.1在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo等平台均跻身前列。研发团队透露,该模型已具备参与专业软件开发的能力,能够直接在GitHub真实代码库中定位并修复工程缺陷。这种突破性能力源于模型对长程任务执行模式的重构,其核心指标从传统"智能程度"转向"持续工作时长",形成"实验-分析-优化"的闭环迭代机制。

实际应用场景中,GLM-5.1在8小时工作周期内完成了多项复杂工程:从零构建包含完整桌面环境、窗口管理器及应用程序的Linux系统,全程执行超1200个操作步骤,生成4.8MB配套文件。据评估,这项工作相当于4人开发团队一周的工作量。在向量数据库优化任务中,模型通过655次自主迭代完成全库扫描到剪枝优化的完整链条,使查询吞吐量从初始的3108 QPS提升至21472 QPS。在机器学习模型负载优化领域,其经过24小时持续迭代和1000轮工具调用,最终实现3.6倍的几何平均加速比。

研发团队指出,延长模型有效工作时长是提升智能体能力的关键路径,但这条技术路线仍面临多重挑战:包括如何缓解复杂任务中的上下文过载问题、如何在数千次工具调用后维持执行一致性、如何突破局部最优解陷阱,以及在缺乏明确数值指标的任务中建立可靠的自我评估体系。这些技术瓶颈的突破,将直接影响人工智能从实验室走向产业应用的进程。

 
 
更多>同类内容
全站最新
热门内容