前阿里千问技术负责人林俊旸在离职后发布的长文中,对AI大模型领域的技术演进路径作出重要论断。他指出当前行业正经历从"推理型思考"向"智能体思考"的范式转移,这一转变以OpenAI o1和DeepSeek-R1等模型为标志,标志着强化学习后训练阶段正式取代预训练规模扩张成为核心驱动力。数学推理与代码生成等可验证领域,已成为检验模型准确性的关键试验场。
在技术实践层面,林俊旸披露了千问团队开发Qwen3时遭遇的深层矛盾。团队原计划构建支持混合思考模式的系统,却发现指令模型与推理模型存在根本性冲突:前者追求极致响应速度与资源效率,后者需要消耗大量计算资源进行深度推演。这种数据分布与目标函数的错位,导致强行融合的模型在两项指标上均表现平平。基于商业客户对处理效率与成本控制的严苛要求,Qwen2507版本最终选择推出分离的30B指令模型与235B推理模型。
对比行业其他参与者的技术路线,Anthropic与DeepSeek等企业仍在探索统一架构下的推理与工具调用融合方案。这种差异反映出头部厂商对技术演进方向的不同判断——是优先优化现有架构的效率边界,还是直接布局下一代智能体架构。
对于技术发展前景,林俊旸强调传统通过延长推理链提升性能的方法即将触及天花板。未来的突破将取决于智能体在动态环境中持续优化行动策略的能力,这要求训练与推理系统实现更深度的解耦。随着模型逐步获得调用搜索引擎、执行代码等外部工具的能力,如何防止模型通过操纵奖励机制实现"作弊式优化",将成为关乎系统安全性的核心挑战。这位技术专家特别指出,未来的竞争焦点将转向环境构建质量、反作弊机制设计以及多智能体协作框架等系统性工程能力。




















