研究团队指出,乔布斯所展现的“战略智能”是一种能够制定方向、协调资源并引导组织实现长期目标的能力。然而,当前大多数AI智能体在编程、写作等单项任务上表现出色,却缺乏这种在复杂环境中持续决策和统筹资源的能力。为了弥补这一差距,CEO-Bench应运而生,成为衡量AI“战略智能”的首个基准测试。
CEO-Bench的核心在于模拟一个长达500天的AI创业公司环境。每个AI模型获得100万美元的启动资金,通过可编程接口管理一家初创企业,可以访问企业管理工具、商业数据库和社交媒体等资源。在充满噪声、信息不完全且市场持续变化的商业环境中,AI需要自主决策,最终以企业现金余额作为衡量表现的核心指标。
为了确保测试的真实性和严谨性,研究团队设计了一个高度细粒度的市场环境,包含26类不同客户群体,每位客户都有独立的行为和偏好。所有经营结果均由明确的商业规则驱动,而非依赖主观评分。AI无法直接获取关键信息,如客户满意度和市场需求,必须通过间接信号进行推断。商业环境是动态变化的,竞争对手会调整策略,客户偏好会变化,宏观经济周期也会带来新的挑战。
在具体实现上,AI智能体通过Python调用novamind_api包执行操作,并可以搭建复杂的业务流程与自动化系统。系统提供了高度细粒度的动作空间,智能体可以针对不同渠道、用户群组和经营计划执行精确干预。数据层面,CEO-Bench构建了一个包含19张数据表的企业数据库,智能体必须通过类似真实商业分析的流程进行信息检索与决策支持。社交媒体也被纳入模拟环境,智能体的发布与互动行为会影响用户获取和品牌扩散效果。
测试结果显示,大多数当前最先进的大模型难以在500天的模拟中避免公司破产。在参测模型中,Claude Fable 5、Claude Opus 4.8和GPT-5.5在各自最佳的一次运行中,最终现金余额超过了初始资金。其中,Claude Fable 5是唯一一个在多次测试中都能实现资金高于初始水平的模型。相比之下,Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2和Claude Sonnet 4.6虽然保持了正现金流,但现金余额均低于启动资金。作为对照,基于规则的基线系统最终将现金余额提升至1580万美元。
研究团队进一步分析了模型的决策过程,发现能力更强的模型往往拥有更广泛的策略探索能力,并能够根据环境变化持续调整经营策略。例如,GPT-5.5会随着市场变化不断调整获客、产品研发和定价等策略,而Claude Opus 4.8则会在前期积极尝试多种策略,后期逐步收敛到稳定模式。相比之下,Claude Opus 4.7更容易陷入保守决策,倾向于围绕现金保全展开经营。
表现更好的模型更善于开展面向特定客户群体的精细化产品开发。数据显示,GPT-5.5有89%的研发投入用于定向开发,Claude Opus 4.8为87%,而Claude Opus 4.7仅为44%,Kimi K2.6更是只有10%。领先模型更倾向于利用精细化策略,而不是单纯依赖通用产品研发。
从决策方式来看,领先模型展现出更强的前瞻性。Claude Opus 4.8和GPT-5.5在经营备忘录中更频繁使用条件判断,提前设定未来可能出现的经营情景,并预先规划应对措施。两款模型还会主动编写辅助代码来支持经营决策,例如模拟未来现金流或分析客户隐藏偏好。研究团队认为,这种主动构建分析工具和预测未来的能力,是高表现模型的重要特征。




















