普林斯顿大学近期推出一项名为CEO-Bench的全新基准测试,通过模拟创业公司运营场景,对人工智能模型担任企业首席执行官的能力展开系统性评估。测试结果显示,多数参与测试的AI模型在500天模拟周期内未能维持初始资金,仅有少数模型实现盈利增长。
该测试框架构建了高度复杂的商业环境,每家虚拟企业获得100万美元启动资金,需在500天运营周期内处理定价策略、预算分配、市场竞争分析等12类核心管理任务。AI智能体以周为单位制定决策,可调用34个专业工具并查询19个业务数据库,但需面对26个客户群体的隐性需求——价格敏感度、质量偏好等关键信息均需通过订阅数据、社交媒体反馈等间接渠道推断。
产品质量体系设计尤为精妙,由日常研发、定向开发、基础设施投入等8个维度共同决定。这种多变量耦合机制导致模型决策产生连锁反应,例如增加客服投入可能提升客户留存率,但会挤占产品开发预算。测试中,多数模型因未能平衡短期收益与长期投入,在模拟中期即出现资金链断裂。
在34个参与测试的模型中,Claude Fable 5以4715万美元期末现金领跑榜单,其三次运行结果均保持盈利状态。Claude Opus 4.8与GPT-5.5分别以2777万和2129万美元位列第二、第三,但后者平均运营天数仅333.7天,显示出较大的运营波动性。基于规则的传统基准模型取得1580万美元成绩,证明简单逻辑框架在特定场景下仍具竞争力。
表现欠佳的模型普遍存在决策短视问题。Grok 4.20平均仅维持28天运营,DeepSeek V4 Pro与Gemini 3 Flash也均在200天内破产。这些模型在定价策略上过度激进,或忽视客户流失预警信号,导致资金消耗速度远超收入增长。测试数据还显示,模型每周执行决策轮数与最终成绩无明显关联,Claude Fable 5仅需15.4轮即可高效决策,而某些模型30余轮操作仍难避免亏损。
研究人员指出,该测试揭示了AI在复杂商业决策中的四大短板:长期规划能力不足、噪声数据处理效率低下、外部变化适应迟缓、多目标协调失衡。尽管头部模型已展现出初步的商业洞察力,但要真正替代人类管理者,仍需突破动态环境建模、隐性知识推理等关键技术瓶颈。





















