在AI算力竞争的赛道上,一家专注于推理GPU的公司正以惊人的速度崛起。成立仅一年多,曦望便完成了七轮融资,累计金额突破40亿元,并在最新一轮融资中以10亿元创下国内该领域单笔融资纪录,成为估值超百亿的纯推理GPU独角兽。这一成绩背后,是其All in推理的战略选择与对行业趋势的精准把握。
曦望联席CEO王湛指出,AI行业正经历算力需求的结构性反转。过去,市场聚焦于大模型参数量与训练集群规模,而如今,推理算力需求已呈现指数级增长。据预测,2026年AI推理计算需求将达训练算力的4-5倍,首次实现全面超越。这一转变源于Agent技术的普及——智能体为完成任务需进行高频、多轮调用,导致Token消耗量激增。例如,海外用户仅与AI对话一句便消耗80美元Token成本的案例,印证了推理成本优化的紧迫性。
面对市场变化,曦望选择放弃训练能力,专为推理场景打造原生芯片。其最新推出的启望S3芯片通过裁剪训练模块,将晶体管资源集中投入推理,使单位面积有效算力效率提升5倍以上。技术层面,S3采用深度定制的AI Core架构,将GEMM和Flash Attention等核心算子利用率分别提升至99%和98%,并支持全链路低精度运算,在模型效果无损的前提下将吞吐量翻数倍。系统层面,S3成为国内首款采用LPDDR6显存的推理GPU,最大容量近600GB,同时首发PCIe Gen6接口,系统带宽翻倍,有效解决长上下文记忆瓶颈。
“我们的目标是将百万Token成本压至一分钱。”王湛透露,曦望通过全栈自研实现软硬件深度优化。硬件方面,AI Core与软件栈均100%自主开发;生态层面,芯片兼容CUDA生态超99%,确保客户零迁移成本。这种“自主可控+开放兼容”的策略,源于团队对通用计算架构的坚持——既避免专用芯片的适配局限,又通过底层代码实现生态兼容。目前,曦望保持每代芯片一次性流片成功,得益于其自主开发的仿真验证工具,可在流片前完成海量算子测试,提前识别性能瓶颈。
曦望的崛起离不开其“三位一体”的顶层架构:董事长徐冰(商汤联合创始人)把控战略与融资;联席CEO王勇(前AMD、昆仑芯核心架构师)主导芯片研发;王湛则负责商业化与运营。这一组合汇聚了AI趋势洞察、硬核技术积累与互联网产品思维。公司现有400余人团队中,研发人员占比超80%,核心成员来自英伟达、AMD、华为海思等企业,平均行业经验超15年。为吸引人才,曦望设立了中国GPU企业中规模最大的员工持股计划池,通过利益共享机制激发组织战斗力。
对于AI行业是否存在泡沫的质疑,王湛认为,当前AI与2000年互联网泡沫有本质区别。ChatGPT用两年时间突破亿级用户,且用户粘性持续增强,表明AI正以远超工业革命和信息革命的速度重塑社会。他判断,算力市场将长期供不应求,限制因素在于生产工具而非需求——光模块短缺、内存涨价、服务器抢购等现象,均印证了底层基础设施的瓶颈。曦望选择从互联网大厂切入商业化,正是希望通过服务高标准客户打磨产品竞争力。
“AI的本质是分发智能,抹平信息鸿沟。”王湛强调,曦望的使命是将智能算力成本降至普惠水平。这种理念不仅体现在技术路线选择上,更贯穿于组织建设与市场策略中。在算力红海竞争中,这家年轻独角兽正以差异化战略开辟新赛道。




















