曦望成国内首家百亿估值纯推理GPU独角兽，专访揭秘AI推理成本制胜之道-数码-沃资讯

曦望成国内首家百亿估值纯推理GPU独角兽，专访揭秘AI推理成本制胜之道

发布时间：2026-04-23 23:03 来源：天脉网作者：杨凌霄

在AI算力竞争的赛道上，一家专注于推理GPU的公司正以惊人的速度崛起。成立仅一年多，曦望便完成了七轮融资，累计金额突破40亿元，并在最新一轮融资中以10亿元创下国内该领域单笔融资纪录，成为估值超百亿的纯推理GPU独角兽。这一成绩背后，是其All in推理的战略选择与对行业趋势的精准把握。

曦望联席CEO王湛指出，AI行业正经历算力需求的结构性反转。过去，市场聚焦于大模型参数量与训练集群规模，而如今，推理算力需求已呈现指数级增长。据预测，2026年AI推理计算需求将达训练算力的4-5倍，首次实现全面超越。这一转变源于Agent技术的普及——智能体为完成任务需进行高频、多轮调用，导致Token消耗量激增。例如，海外用户仅与AI对话一句便消耗80美元Token成本的案例，印证了推理成本优化的紧迫性。

面对市场变化，曦望选择放弃训练能力，专为推理场景打造原生芯片。其最新推出的启望S3芯片通过裁剪训练模块，将晶体管资源集中投入推理，使单位面积有效算力效率提升5倍以上。技术层面，S3采用深度定制的AI Core架构，将GEMM和Flash Attention等核心算子利用率分别提升至99%和98%，并支持全链路低精度运算，在模型效果无损的前提下将吞吐量翻数倍。系统层面，S3成为国内首款采用LPDDR6显存的推理GPU，最大容量近600GB，同时首发PCIe Gen6接口，系统带宽翻倍，有效解决长上下文记忆瓶颈。

“我们的目标是将百万Token成本压至一分钱。”王湛透露，曦望通过全栈自研实现软硬件深度优化。硬件方面，AI Core与软件栈均100%自主开发；生态层面，芯片兼容CUDA生态超99%，确保客户零迁移成本。这种“自主可控+开放兼容”的策略，源于团队对通用计算架构的坚持——既避免专用芯片的适配局限，又通过底层代码实现生态兼容。目前，曦望保持每代芯片一次性流片成功，得益于其自主开发的仿真验证工具，可在流片前完成海量算子测试，提前识别性能瓶颈。

曦望的崛起离不开其“三位一体”的顶层架构：董事长徐冰（商汤联合创始人）把控战略与融资；联席CEO王勇（前AMD、昆仑芯核心架构师）主导芯片研发；王湛则负责商业化与运营。这一组合汇聚了AI趋势洞察、硬核技术积累与互联网产品思维。公司现有400余人团队中，研发人员占比超80%，核心成员来自英伟达、AMD、华为海思等企业，平均行业经验超15年。为吸引人才，曦望设立了中国GPU企业中规模最大的员工持股计划池，通过利益共享机制激发组织战斗力。

对于AI行业是否存在泡沫的质疑，王湛认为，当前AI与2000年互联网泡沫有本质区别。ChatGPT用两年时间突破亿级用户，且用户粘性持续增强，表明AI正以远超工业革命和信息革命的速度重塑社会。他判断，算力市场将长期供不应求，限制因素在于生产工具而非需求——光模块短缺、内存涨价、服务器抢购等现象，均印证了底层基础设施的瓶颈。曦望选择从互联网大厂切入商业化，正是希望通过服务高标准客户打磨产品竞争力。

“AI的本质是分发智能，抹平信息鸿沟。”王湛强调，曦望的使命是将智能算力成本降至普惠水平。这种理念不仅体现在技术路线选择上，更贯穿于组织建设与市场策略中。在算力红海竞争中，这家年轻独角兽正以差异化战略开辟新赛道。

更多>同类内容