中科曙光近日宣布,在国产高端网络技术领域取得关键性突破,正式推出首款全栈自研的400G无损高速网络解决方案——scaleFabric。该产品通过构建从底层硬件到上层软件的完整技术体系,实现了数据中心高速网络领域的技术自主可控,为国内超大规模智能计算集群建设提供了核心支撑。
作为面向万卡级智能计算集群设计的网络架构,scaleFabric突破了海外厂商在InfiniBand产业链的技术垄断。其核心组件包括自主研发的112G SerDes IP、交换芯片、智能网卡及配套管理软件,形成了从硬件设备到软件协议的完整技术闭环。该方案特别针对AI大模型训练场景优化,通过原生RDMA架构实现零丢包、微秒级延迟的数据传输,有效解决了传统网络在大规模并行计算中的通信瓶颈问题。
技术规格显示,scaleFabric400系列网卡采用PCIe5.0接口,单端口带宽达400Gbps,端到端通信延迟控制在0.9微秒以内。配套交换机产品单端口带宽突破800Gbps,整机交换容量达双向64Tbps,支持800G×40或400G×80端口灵活配置。在关键性能指标上,该方案已达到国际顶尖水平,其中交换机端口密度较同类产品提升25%,网络互连规模扩展至传统方案的2.33倍。
在稳定性设计方面,创新采用信用制无损流控机制,从底层规避网络拥塞导致的丢包风险。实测数据显示,其链路故障恢复时间小于1毫秒,可稳定支撑近万卡集群连续运行超过10个月。相较于英伟达NDR方案,scaleFabric在最大QP数支持、单子网互连规模等维度实现显著提升,单集群最大部署规模可达11.4万卡,同时将网络建设成本降低30%。
实际应用层面,该方案已在国家超算互联网郑州核心节点完成部署,成功支撑三套万卡级scaleX智能计算集群上线运行,总计算规模突破3万卡。这种大规模集群的稳定运行验证,标志着我国在高端网络技术领域实现了从依赖进口到自主可控的重要跨越,为人工智能、科学计算等领域的大规模并行计算提供了新的基础设施选择。




















