中科曙光于2026年3月12日正式发布了其首款全栈自研400G无损高速网络——scaleFabric。这一发布标志着中国在数据中心高速互连网络领域取得了重大突破,填补了国内在该领域的技术空白。
以往我们在数据库一体机中主要使用国外的Infiniband设备,今后也可以使用scaleFabric了。
简单说,曙光网络芯片是自研,scaleFabric的最底层的112G PAM4高速Serdes IP也是自研的,同时还构造了类似Infiniband网络的协议站,从根上实现完全自主可控。
1. 核心定位与意义
- 全栈自研:scaleFabric是中科曙光历经三年攻坚推出的成果,实现了从底层硬件到上层软件的100%自主研发。这包括最底层的112G SerDes IP、交换芯片、网卡(NIC)硬件设备,以及上层的网络管理软件。
- 填补空白:在此之前,类似InfiniBand(IB)级别的高性能无损网络核心技术主要被海外厂商垄断。scaleFabric的推出打破了这一局面,让中国拥有了自主可控的高端RDMA(远程直接内存访问)网络技术。
- 应用场景:专为超大规模智算集群(如万卡、十万卡级AI集群)设计,旨在解决大规模集群组网中高带宽、低延迟、无损传输与扩展性之间的平衡难题,被称为算力集群的“神经枢纽”。
2. 关键技术特性
- 原生RDMA架构:基于原生RDMA架构设计,类InfiniBand协议,能够直接在内存之间进行数据传输,无需经过操作系统内核,从而极大降低CPU开销和通信延迟。
- 高性能指标:
- 带宽:支持400Gb/s的超高带宽。
- 延迟:端侧通信延迟低于1微秒,超节点间通信性能达到业内领先水平。
- 端口密度:其自研交换芯片的端口密度高达80口400G,较同类竞品提升了25%,有助于构建更紧凑、高效的网络拓扑。
- 无损传输:通过流控机制确保在高负载下数据包不丢失,保证AI训练等任务的稳定性,避免因网络拥塞导致的算力闲置。
3. 性能优势与对比
根据中科曙光披露的数据,scaleFabric在与传统InfiniBand网络的对比中表现出显著优势:
- 算力释放效率:在超大规模集群中,相比传统IB网络,scaleFabric能将超集群规模轻松扩展至10万卡以上,且算力释放效率提升约2.33倍。
- 成本优势:由于实现了全链条自研,摆脱了对昂贵进口设备的依赖,使得网络总体建设成本降低了约30%。
- 扩展性:支持从千卡到十万卡规模的平滑扩展,适应未来AI模型参数指数级增长的需求。
4. 系统协同:scaleX万卡超集群
scaleFabric并非孤立存在,它是中科曙光scaleX万卡超集群解决方案的核心组成部分。
- 在2025年12月的光合组织人工智能创新大会上,中科曙光已展示了搭载该网络技术的scaleX万卡超集群真机。
- 通过“存、算、传”的紧耦合深度优化,scaleFabric与曙光的其他计算和存储组件协同工作,为万亿参数大模型训练、科学智能(AI for Science)等复杂任务提供坚实的底座。
5. 硬件介绍
曙光scaleFabric400 2U风冷高速交换机
曙光scaleFabric400 1U液冷高速交换机
曙光scaleFabric400 网卡
6. 总结
中科曙光scaleFabric的发布,不仅是一款网络产品的问世,更是中国网络基础设施的重大突破,今后在一些高性能领域,虽然当前主要是在AI领域使用,但不久也一定会在其他需要高性能网络的领域广泛使用,如数据库一体机的领域。当前数据库一体机领域主要是100GB的网络,可以想象今后会很快进化到400GB的网络。