AI-FlexiForce智算中心网络解决方案
TIME:2026-01-29 click: 75 次
建设下一代AI云服务的智算中心网络挑战
随着AIGC的高速发展,全球各大云服务商也推出了属于自己的大模型和对应的AI云服务,加速计算服务器迅猛发展的同时,
也加快了云用户对AI加速卡的部署进程。因此,如何在AI云服务这个业务模式中保持强有力的竞争力,提升集群的GPU效率变得尤为关键。
节点规模对训练效率的影响单纯提升服务器节点规模,集群计算效率反而下降节点规模对训练效率的影响
带宽对训练效率的影响服务器集群的通信带宽已成为提升分布式训练效率的瓶颈带宽对训练效率的影响
动态时延对训练效率的影响网络拥塞导致动态时延高,降低GPU利用率,训练时间延长动态时延对训练效率的影响
丢包率对于训练效率的影响RDMA丢包重传导致带宽利用率快速降低,丢包率达到1%,严重影响训练效率丢包率对于训练效率的影响
AI-FlexiForce智算中心网络解决方案
构建万卡级超大规模智算中心网络
DDC二级组网
DDC三级组网
NCF数量
40台
NCP数量
96台
NCP组数
12组
400G网口数
1728个
AI服务器数量
216台
一个AI服务器配备了8张1*400G网卡
DDC二级组网
方案价值
提升算力
满足AI集群大规模组网要求的同时
提升网络带宽利用率20%以上
GPU利用率8%以上
优化带宽
采用Cell分片技术
让数据流转发负载更均衡
从而有效降低长尾延时
保障AI集群的低延时稳定传输
无损传输
利用信令调度的VOQ技术
保障业务数据在集群内转发不丢包
达到无损传输的效果
成熟开放
基于成熟的Cell+VoQ的芯片技术
大规模应用的芯片方案
开放生态,无厂商锁定
明星产品
NCP-RG-S6930-18QC40F1
NCP-RG-S6930-18QC40F1
支持18个400G的业务口 支持40个200G的Fabric内联口
NCP-RG-S6930-18QC40F1
NCF-RG-X56-96F1
支持96个200G的Fabric内联口