无损以太网络技术具有智能RDMA、网络级负载均衡等特征,可实现零丢包转发和90%的超高吞吐率,形成性能、兼容性、成本效益和灵活性等全方面优势,已成为高性能计算的必然选择。

[阿拉木图,2023年6月5日] 在2023华为中东中亚技术嘉年华期间,华为成功举办数通创新峰会。来自哈萨克斯坦、乌兹别克斯坦、沙特、阿联酋、卡塔尔、巴基斯坦等多个国家的480多位客户和伙伴参与本次峰会,共同讨论行业数字化发展和网络技术创新。会上,华为联合IEEE Kazakhstan Subsection、阿联酋高级国家研究和教育网络Ankabut面向全球共同发布了《HPC无损以太和AI Fabric网络技术白皮书》(以下简称“白皮书”)。白皮书阐述了无损以太数据中心网络在HPC和AI领域广泛的应用前景,并从网络架构、关键技术、商业价值、最佳实践等维度阐述了最新的技术研究与商用实践成果。


(资料图片仅供参考)

华为联合IEEE Kazakhstan Subsection、Ankabut发布《HPC无损以太和AI Fabric网络技术白皮书》

白皮书指出,无损以太网络技术具有智能RDMA、网络级负载均衡等特征,可实现零丢包转发和90%的超高吞吐率,形成性能、兼容性、成本效益和灵活性等全方面优势,已成为高性能计算的必然选择。同时全球各国积极颁发政策支持HPC和AI发展,未来,无损以太网络将在全球数字化中发挥关键作用。

白皮书中首先介绍了当前高性能计算网络拓扑架构包括CLOS、MultiRail、直连拓扑。其中,CLOS是一个多级架构,在每一级,每个交换单元都和下一级的所有交换单元相连接,可以做到严格的无阻塞、可重构、可扩展;MultiRail通过框式设备的信元交换,实现平面内的绝对负载均衡;直连拓扑可实现超大规模组网,具备低成本、端到端通信跳数少的特点。

其次介绍了软件架构从网络自身的优化、网络与应用系统的融合优化两个方面来提升HPC&AI应用性能。其中网络自身优化通过以下三个方面实现整网吞吐最高、时延最低的目标:第一是流控技术,通过识别环形缓存依赖并破除其产生的必要条件,从而解决PFC死锁的问题,提高网络可靠性;第二是拥塞控制,通过AI算法动态调节ECN门限,以获得最大带宽与最小时延;第三是流量调度,通过NSLB技术解决网络负载不均的问题,实现90%高吞吐,以达成AI训练效率提升20%的结果。网络与应用系统的融合优化,则由HPC网络通过在网计算实现运算优化,即通过MPI通信的在网聚合运算特性,网络设备参与计算过程,减少任务完成时间。

HPC无损以太和AI Fabric网络技术白皮书

当前整个社会发展的大趋势是HPC&AI For Everything,无损以太网络将持续为实现万物互联、万网互通筑基架梁;为千行百业提供算力服务,打造数字经济时代的坚实高性能计算底座;为先进数字产业繁荣发展贡献力量,助力全球数字化转型。

更多信息,请点击下载《HPC无损以太和AI Fabric网络技术白皮书》:https://e.huawei.com/cn/material/enterprise/7021011bcf3d45eeb8c83912f94bd1af

推荐内容