热点资讯

金融财经

详情页设计 AIGC浪潮之下，锐捷如何为算力网络注入“智能”

发布日期：2024-08-13 09:38 点击次数：153

当前，AI技术正在持续赋能产业变革。继文本和图像之后，Sora的横空出世让AI浪潮席卷至视频领域，推动AI多模态领域的飞跃式发展。以AIGC为代表的业务应用正在重塑人类的学习路径、工作模式乃至生活节奏详情页设计，引领我们进入一个更为智能、便捷的新时代。

AIGC时代，大模型参数量持续飙升，算力需求也随之爆发式增长，这就要求网络能够承载更大规模的GPU集群。以GPT-4为例，其参数量已跃升至惊人的1.8万亿，训练所需的算力更是高达4680P，只有万卡集群能够提供足够的算力支持，满足大模型训练的需求。

由于GPT-4扩展MoE引入了大量的All to All通信，使机内和机间通信的比例几乎达到了1:1，机间All to All通信是依靠交换机转发进行传输，因此网络通信对GPU利用率的影响越发明显。这意味着，交换机需要升级到800G和1.6T的规格，以满足大模型训练过程中的超大带宽需求。

此外，在构建大规模训练集群时，往往配备有数以万计的高性能GPU，旨在支持并行处理多个复杂的模型训练任务。这种多任务并行环境极大地增加了流量的复杂性和动态性，对网络系统的负载均衡能力提出了前所未有的挑战。因此，网络架构需要具备一定的灵活性和可扩展性，以应对不断变化的流量需求。

锐捷AIGC智算中心网络支撑大规模算力集群建设

面向下一代AI云服务的智算中心网络建设，锐捷网络在去年推出了AI-Fabric智算中心网络解决方案和AI-FlexiForce智算中心网络解决方案，以其高吞吐、大带宽、高可用的特性，可应用于大数据处理、机器学习、AIGC多种业务场景，助力客户构建万卡级别的智算中心网络，支撑AI业务快速发展。

锐捷网络AI-FlexiForce智算中心网络解决方案采用NCP+NCF为基础模块横向扩展的三级网络架构，并基于高性能芯片技术，通过将数据流切分成等长的Cell并负载到所有链路，提升网络带宽利用率；基于VOQ+Credit的端到端流控机制实现与业务无关的无损自闭环网络，助力业务算力提升。

AI-FlexiForce方案通过创新性地应用链路负载和拥塞控制技术，根本性解决网络中的拥塞冲突问题，提升GPU之间通信和计算效率，加速企业大模型应用的推出。同时，锐捷网络打造了分布式OS，意在实现分布式方案架构的统一管理基础上，最大程度降低系统性风险，提升AI训练网络的长期稳定运行。

上架产品

▲锐捷网络数据中心网络事业群高级技术总监权熙哲

为了适应客户的普适性场景，锐捷网络在今年创新性地推出了AILB负载均衡解决方案，并从1.0版本持续迭代升级至2.0版本。凭借其卓越的性能与灵活性，AILB方案实现了多任务环境下不同模型间的数据通讯。权熙哲指出，“借助AILB方案，客户可以更好地完成端到端的链路选择，实现端到端的高吞吐。”

基于GPU间有规律的传输流量特征及Leaf/Spine之间1:1收敛的特征，网络设备以Leaf分组，为Leaf接入地所有网卡，自动预规划全局负载均衡路径；主路由与其它等价路径形成1主多备，AILB方案的快切技术，实现10ms内完成路径切换。

据悉，AILB方案可以叠加单级PFC（防止“多打一”）构建无损Fabric，无需ECN端网对接，实现GPU网卡与外部网络解耦。AILB方案在16节点PerfTest测试中，带宽利用率高达97.6%，其快速的Failover切换时间，保障训练业务的连续性。该方案支持智算中心多租户部署模式，在线美工适用于非Mellanox系列网卡。

目前，锐捷网络智算中心网络解决方案为跨行业通用型，不特定于某个单一行业，而是广泛适用于AI大模型公司、政府行业、电力能源行业（如光伏企业）、IDC公司等等，为客户提供更加专业的技术服务，助力他们应对市场挑战，实现可持续发展。

400G交换机与LPO光模块惊艳亮相MWC2024

在MWC2024展区，锐捷网络展出了RG-S6990-128QC数据中心交换机，以及高密度、低功耗的400G/800G LPO自研光模块，适用于数据中心、高性能计算网络、企业核心分布层，为数据中心服务器和交换机提供经济高效的高速互联。

▲400G/800G LPO光模块

RG-S6990-128QC交换机是锐捷网络面向高端数据中心和AIGC智算场景推出的新一代高性能、高密度盒式交换机。它采用先进的硬件架构设计，提供128个400GE端口，所有端口均支持线速转发，转发性能达到51.2Tbps，支持冗余可插拔电源和风扇，支持AI-Fabric方案RALB和AILB负载均衡技术，提升AIGC智算场景下流量带宽，缩短AI训练时长。

权熙哲指出，“以51.2T芯片为基础，这款交换机能够提供128个400GE端口，支持高达1000张GPU卡的通信规模。同时，高密度的接口设计使得单个交换机能够连接更多服务器，支持更大规模的服务器集群，满足未来不断增长的数据处理需求。”

400G-QDD-DR4-SM1310模块设计用于400G光模块，采用QSFP-DD封装，MPO-12 APC接头接口，使用波长1310nm，需配套单模光纤使用，最大传输距离为500m，可以实现功耗降低50%，LPO时延下降90%，成本降低15%，无需1分2跳线，规模增加一倍，仍可维持传统布线方案。

在成本方面，随着400G LPO光模块的DSP芯片量产，其成本占比已从早期的30%以上降至当前的10%左右，显著提升了产品的性价比。对于更高速率的800G及1.6T光模块，锐捷虽面临DSP芯片成本占比较高的挑战，但仍致力于通过技术创新与规模效应来降低成本。

权熙哲认为，“我们已正式发布了400G与800G的LPO光模块，实现了整体功耗降低超过60%的显著成效。具体而言，传统光模块可能消耗高达15瓦的电力，而我们的LPO光模块仅需4～5瓦，极大提升了能效比。希望通过锐捷的交换机加线性光模块，给客户提供一个极优的性价比。”

下半年，锐捷网络将推出800G及更高密度的交换机产品详情页设计，同时，1.6T交换机及配套的线性光模块也在紧锣密鼓的研发中，预计在未来两年内面世。我们相信，通过不懈努力，锐捷能够克服技术挑战，推动光通信领域向更高速率、更低功耗、更低成本的方向发展。

特别声明：以上内容（如有图片或视频亦包括在内）来源于网络，不代表本网站立场。本网站仅提供信息存储服务。如因作品内容、版权和其他问题需要同我们联系的，请联系我们及时处理。联系方式：451255985@qq.com，进行删除。

上一篇：网店装修【AI加持版Siri明年春天才能体验，通过iOS 18.4更新】据

下一篇：详情页设计损伤性休克的病因是挤压伤、大手术、骨折，不具备遗传、传染因素

热点资讯

相关资讯

金融财经

详情页设计 AIGC浪潮之下，锐捷如何为算力网络注入“智能”

相关资讯