News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

IA网络体系结构可以“无开关”进入时代

在当前的数字时代,人工智能技术的快速发展是在许多领域(包括接纳AI运营的网络架构)重组基础设施。传统数据中心的网络体系结构专注于开关并构建分层数据传输路由。但是,随着AI大型训练量表的爆炸性增长,这种传统的建筑面临着前所未有的挑战。本文的预约:大规模模型的培训带来了GPU/超密集的GPU要求。以当今的大型语言模型为例,在培训过程中,它们必须经常替换成千上万或数万个GPU。这些GPU之间的沟通不再像“传统的交流”通信,而是“筹码的交流”。在这种情况下,数据中心不再延伸到简单的“服务器群集”,而是“芯片群集”。比较时传统的数据中心使用城市运输系统,想象服务器是城市内部的办事处,开关是连接这些办公楼的道路网络。但是,在AI时代,这个小phor不再适合。当今的数据中心就像非常大的工厂,每个GPU都是工厂工作站。他们需要以高频和低孵育期替代半末端的产品。传输延迟对一般生产效率有重大影响。与此相关的是,出现了主要问题:如果可以直接连接芯片,是否仍然存在开关?就像问。如果工厂中的所有工作站都可以直接通过DAND传送带连接,那么中间物流运输站仍然需要吗?这个问题引起了关于“没有变化的网络”可能性的详细思路。 “没有开关的网络”的概念是什么? So称为“没有SWIT的网络”CHES“没有开关能力,但指的是不再取决于TOR(上帧)/工作表/列的传统层次结构开关拓扑的网络体系结构。这是可能的,就多种层次的交换而言,这是可能的,通过更改,芯片/节点之间的数据交换是通过诸如互联网络互联网络的传统网络来实现的。像工厂的材料应首先发送到车间交付点,然后将“不开关的网络”传送带在工作站之间建立一个直接的传送带,并将材料直接从一个工作站转移到另一个工作站,在很大程度上减少了“无需切换的网络”的开发。技术Nvidia的Ogy。在传统体系结构中,数据交换集中在网络开关中。在NVLINK/NVSWWITCH架构中,开关功能分布在多个计算机节点或专用于形成分布式交换网络的切换芯片中。这就像取消工厂的中央物流中心一样,但是在车站附近安装了一个小型材料转移站,以使物料传输路线在所有研讨会和工作中更为直接。公路2:“ R组成”“连接芯片”的过渡代表晶圆和奇普特级别的网络互连技术。此外,它将网络功能达到芯片级别,并将它们集成到计算机芯片中。这是将物流系统直接集成到工作站的方法。工作站不仅具有处理功能,还具有材料的传输和编程功能。在此架构下,“网络”的传统概念已完全重建t并转变为芯片内部或之间的直接互连。 AI模型继续扩展,GPU计算机组的规模,规模和密度也在扩展,爆炸量。如今,大型语言模型的培训已从数百个早期卡片扩展到KA级别的AI培训小组。在这样的超大规模中,网络的瓶颈是限制性能改善的主要矛盾之处。当他们面对如此密集的计算机节点时,不可避免地,多个传统层的切换网络体系结构会引入额外的延迟,能耗和路线不可预测性。以典型的三层爪网络为例,可能必须通过6-7开关转发从一个GPU发送到另一个GPU的软件包。每次跳跃都会增加约1-5微秒的延迟,这在累积时对训练性能产生重大影响。在工厂的飞机中,工厂的尺度增加,logiStics和运输站增加,各个运输站之间的传输时间超过了处理时间本身。工人们花费的大部分时间都在等待材料到达,而不是进行真正的生产。这显然非常低效。此外,多层切换体系结构的能耗问题不容忽视。据估计,在大型培训小组中,网络设备的能源消耗可以占总能源消耗的15%。随着群集的大小增加,这个百分比的增加更加增加。如今,由于对能源成本和碳排放的最大关注,减少网络能源消耗已成为AI有效基础设施设计的重要考虑因素。 2. Evolution DE包装技术:Chipplet + Copackics芯片包装技术,芯片包装技术创新是提高“不变”趋势的另一个重要力量。单个芯片的传统设计面临放慢摩尔定律的挑战,而奇普特技术是将多个kiplet集成到同一包装中的新方法,这使其成为高性能计算的新工具。它提供了可能性。在Chipplet体系结构中,同质和非均匀的互连逐渐被传统的桌子与董事会通信所取代。不再需要“机架”数据,而是直接使用“芯片”,可大大减少通信延迟和能耗。例如,AMD EPYC处理器使用Chipplet设计,将多个计算机芯片通过高速互连Busto链接在一起,形成了一个统一的处理单元。此设计概念也适用于AI芯片领域。包装光学元件(CPO)技术补充了Chiplet技术。 CPO在同一包装中将光置换与开关或处理器芯片集成在一起,以有效地转换电信号和光学信号。 t他的技术可以显着提高数据传输距离和带宽,同时减少能耗。如今,英特尔,Broadcom和其他公司正在积极促进CPO技术的商业化。返回工厂的隐喻,就像整合工作站,在同一超大的工作平台上分散了不同的研讨会,在这些工作站中,工作站直接通过内部输送带直接连接而不经过外部物流系统。同时,为了连接到工作平台以使男子变形,使用高速传送带代替传统物流车辆来实现更快,更有效的材料传输。 3.网络智能网络智能的趋势是提高“无开关”趋势的第三个中心力量。在传统的网络体系结构中,路由和转发决策主要由开关做出。随着DPU的增加(数据处理单元)和智能(S)mart网络卡),这些功能正在移至网络的边缘。 DPU和SmartNIC提供“结束 - 端通过编程功能”,以允许更改转发功能淹没计算机节点本身。例如,Nvidia和Intel IPU的Bluefield DPU具有强大的网络处理功能,提供了更灵活的网络功能。当它提供从主机CPU上的网络下载加工负载时。有了这一趋势,AI网络不再信任集中控制,而是向“网络的边缘”发展。每个计算机节点成为网络的一部分,并具有独立的路由和转发功能。该分布式网络体系结构更适合AI工作负载特征,并允许根据实际通信需要动态调整网络路由,以改善网络的使用。这与每个工作站相等,使用智能编程系统,允许独立决策o根据生产需求的物料传输路线,而无需依赖中央编程中心。工作站可以协商并直接选择最佳的物质转移解决方案。这大大提高了生产效率和灵活性。这三个力量:GPU计算机组中密度的爆炸,包装技术的演变以及网络CO -MATROCINE智能的趋势是网络体系结构从AI到“不变”的演变。他们从不同的角度解决了传统网络架构面临的挑战,从更高效,更灵活的网络基础架构提供了计算机科学。已经进行了调查:没有切换/货运开关架构实例1。NVIDIANVLINK/NVSWWITCH架构NVLink和NVSWWitch NVIDIA Technologies是切换体系结构而无需锁定/虚弱的最成熟的实例之一。 NVLink是NVIDIA开发的高速互连技术。最初使用为了在GPU和GPU之间进行直接通信,然后扩展到GPU和CPU,GPU和存储设备之间的通信。在GPU H100/H200的最后一个体系结构中,第四个NVLink提供了最多900 GB/s的Banbidirectional宽度,远远超出了传统PCIE接口的带宽。这允许在GPU之间有效的数据交换,而无需通过主机或外部网络的内存重定向。 NVSWWITCH是基于NVLINK技术的专用切换芯片,可以将多个GPU连接到完全连接的网络。在DGX NVIDIA系统中,多个NVSwwitch芯片共同构建“芯片网络”,以便系统中的所有GPU都可以以靠近本地内存访问的速度相互通信。以DGX H100为例,系统中的8 GPU H100通过NVSwwitch完全连接,形成了一组统一的计算机资源。多个DGX系统通过NVIDIA Quantum-2 Infiniband网络连接,形成了较大的集群。在此体系结构中,GPU在系统中的通信几乎完全避免了传统的网络路由,从而大大降低了通信延迟和带宽限制。在工厂的隐喻中,NVLINK/NVSWWITCH架构就像在工厂内建立高速传送带系统,并直接连接相关的工作站以形成附近的协作单元。这些工作单元中的运动速度非常快,很少延迟,生产效率得到了极大的提高。 2。庆祝电动机的电动机Kelebras Wafering量表(WSE)的发动机代表了不开关的极端建筑的另一个概念。将整个神经网络处理器集成到晶圆中,从本质上消除了交叉通信的需求。传统的AI芯片,例如GPU和TPU,将大晶片切成多个独立芯片,并通过外部包装和互连技术将它们连接起来。Brain'wse保留了IN整个晶圆的质量,并将其用作超大处理器。最后一个WSE-2包括26亿晶体管和850,000个优化的核,都在同一硅中,并通过芯片中的互连网络连接。这种设计完全消除了传统AI系统中的交叉通信瓶颈,并几乎没有延迟或啤酒花数来构建“芯片中的IA”。在WSE中训练神经元网络时,没有传递所有通过外部网络设备的计算和设计。传输是在同一硅中进行的。 WSE Brains就像将整个生产线集成到一个Ultra -big工作平台中,每个过程都在没有外部物流的情况下完成。这种设计大大简化了生产过程并提高了效率,但也面临着规模的挑战。如果您需要增加容量,则不能添加更多的工作平台,但是您必须设计一个更大的独特平台。但是,绩效和成本的挑战晶圆级的设计很高,可能会影响大型的真实实现。 3。Microsoftt光学网格是基于Microsoft研究的光学互连的数据中心的网络体系结构。在此体系结构中,计算机节点直接通过光纤连接以形成网络网络,从而降低了传统开关的层​​次结构。结合智能端点编程技术,该体系结构使您能够动态调整网络拓扑以满足您的真实通信需求,从而增加网络的使用和灵活性。这些微软的研究表明,光学互连技术与端点编程相结合,可能是重建Cent AI的通信架构师的关键方向。高带宽,低潜伏期和光学通信低能消耗的特征使其成为支持下一代AI基础架构的理想选择。这就像我们横梁而不是传统的传送带,以连接每个工作站。可以根据需要在指导和阻力中动态调节光束,以实现更灵活,更有效的材料传输。 4。AWS AWS AWS的Nitro体系结构的极简主义网络层次结构是一种通过功能下载和软件定义实现“最小数量交换机 +软件网络路由控制”的网络体系结构。 Nitro架构提供传统的设备网络,存储和安全性类似于DPU,并将其下载到具有功能强大的网络处理功能的专用硝基卡上。 Nitro卡是虚拟机和外部网络之间的脸部通信,这允许网络功能和软件定义的虚拟化。该体系结构大大简化了物理网络的复杂性,降低了开关级别,并通过软件定义提供了更灵活的网络控制。使用EC2实例兼容IBLE具有硝基体系结构,可以直接通过Nitro卡进行虚拟机之间的通信,而无需浏览传统的网络路线。 AWS硝基体系结构并不能完全消除开关,而是通过功能放电和软件定义大大降低了物理开关设备的依赖性,这代表了网络体系结构简化和智能的关键趋势。工厂的隐喻是每个工作站都配备了一个智能物流控制器,该智能物流控制器可以协商物料转移路线,从而降低了中央物流系统的依赖性,同时保持一般生产调整。 5。XinggyuanxingzhiAI AI网络架构Xingzhi AI网络体系结构提出了一个优化的红色平面体系结构,用于培训大型模型。网络拓扑的重新设计和通信路由大大降低了网络和延迟O的复杂性f沟通。通过消除GPU服务器上不同GPU卡号之间的连接,只有叶层的板直接连接到GPU,所有端口最初用于连接到下部GPU的上列。该设计基于中心问题。在AI培训中,相同数量的GPU卡之间的通信要求更加频繁和重要。对于某些实现,IA NetworksStar nteligence要求不同智能计算机节点中的服务器之间的相同数值网络端口连接到同一开关。例如,所有服务器的RDMA网络端口数字1已连接到数字1交换机,并且所有服务器上的RDMA净数字2端口均连接到所有服务器上的REDMA RDMA编号2端口。所有服务器均连接到RDMA红色端口编号2。我收到了2号交换机以及更多。同时,在智能计算服务器中,上层通信图书馆ARY根据内部网络的拓扑来执行网络重合,因此GPU卡与相同数量的网络端口相关联。该设计允许两个具有相同数量GPU​​的智能计算机节点在跳跃中相互通信,从而大大减少了通信延迟。对于使用不同GPU编号的通信智能计算机节点,Xingongyuan在NCCL通信库中使用本地铁路技术完全使用主机GPU之间的NVSWWSWWITCH带宽来翻译GPU卡数字相同互操作性的多个机器之间的跨卡计数的互操作性。通常,先前的架构不带开关/弱的架构的示例从几个角度探索传统网络体系结构的替代方案,并为AI网络的未来开发提供了重要的参考。每个人都有自己的优势和缺点,但所有人都指出相同的方向:通过减少中间链接,改善终点的智能并利用新的互连技术,建立了更有效,更灵活的网络基础架构。当我们进入该时代而没有性交时会发生什么变化? 1。拓扑不再重要,设计成为“飞机矩阵”。在传统的网络体系结构中,网络拓扑是一个中心设计元素。拓扑结构(例如胖树,闭合和脊柱 - 宾夕法尼亚州)具有自己的优势和缺点。网络设计人员必须根据其应用程序方案选择适当的拓扑结构。但是,在没有开关的时代,拓扑的重要性大大降低了。拓扑的本质是解决“电线绕组”的问题。这在有限的物理空间中提供了合理的电缆设计。这是实现节点之间有效连接的一种方法。但是,如果节点可以直接连接,或者通过更先进的互连技术(例如光学互连)实现任何节点之间的直接通信,则传统拓扑的重要性被削弱了。在没有中断的架构中,网络设计倾向于“飞机矩阵”。计算机节点是根据物理距离和通信需求组织的,形成两个维度或三维矩阵结构。与传统的分层网络相比,这种结构更类似于均匀的计算机网格。返回工厂的隐喻,就像将“中央物流 +交付”模型更改为“工作站”模型。在上一个模型中,工厂设计必须考虑物流中心和分销路线的位置。在最后一个模型中,可以直接连接工作站,设计更灵活,实际生产需求不仅是物流限制。这个变化哈对数据中心的物理设计产生了重大影响。虽然Dacough中心的传统实现主要考虑网络和电缆要求的拓扑,但未来的AI数据中心可以考虑更多的计算机密度,热效率和直接互连的便利性。 2。网络协议变得更加“智能”。没有开关的体系结构显着削弱了L2/L3网络的传统协议的作用,从而替换了更智能的最终点协议和编程机制。在传统网络中,路由和转发决策主要由交换机和路由器进行,最终要点(服务器,工作站等)负责仅发送和接收数据。在没有中断的体系结构中,这些特征沉入了DPU,智能或计算芯片本身中,每个终点都变成了“微型策略单元”。此更改将创建新类型的网络协议PR算法图这些协议不是在复杂网络拓扑中找到最佳路线的一种方式,而是关于如何实现不热的网络中有效带宽和流量控制的直接连接。例如,RDMA技术(远程直接内存访问)广泛用于高性能计算机科学领域。网卡可以避免操作系统和传统的网络协议电池,以直接访问远程主机的内存,从而大大减少通信延迟。在AI培训方案中,智能编程算法可以根据培训期间的通信模式动态调整网络资源的分配。例如,在模型的并行训练中,不同的GPU负责模型的不同部分,并且它们之间的通信模式相对固定。智能编程算法可以识别这些模式,建立预先优化的通信路线并进行。她提高培训效率。这好像每个工作站都配备了一个智能编程系统,该系统允许根据生产需求独立确定材料传输的路线和优先级。无需中央调度中心的干预即可直接协商工作站,实现了更有效,更灵活的生产协作。 3。操作,维护和可观察性范例的转换无开关的体系结构的增加也导致操作,维护和可观察性范式的转换。传统网络主要关注开关状态,流量统计和注册分析。在中断架构中,这些担忧改变了芯片的行为,链接的健康和终点状态。网络监控工具必须适应此更改,并提供更精细的粒度和更真实的时间观察功能。考试ple,监视每个DPU或智能的状态,跟踪直接链接的健康并分析最终要点之间的通信模式。这些工具应该能够处理越来越大的频率监视数据,并提供更明智的分析和异常检测功能。数字双技术在这方面变得更加重要。 RETAL的数字双胞胎模型建立网络,操作和维护人员可以实时监视网络状态,在多种情况下模拟网络行为,预测潜在的问题并优化网络配置。尽管该TECNOLOGY已应用于传统网络,但其价值在没有更复杂和动态变化的体系结构中更为明显。工厂的隐喻就像是重点关注物流系统运营状态的变化,以专注于每个工作站和输送带的工作状态。运营和维护人员不再需要莫尼通R中央物流系统的运行,但它们必须确保每个工作站的办公系统正常工作。每个输送带处于健康状态,整个生产网络都有有效协调。这种范式转变需要网络操作和维护人员来获取新的技能和工具,并对计算机科学和网络融合有更深入的了解。有必要通过这种新体系结构来确保系统,安全性和性能者的可靠性。为什么在短期内很难“不中断”? 1。需要用于大型芯片通信的开关系统。没有开关的网络具有许多理论上的优势,但是在实际应用中,大型芯片通信不能与交换系统支持中隔离。它在本地晶体和范围的当前网络包装网络上提供有效的互连,但是很难扩展范围很广,这主要是由于包装的密度和物理距离的密度。以Brains'Wse为例,但是当多个WSE需要一起工作时,需要外部网络连接,尽管单个Wafer实现了互连而无需更改。同样,NVLINK/NVIDIA NVSWWITCH允许在单个DGX系统中有效互连,但是整个DGX系统中的通信基于Infiniband和Ethernet等Network Technologiesdicionales。这种局限性来自物理基本原理的局限性。随着直接互连的距离,成本和复杂性的成倍增加。在当前的技术条件下,交叉机架的中央通信以及交叉数据之间需要支持传统的切换结构。在工厂的隐喻中,它就像工作站之间的直接输送带,仅用于远程传输。如果您需要增加距离或连接多个工作电台,您仍然需要支持中央物流系统。物理上不可能完全取消中央物流系统,并将所有工作站直接连接到输送带,而且太贵了。此外,随着AI模型继续以一定程度的增长,Thetraining所需的GPU数量也是如此。一旦GPU数量达到数十万或数十万,完全相信直接互连就不再现实。尽管这种超大的方案仍然需要分层网络体系结构,但每一层的设计概念和技术实现都可以改变。 2。开关芯片仍然是“编程”,“分离”,“可见性”基础架构。更改芯片的效果远不止网络中的简单数据传输。它还具有重要特征,例如流量编程,网络隔离和可见性保证。这些很难用短期终点设备完全替换。来自流量IC编程的角度,芯片的变化可以通过排队管理和拥塞控制的复杂算法来确保公平分配和有效利用网络资源。 DPU和其他规定具有特定的网络处理功能,但还不足以独立假设整个网络的编程功能。在多个租户的云环境中,网络的隔离是关键要求。通过VLAN,ACL和其他技术,芯片的变化允许在不同租户之间隔离网络,从而确保数据安全性和性能隔离。这些特征大大增加了终点的复杂性和安全性的风险,当它们完全分布在最终点设备中时。可见性是运营和维护其Nance网络的方式。传统开关提供大量的监控和统计能力,帮助操作和维护驱动人员了解网络的状态和解决问题。如果没有这些密集的观察点,将更难定位和解决网络问题。交换芯片就像配送中心的编程系统。除了传输材料外,它还负责调整不同生产线之间的材料分布,从而确保生产的安全性和监视整个物流系统的运营状态。该中央编程系统已被取消,直接谈判仅在工作站进行,这使得很难确保整个工厂的高效且安全的运作,尤其是在具有大型线条和多个产品的复杂环境中。 3。在生态上存在的以太网/IP协议技术的演变不仅受物理局限性的影响,而且还受到生态系统限制的影响。当前的软件系统,云平台和Pplications与以太网/IP协议电池有着深远的联系,这构成了其他无需更改的网络采用的重要障碍。经过数十年的开发,以太网和IP协议形成了一个具有完整标准系统的大型生态系统。从网络设备到操作系统,应用程序和管理工具,都是基于这些协议设计的。试图取代这些方案的新技术面临着生态迁移的巨大成本。云平台和虚拟化技术是基于交换体系结构的“组织框架”。诸如虚拟网络,软件定义网络(SDN)和网络功能(NFV)等技术均基于传统的切换体系结构。这些技术被深入整合到现代的IT基础架构中,在短期内很难取代。这好像整个工业系统都在适应Distlogistics Sravation +的中心模型分支。从工厂设计到生产过程,管理系统和员工培训,所有这些SONSTA模型都在中心设计。即使采用更高级的物流方法,完全替换现有模型也需要很长的过渡期。此外,诸如网络安全性,合规性和互操作性等考虑因素使公司和云服务提供商很难快速采用创新的网络体系结构。在关键的商业系统中,稳定性和可靠性通常比性能更重要。这也是传统网络体系结构在商业环境中继续存在的重要原因。总而言之,在某些情况下,没有开关的网络显示出很大的潜力,但是物理局限性,生态系统的功能和惯性要求使得很难替换传统的短期交换体系结构。也许这两个体系结构很长一段时间共存,每个架构都扮演在正确阶段的角色,彼此学习并融入技术的发展。该开关不会“消失”,但其作用已重塑。对AI网络中进化趋势的详尽分析可以得出相对平衡的结论。开关永远不会“消失”,但是它们的角色已经进行了重组。从传统意义上讲,作为网络中的中央节点,该开关采用了中心功能,例如数据传输,路由和流量控制决策。此外,具有AI的新网络体系结构已重新分配并重新定义了这些特征。某些功能沉入计算机芯片或DPU中,某些功能集成到新的互连技术中,并且某些功能已更新为软件定义的控制平面。可以将此更改总结为从“中央控制”到“边缘调整”的过渡。在传统网络中,开关是确定地址和数据流程的控制中心。在新类型的网络,控制逻辑的分布更多在网络的边缘,每个节点通过联合合作完成网络功能。同时,交换机的作用也将“数据塔”更改为“控制中心”。在传统网络中,开关主要是转发数据包,并将负责处理。在新网络中,该交换机更负责网络策略,资源编程和安全控制功能(例如完整保证)的执行。另一方面,数据传输通过直接互连或专用通道更完整。因此,尽管“没有开关”的狂热狂暴可能不是“交换”,但“交换机无处不在”。切换功能不再集中在特定的物理设备上,而是分布在网络的不同部分中,并集成到计算机和存储系统中以形成更加集成,更智能的基础架构。
Tel
Mail
Map
Share
Contact