为了支持HPC和AI应用,博通Tomahawk Ultra优先考虑低延迟

传统的以太网交换机通常优化的是最大吞吐量,但博通新推出的Tomahawk Ultra数据中心网络芯片则优先考虑超低延迟。
2025-07-17 17:15:09  |   作者:开源爱好者  |   来源:

为了支持HPC和AI应用,博通Tomahawk Ultra优先考虑低延迟

传统的以太网交换机通常优化的是最大吞吐量,但博通新推出的Tomahawk Ultra数据中心网络芯片则优先考虑超低延迟。
2025-07-17 17:15:09
作者:开源爱好者
来源:

传统的以太网交换机通常优化的是最大吞吐量,但博通新推出的Tomahawk Ultra数据中心网络芯片则优先考虑超低延迟。

以太网因其易用性和提供合适性能的能力,主导了企业和规模扩展的工作负载。然而,在规模扩展网络方面,以太网依然面临着Infiniband的竞争。

图片3.jpg

博通的目标是通过推出一款名为Tomahawk Ultra的新数据中心网络芯片,提升以太网在规模扩展领域的能力。该芯片继2025年6月发布的Tomahawk 6之后面世。Tomahawk Ultra是Tomahawk系列的一个子集,专门针对高性能计算(HPC)和AI规模扩展应用进行优化。它与Tomahawk 5和6有许多相似之处,同时还提供了一些独特功能,如超低延迟、支持最小尺寸数据包和网络效率。

虽然Tomahawk 6聚焦于吞吐量,支持最高102.4 Tbps的带宽,但Tomahawk Ultra并非如此。Tomahawk Ultra的最大带宽为51.2 Tbps,然而其最大的优势在于超低延迟,交换机延迟仅为250纳秒,数据包性能可达到每秒77亿个数据包。

博通的Tomahawk交换机系列产品经理Pete Del Vecchio在接受Network World采访时表示:“我们的目标是通过标准以太网实现超越Infiniband的性能,具备所有对HPC至关重要的特性和指标。”

优化最小数据包延迟的架构

Tomahawk Ultra代表了传统以太网交换机设计理念的根本改变。传统的交换机优化的重点是整体吞吐量和缓冲能力,而Ultra则把延迟放在首位,在实现低于250纳秒的交换延迟的同时,仍然能够在最小64字节的数据包下维持完整的51.2 Tbps吞吐量。

最小数据包大小是HPC中的一个特别重要的领域,过去以太网交换机并未充分解决这一问题。Del Vecchio解释称,HPC应用使用不同的API模型,包括MPI(消息传递接口)和SHEM(对称层次存储),这些模型通常使用大量非常小的数据包。

对最小数据包大小的支持,使得这些数据包可以在满带宽下进行流式传输。这一能力对于科学计算和计算工作负载中的高效通信至关重要。对于规模扩展网络,尤其是GPU到交换机再到GPU的通信在单跳内完成时,这一功能尤为重要。

无损以太网获得‘Ultra’增强

Tomahawk Ultra的另一个优化领域是无损以太网。博通集成了两项首次在Ultra以太网联盟(UEC)1.0规范中定义的技术支持。

无损以太网支持通过以下两种方式启用:

  链路层重试(LLR):通过这种方式,芯片使用前向错误修正(FEC)自动检测传输错误,并请求重新传输。Del Vecchio解释称,当错误超出FEC的修正能力时,LLR在链路层会请求重新传输数据包,并进行重新发送。

  基于信用的流量控制(CBFC):CBFC可防止由于缓冲区溢出而导致的数据包丢失。如果接收端没有足够的空间接收数据包,交换机将向发送端发送暂停信号。Del Vecchio表示,待接收端有空间时,交换机会发出通知,允许发送一定数量的数据包。

网络内部集合(INC)减少网络操作

Tomahawk Ultra还通过一种被称为网络内部集合(INC)的方法,加速了整体的HPC和AI操作。

网络内部集合是多个计算单元(如GPU)需要共享并结合其计算结果的操作。例如,在“全加”操作中,计算不同问题部分的GPU需要通过网络平均其结果。使用Tomahawk Ultra后,GPU无需来回发送数据并分别进行计算,交换机本身的硬件可以减少操作次数。INC功能可以接收来自所有GPU的数据,直接在网络中执行计算操作(如平均),然后将最终结果传播回所有GPU。

这一方法的好处在于,“您已将一些计算卸载到网络上,”Del Vecchio解释道,“更重要的是,您大大减少了网络中数据传输所占用的带宽。”

Scale-Up Ethernet(SUE)规范与NV-Link竞争

更进一步,Tomahawk Ultra还将支持博通的Scale-Up Ethernet(SUE)规范,以优化整个应用到应用的路径。博通已在5月将完整的SUE规范贡献给开放计算项目(OCP),以使其成为一个开放的努力。

Scale-Up Ethernet是博通为帮助xPU(GPU/加速器)制造商优化其网络接口以实现高性能、低延迟通信而开发的框架。它为处理单元之间的高效以太网网络提供了指导。

Del Vecchio指出,SUE支持优化后的10字节头部,而不是标准的46字节头部,从而实现最小开销的数据传输。其目标是让以太网成为英伟达的NVLink等专有互联技术的可行、开放替代方案,提供更好的性能和更广泛的生态系统支持。

SUE努力成为UALink的替代方案。

“我们不知道UALink会有什么结果。目前市场上没有交换机,可能几年内也不会有生产,”Del Vecchio表示,“因此,今天的主要选择是使用以太网还是使用NVLink。”