英特尔 原Omni-Path 团队为AI 网络提供 IB和以太网的替代方案

Cornelis Networks 的 CN5000 平台旨在解决 AI 和 HPC 工作负载中的计算资源利用率低问题并缓解瓶颈。
2025-06-10 17:07:28  |   作者:开源爱好者  |   来源:

英特尔 原Omni-Path 团队为AI 网络提供 IB和以太网的替代方案

Cornelis Networks 的 CN5000 平台旨在解决 AI 和 HPC 工作负载中的计算资源利用率低问题并缓解瓶颈。
2025-06-10 17:07:28
作者:开源爱好者
来源:

高性能网络市场长期以来一直由两种主要架构主导:50 多年前最初为通用网络设计的 以太网,以及 25 年前为 HPC 环境开发的 InfiniBand。当应用于当今的 AI 和 HPC 工作负载时,两者都面临着根本性的限制,在这些场景中,大规模并行处理的需求常常因网络瓶颈而导致昂贵的计算资源利用率低下。

这是英特尔十多年前就认识到并试图通过其 Omni-Path 架构解决的挑战。2020 年,英特尔内部负责 Omni-Path 的核心团队分拆成立了 Cornelis Networks,作为一家新供应商,负责推进 Omni-Path 技术。自从英特尔分拆出来后,Cornelis 通过继续销售和支持英特尔遗留的 100Gbps Omni-Path 产品,保持了业务连续性。

如今,Cornelis 推出了自离开英特尔以来的首个重要平台——其 CN5000 平台首次亮相,提供了一个旨在与以太网和 InfiniBand 竞争的 400Gbps 网络平台。

图片2.jpg

“如果你看看当前的 AI 集群或 HPC 集群,你会发现计算利用率在某些情况下低于 30%,并且……在最好的架构和最佳情况下,在大量帮助和定制的网络工程支持下,利用率也只能达到 50%,” Cornelis Networks 的 CEO Lisa Spelman 说。“我们认为自己肩负着使命,要更好地利用世界上所有的计算资源。”

Omni-Path 架构:超越以太网和 InfiniBand

CN5000 代表了一种高性能网络的第三种架构方法,与以太网和 InfiniBand 的实现方式都不同。Cornelis 没有试图改造现有协议以适应 AI 和 HPC 工作负载,而是以这些特定用例为核心扩展了英特尔的 Omni-Path。

“如果你考虑团队可以在英特尔内部或作为独立公司做出的选择,要么是将以太网改造成它本不适用的东西,要么是从头开始构建新东西,” Spelman 解释道。“我们所做的是通过为工作负载设计来获得正确的架构。”

该架构融合了专为横向扩展并行计算环境设计的几个关键技术差异化优势。基于信用的流控制 (credit-based flow control) 确保无损数据传输,而动态细粒度自适应路由 (dynamic fine-grained adaptive routing) 则实时优化路径选择。增强的拥塞控制机制 (Enhanced congestion control mechanisms) 旨在重负载下保持一致的性能,这对于可能涉及数千个端点的 AI 训练工作负载来说是一个关键要求。

性能指标与基准测试

Cornelis 将 CN5000 的优势定位在解决 AI 和 HPC 工作负载中已知瓶颈的特定技术指标上。该公司声称,与其他 400Gbps 解决方案相比,其消息速率 (message rates) 提高 2 倍,延迟 (latency) 降低 35%。

Spelman 解释说,Cornelis 架构的不同之处在于,在相同带宽下,你可以实现双倍的消息速率。“对我来说,这正是架构针对工作负载的正确性得以体现的方式。”

特别对于 AI 工作负载,该公司强调其集合通信 (collective communication) 性能比基于融合以太网的远程直接内存访问 ( RoCE) 实现快 6 倍。像 all-reduce 这样的集合操作代表了分布式训练中的关键瓶颈,其中数千个节点必须高效同步梯度更新。

该架构的拥塞管理在 AI 训练场景中变得尤为重要,在这些场景中,同步的通信模式可能会压垮传统的网络方法。Omni-Path 的基于信用的流控制和自适应路由旨在即使在这些苛刻条件下也能保持一致的性能。

“在安装完全相同的计算硬件,仅仅将网络从其他 400G 方案更换为 CN5000 的情况下,你会看到应用程序性能提升 30%,” Spelman 说。“通常,要将应用程序性能提升 30%,你需要新一代的 CPU。”

当前实现与未来互操作性策略

CN5000 目前将 Omni-Path 作为一个完整的端到端解决方案实现,需要同时使用 Cornelis SuperNIC 和交换机才能获得全部性能优势。然而,这仅代表了更广泛战略的第一阶段,该战略旨在桥接专有性能与行业标准的互操作性。

“CN5000 是一个端到端网络,SuperNIC 和交换机(或 director 级交换机)协同工作,” Spelman 解释道。“它不会以分离的方式使用。”

CN5000 平台支持扩展到多达 50万个端点的部署,使其适用于国家实验室和企业 AI 计划典型的大规模安装。硬件产品组合包括单端口和双端口 SuperNIC(提供风冷和液冷选项)、用于较小部署的 48 端口交换机,以及为大型安装中的叶脊拓扑设计的 576 端口 director 级 (director-class) 系统。

软件堆栈展示了 Cornelis 如何平衡专有优化与开放标准。在物理层,Omni-Path 实现了其基于信用的流控制和自适应路由。其上则是 OpenFabrics Alliance 软件层,这是一个由 Cornelis 帮助创建并持续支持的开源抽象层。

“我们利用该开源软件层,使得任何曾经使用过 InfiniBand 或以太网的客户都能非常容易地开始部署并在 Omni-Path 架构上推进,” Spelman 说。

这个开源中间件处理应用程序与底层 Omni-Path 协议之间的转换,允许现有的 HPC 和 AI 软件无需修改即可运行。OpenFabrics 层已被 UEC(超以太网联盟) 采用为基础组件,这证明了其在 Cornelis 部署之外的行业接受度。

展望未来,下一代产品将扩展这种互操作性方法。

“当我们在 SuperNIC 中加入以太网支持时,你将可以选择使用 Cornelis 交换机,或者你将能够使用另一个以太网交换机,” Spelman 指出。

在后续步骤方面,CN6000 (800Gbps) 将包含双模功能,既支持原生 Omni-Path 以实现最大性能,也支持以太网协议以实现更广泛的生态系统兼容性。之后,CN7000 (1.6Tbps) 将进一步集成UEC标准,同时保持 Omni-Path 的架构优势。

Spelman 指出,Cornelis Networks 的首批客户部署位于德克萨斯高级计算中心和美国能源部。

“我们期待在全球范围内的汽车、能源勘探、石油和天然气、健康与生命科学等行业进行扩展,并支持任何正在推进其初始和不断增长的 AI 工作的企业,”她说。