Nvidia收购SchedMD,深化人工智能基础设施布局

通过收购Slurm开发商SchedMD,Nvidia正强化其在AI工作负载调度方面的影响力,特别是在GPU和数据中心网络中如何调度AI任务。
2025-12-18 16:50:37  |   作者:开源爱好者  |   来源:

Nvidia收购SchedMD,深化人工智能基础设施布局

通过收购Slurm开发商SchedMD,Nvidia正强化其在AI工作负载调度方面的影响力,特别是在GPU和数据中心网络中如何调度AI任务。
2025-12-18 16:50:37
作者:开源爱好者
来源:

通过收购Slurm开发商SchedMD,Nvidia正强化其在AI工作负载调度方面的影响力,特别是在GPU和数据中心网络中如何调度AI任务。Slurm是一款广泛应用于高性能计算和AI集群的开源工作负载管理器。

nvidia.jpg

Slurm在调度大量资源密集型任务时扮演着核心角色,特别是在数千台服务器和GPU之间进行资源调度,深刻影响着现代数据中心中AI工作负载的分配方式。

Nvidia在博客中表示:“Nvidia将继续将Slurm作为开源、供应商中立的软件进行开发和分发,确保它在广泛的高性能计算(HPC)和AI社区中得到支持,并且能够在多样化的硬件和软件环境中广泛使用。”

此次收购凸显了Nvidia在加强开放软件生态系统的同时,确保Slurm保持供应商中立性并广泛服务于处理日益复杂的AI工作负载的用户。

为什么Slurm重要?

随着AI集群规模的扩展和复杂度的增加,工作负载调度越来越与网络性能挂钩,这直接影响到东西向流量、GPU利用率以及高速度网络的运行效率。

Omdia的首席分析师Lian Jye Su表示:“Slurm在协调多节点分布式训练方面表现出色,特别是当任务跨越数百或数千个GPU时。Slurm可以通过根据资源可用性决定任务放置位置,从而优化服务器内部的数据流动。通过深入了解网络拓扑,Slurm可以将流量引导到高速链接区域,减少网络拥堵,从而提高GPU利用率。”

Forrester的首席分析师Charlie Dai表示,Slurm的调度逻辑在决定AI集群中流量如何流动中起着重要作用。

“Slurm协调GPU分配和任务调度,直接影响AI集群中的东西向流量模式,”Dai说。“高效的调度可以减少空闲GPU,最小化节点间数据传输,同时提升GPU之间通信的吞吐量,这对于大规模AI工作负载至关重要。”

虽然Slurm本身并不直接管理网络流量,但其任务放置决策对网络行为有显著影响。TechInsights分析师Manish Rawat表示:“如果GPU放置时没有考虑网络拓扑,跨机架和跨交换机的流量会急剧上升,从而增加延迟和拥堵。”

综合这些分析观点,可以看出,Slurm与Nvidia的GPU和网络栈更紧密的结合,有可能使Nvidia在AI基础设施的端到端编排中拥有更大的影响力。

对企业的影响与权衡

对于企业而言,Nvidia的收购进一步巩固了其在AI栈中的网络能力,涉及GPU拓扑感知、NVLink互连以及高速网络的各个方面。

Rawat表示:“此次收购意味着GPU调度与网络行为的协同设计,而非立即的锁定。将Slurm的任务级别意图与GPU和互连遥测结合,可以实现更智能的任务放置决策。”

然而,Lian Jye Su指出,尽管Slurm将继续保持开源和供应商中立,Nvidia的投资可能会将开发方向引导向更紧密的NCCL集成、更动态的网络资源分配以及对Nvidia网络架构的更高认知,包括对InfiniBand和RoCE环境的优化调度。

这意味着,运行多供应商AI集群的企业可能会倾向于迁移到Nvidia的生态系统,以追求更好的网络性能。对于那些希望避免更深度绑定的组织,可能会评估其他替代框架,如Ray等。

客户应期待什么?

对于现有的Slurm用户,分析师预计迁移将大致顺利,现有部署的中断较少,尤其是因为Slurm预计会继续保持开源和供应商中立。

Su补充道:“社区的持续贡献预计将有助于减少偏见。已经使用Nvidia服务器的企业和云提供商,预计会更快推出优化Nvidia硬件的功能,并实现更高的整体性能。”

尽管如此,Dai提醒说,与Nvidia的AI栈更深度的集成可能会带来运营上的变化,企业需要做好相应的规划。

Dai表示:“企业和云提供商应预期增强的GPU感知调度功能,以及与Nvidia工具的更深度遥测集成。这可能需要更新监控工作流和网络优化策略,尤其是在以太网网络环境下。”

展望

Nvidia通过收购Slurm开发商SchedMD,进一步增强了自己在AI基础设施领域的影响力,特别是在调度大规模AI任务和GPU的资源分配上。此次收购标志着Nvidia进一步加大了对AI软件栈的投资,同时也加强了其在网络和硬件层面的整体布局。对于企业而言,Slurm的收购意味着可能需要更高效的调度和网络优化,同时也可能推动企业向Nvidia生态系统迁移。