AI 芯片功耗将达15千瓦,数据中心供电和制冷都面临严峻挑战
AI 芯片功耗将达15千瓦,数据中心供电和制冷都面临严峻挑战
作者:开源爱好者
来源:
下一代 AI 芯片不仅会更快——它们还将消耗前所未有的电力,并迫使数据中心基础设施发生根本性变革。 韩国科学技术院(KAIST)的 TeraByte 互连与封装实验室(TeraLab)发布的一份新报告显示,到 2035 年,GPU-HBM(高带宽内存)模块的功耗可能高达每单元 15,360 瓦(15.36 kW),将现有的电力和冷却技术推向极限。 该报告概述了高带宽内存从 2026 年的 HBM4 到 2038 年的 HBM8 的扩展路线图。每一步都承诺更高的性能,但也伴随着呈指数级增长的能量需求和热输出。 报告称:“仅 GPU 功率预计将从 2026 年的 800W 攀升至 2035 年的 1200W。当搭配多达 32 个 HBM 堆栈(每个功耗 180W)时,一个模块的总功耗可达 15360W。” 为何 AI 加速正在重写电力预算 AI 工作负载,特别是大语言模型(LLM)和基础模型,需要巨大的内存带宽和处理能力。该路线图预测,HBM8 将使用 16384 个 I/O 接口提供高达每秒 64 TB 的内存带宽。每个堆栈可容纳高达 240GB 的内存。 报告称:“每个 HBM8 堆栈可容纳高达 240GB 的内存并消耗 180W。集成到单个 AI 处理器中的多个堆栈会使计算吞吐量和热量输出成倍增加。” 这种扩展带来了重大影响。当今服务器级 GPU 的功耗通常在 300W 至 600W 范围内。迈向 1200W GPU 并捆绑密集内存层,将重新定义机架级电力设计,并引发远超芯片本身的架构变革。 “能耗是 AI 发展进步的最大瓶颈,”Counterpoint Research 研究副总裁 Neil Shah 表示。“随着我们从生成式 AI 迈向代理式 AI(Agentic AI)再到物理 AI(Physics AI),计算需求正呈指数级增长。” 冷却挑战 随着芯片功耗的增长,热管理成为一个关键的工程问题。报告明确指出:传统的风冷已不再可行。 报告解释道:“只有模塑料部分可以定制以减少热耦合效应。”密集堆叠内存模块产生的热量加剧了下一代 GPU 本已很高的热输出。 为了解决这个问题,TeraLab 提出了几项先进的冷却创新。这些包括直接芯片液体冷却、浸没式冷却系统,以及直接集成到封装中的热传输线。流体硅通孔(F-TSVs)将在从堆叠芯片内部散热方面发挥关键作用。 报告还提到了铜-铜无凸点键合(Cu-Cu bump-less bonding)、嵌入基础芯片的热传感器,以及允许芯片实时响应热状况的智能控制机制。 从根本上重新思考芯片架构 不断上升的功率密度不仅迫使采用新的冷却策略,也影响着芯片本身的设计方式。该路线图引入了以 HBM 为中心的计算概念,即处理器、控制器和加速器共同封装在 HBM 基板内。 报告指出:“通过内存和处理器公司之间的设计定制,预计 HBM7 将直接集成在 GPU 上方。” 这种方法利用垂直堆叠芯片和双面中介层实现完全 3D 集成。它提高了性能,但将热量产生集中在了更小的空间内,使热设计进一步复杂化。 更广阔的图景:基础设施、电网与地域 其影响远不止于芯片封装。一个 15KW 的模块将显著改变机架级配电、冷却回路规划以及整个设施的热分区。美国能源部估计,冷却已占数据中心能源消耗的近 40%。这些下一代 AI 芯片将推动这一数字进一步上升。 “KAIST 路线图中概述的电力需求不仅预示着热力或架构上的挑战,更预示着计算时间表与电力设施准备度之间即将到来的协调危机,”Greyhound Research 首席执行官 Sanchit Vir Gogia 表示。“在大多数地区,现有的电网基础设施根本无法支持如此高的电力密度。” 他补充说,虽然超大规模企业在提前十年预留吉瓦级电力配额,但区域公用事业公司却在努力升级输电线路,通常需要 7 到 15 年才能完成。“电力供应速度(speed-to-power)现在正超越上市速度(speed-to-market),成为数字竞争力的决定性指标。” “都柏林在 2023 年暂停了新数据中心的建设,法兰克福在 2030 年之前没有新增容量预期,而新加坡仅有 7.2 兆瓦可用,”Everest Group 研究总监 Kasthuri Jagadeesan 表示,突显了严峻的形势。 电力:AI 投资回报率(RoI)的新瓶颈 随着 AI 模块将基础设施推向极限,电力正成为投资回报率的关键驱动因素。“电力已从运营开销中的一个项目,转变为 AI 项目可行性的决定性因素,”Gogia 指出。“在现代 AI 基础设施(无论是云上还是本地部署)中,电力成本现在占总运营支出(Opex)的 40% 至 60%。” 企业现在被迫重新思考部署策略——在控制力、合规性和特定地点的电价之间取得平衡。超大规模云企业可能因其更优的电源使用效率(PUE)、可再生能源接入和能源采购模式而获得进一步优势。 “一个持续运行的 15000 瓦模块,仅电力成本每年就高达 2万美元,这还不包括冷却费用,”TechInsights 分析师 Manish Rawat 表示。“这种成本结构迫使企业前所未有地评估地点、使用模式和平台效率。” 硅片军备竞赛撞上电力天花板 AI 芯片创新正在达到新的里程碑,但其性能的成本不再仅仅以美元或 FLOPS(每秒浮点运算次数)来衡量——而是以千瓦(kW)计。KAIST TeraLab 的路线图表明,电力和热量正成为计算系统设计的主导因素。 正如几位专家警告的那样,AI 的地域分布正在发生变化。电力资源丰富的地区,如北欧、美国中西部和海湾国家,正成为数据中心投资的磁石。电网容量有限的地区则面临日益增长成为“AI 沙漠”的风险。 “电力将成为 AI 规模扩展的一级约束。大规模的成功不仅取决于计算能力,还取决于其供电的地点和效率,”Everest Group 高级分析师 Kalyani Devrukhkar 表示。 对于构建 AI 基础设施的企业而言,信息很明确:面向未来意味着要具备电力意识。规划 AI 性能现在必须与电力预算、能源采购、排放可视化和电网邻近性齐头并进。在 AI 时代,能源是约束的前沿,那些忽视它的人可能被迫限制他们的雄心壮志。 |