AMD与Intel的ACE合作大幅提升AI性能,成为x86芯片的“标准矩阵加速架构”
AMD与Intel的ACE合作大幅提升AI性能,成为x86芯片的“标准矩阵加速架构”
作者:开源爱好者
来源:
|
ACE(AI Compute Extensions,人工智能计算扩展)旨在通过提供更快的矩阵乘法性能来推动AI发展,同时Intel与AMD正共同为x86架构制定统一发展路线。
ACE是Intel与AMD统一x86战略的一部分,推动AI时代生态系统发展 去年,Intel和AMD通过“x86生态系统顾问小组(x86 Ecosystem Advisory Group,EAG)”展开合作,以强化x86生态系统。 该计划的目标是: ● 在不同架构间提供标准化功能集 ● 提高x86的可访问性(accessibility) ● 增强可扩展性(scalability) ● 满足未来技术需求的兼容性 当时公布了4项关键功能: ● FRED ● AVX10 ● ChkTag ● ACE 如今,AMD与Intel正式发布了ACE白皮书(Whitepaper),详细介绍这一x86芯片新功能的能力。 AMD和Intel在EAG(生态顾问小组)的参与和建议下,共同调整并完善ACE指令集架构(ISA)。 这一合作带来了多个积极成果: ● 最终架构融合了两家公司共同提出的设计思路 ● 结合了EAG社区广泛市场反馈 ● 为未来AI及其他工作负载建立统一路线图 两家公司表示,将继续在ACE和AVX10未来路线图上展开合作,以把握AI和其他计算领域的新机会。 由于x86具有广泛应用和高性能优势,一直是开发者的重要平台,而ACE加入后将进一步增强x86生态系统未来竞争力。 ACE为x86带来AI计算能力提升 白皮书中介绍: ACE(AI Compute Extensions)为x86 ISA(指令集架构)提供: ● 大幅提升矩阵乘法性能 ● 更强扩展能力 ● 更高能源效率 ACE还能与AVX10无缝整合,为x86生态提供低门槛、普适化的矩阵加速能力。 AI计算中,矩阵乘法(Matrix Multiplication)是神经网络和大语言模型(LLMs)的核心计算模块。 目前的SIMD(Single Instruction, Multiple Data,单指令多数据)扩展,例如AVX10,也能执行矩阵乘法,但存在问题: ● 可扩展性有限 ● 计算密度不足 虽然一些加速矩阵乘法技术(Accelerated Matrix Multiplication)能提高性能,但效率并不理想。 ACE如何解决问题 EAG希望通过ACE解决上述限制。 ACE提供: ● 加速矩阵乘法 ● 更高灵活性 ● 更强扩展性 同时还能: ● 复用现有AVX10优化成果 ● 构建可扩展矩阵加速框架 这一框架适用于: ● 笔记本电脑 ● 工作站 ● 服务器 ● 超级计算机 这种跨平台能力和扩展性,使开发者无需频繁将AI计算卸载到专用硬件(如GPU/AI加速器),从而降低开发复杂度。 根据白皮书,AMD和Intel将ACE称为:“x86标准矩阵加速架构(Standard Matrix Acceleration Architecture for x86)” ACE支持多种AI数据格式 ACE原生支持常见AI矩阵乘法数据格式,包括: ● INT8 ● OCP FP8 ● OCP MXFP8 ● OCP MXINT8 ● BF16 ACE还引入基于**外积(outer product)**操作的矩阵加速方式,并专门为AVX10设计。 其性能优势非常明显:ACE外积操作相比同等AVX10乘加运算(multiply-accumulate),计算密度提升16倍(16x),同时输入向量数量保持不变。也就是说同样输入,计算效率高16倍。 软件生态支持已经展开 由于ACE是AVX10指令集扩展的一部分,目前软件支持工作已在推进。已开始集成的领域包括: ● 深度学习与高性能计算库(HPC),例如:低精度GEMM矩阵运算,LLM基础计算模块(primitives) ● Python科学计算库,包括:NumPy,SciPy ● 机器学习框架,包括:PyTorch,TensorFlow ACE只是x86未来发展的第一步,英伟达CEO曾表示:Intel与AMD之间的x86联盟是保持x86架构持续生命力所必需的。这意味着在ARM架构和AI专用芯片快速崛起的背景下,x86需要统一标准、提升AI能力,才能继续保持竞争力。目前来看,x86的发展方向似乎已经掌握在可靠的合作联盟手中。 |

商情
