Intel和AMD这次真没扯皮。双方罕见地达成共识,共同发布了完整的ACE CPU扩展规范。说实话,这套面向AI运算的全新指令集正式落地x86架构,直接瞄准了本地AI推理的痛点。

现在大家跑AI推理,基本都盯着GPU看。但轻量化模型、低延迟任务,或者那些根本没有独显的设备,其实更适合直接在CPU上跑。问题在于,传统的AVX10向量指令并不是为矩阵运算量身定做的。执行AI核心的矩阵乘法时,功耗高、效率偏低,体验并不好。
ACE指令集的核心突破
ACE基于现有AVX10寄存器拓展,新增专用硬件单元处理矩阵计算。这意味着厂商无需重新设计底层架构,适配成本大幅降低。
官方数据很能打:同等输入向量规模下,ACE的计算密度是AVX10的16倍。单条指令能完成更多计算,直接减少指令调度开销。内存带宽利用率同步提升,功耗控制也更出色。不过别高兴太早,16倍计算密度不代表直接16倍提速……最终性能还得看两家处理器后续的硬件设计落地情况。这真的有用吗?得看实际表现。
开发者福音:一套代码通吃
这个指令集最大的亮点是跨厂商通用。开发者只需编写一套代码,就能适配Intel和AMD全系支持ACE的CPU。不用针对不同AVX版本做多套适配,省事不少。是不是很方便?
PyTorch、TensorFlow等主流AI框架均可无缝兼容。数据格式覆盖INT8、FP8、BF16等AI常用类型,还原生支持OCP MX块缩放格式。这直接填补了AVX10在功能上的空白。你看,这就很贴心。
端侧AI的新机会
对于开发者而言,部分临时NPU算力需求可转移至CPU处理,无需适配各家规格不一的NPU硬件。
未来新一代x86处理器将搭载ACE扩展。笔记本、台式机、服务器无需依赖独显,就能流畅运行各类本地AI任务。这进一步拓宽了端侧AI的落地场景,让“不用独显也能跑AI”不再是一句空话。话说回来,这才是我们想要的。
FAQ
ACE指令集相比AVX10有什么优势?
ACE在同等规模下计算密度是AVX10的16倍,功耗更低,且原生支持多种AI数据格式,无需重新设计底层架构。
哪些AI框架支持ACE指令集?
PyTorch和TensorFlow等主流AI框架均可无缝兼容ACE,开发者无需针对Intel和AMD分别适配。
ACE指令集对普通用户意味着什么?
意味着未来无需独立显卡,仅依靠搭载ACE扩展的x86 CPU,也能在笔记本或台式机上流畅运行本地AI任务。
