Intel AMD ACE指令集发布：CPU本地跑AI成新趋势

Intel AMD罕见共识：ACE指令集让CPU也能高效跑AI

领域圈

Intel与AMD罕见达成共识，共同发布ACE CPU扩展规范。该指令集基于AVX10拓展，计算密度提升16倍，让无独显设备也能高效运行本地AI任务，降低开发者适配成本。

Intel和AMD这次真没扯皮。双方罕见地达成共识，共同发布了完整的ACE CPU扩展规范。说实话，这套面向AI运算的全新指令集正式落地x86架构，直接瞄准了本地AI推理的痛点。

现在大家跑AI推理，基本都盯着GPU看。但轻量化模型、低延迟任务，或者那些根本没有独显的设备，其实更适合直接在CPU上跑。问题在于，传统的AVX10向量指令并不是为矩阵运算量身定做的。执行AI核心的矩阵乘法时，功耗高、效率偏低，体验并不好。

ACE指令集的核心突破

ACE基于现有AVX10寄存器拓展，新增专用硬件单元处理矩阵计算。这意味着厂商无需重新设计底层架构，适配成本大幅降低。

官方数据很能打：同等输入向量规模下，ACE的计算密度是AVX10的16倍。单条指令能完成更多计算，直接减少指令调度开销。内存带宽利用率同步提升，功耗控制也更出色。不过别高兴太早，16倍计算密度不代表直接16倍提速……最终性能还得看两家处理器后续的硬件设计落地情况。这真的有用吗？得看实际表现。

这个指令集最大的亮点是跨厂商通用。开发者只需编写一套代码，就能适配Intel和AMD全系支持ACE的CPU。不用针对不同AVX版本做多套适配，省事不少。是不是很方便？

PyTorch、TensorFlow等主流AI框架均可无缝兼容。数据格式覆盖INT8、FP8、BF16等AI常用类型，还原生支持OCP MX块缩放格式。这直接填补了AVX10在功能上的空白。你看，这就很贴心。

对于开发者而言，部分临时NPU算力需求可转移至CPU处理，无需适配各家规格不一的NPU硬件。

未来新一代x86处理器将搭载ACE扩展。笔记本、台式机、服务器无需依赖独显，就能流畅运行各类本地AI任务。这进一步拓宽了端侧AI的落地场景，让“不用独显也能跑AI”不再是一句空话。话说回来，这才是我们想要的。

ACE在同等规模下计算密度是AVX10的16倍，功耗更低，且原生支持多种AI数据格式，无需重新设计底层架构。

PyTorch和TensorFlow等主流AI框架均可无缝兼容ACE，开发者无需针对Intel和AMD分别适配。

意味着未来无需独立显卡，仅依靠搭载ACE扩展的x86 CPU，也能在笔记本或台式机上流畅运行本地AI任务。

声明：领域圈所有文章，如无特殊说明或标注，均来自于互联网或为领域圈用户原创发布。任何个人或组织，在未征得原作者同意时，禁止复制、盗用、采集、发布领域圈内容到任何网站、书籍等各类媒体平台。如若领域圈内容侵犯了原著者的合法权益，可联系我们进行处理。