首页科技快讯我们还需要GPU吗？

我们还需要GPU吗？

来源：晰数塔互联网快讯时间：2026年07月01日 17:29

来源：半导体行业观察

是的，在如今英伟达主导人工智能训练，并在一定程度上主导高性能计算模拟和建模的时代，这个问题听起来像是离经叛道。但考虑到CPU在很多情况下越来越像GPU，拥有混合向量和矩阵运算引擎、混合精度支持、某些情况下采用HBM堆叠式高带宽内存以及容量更大的DRAM主内存和集成互连，这个问题也合乎逻辑。

因此，当田纳西大学和橡树岭国家实验室的杰克·唐加拉（Jack Dongarra，曾任职 36 年）、苏黎世 ETC 的托斯滕·霍夫勒（Torsten Hoefler，CSCS 的人工智能/机器学习首席架构师）以及理研实验室和东京工业大学的松冈聪（Satoshi Matsuoka）以反问的方式提出并回答这个问题时，人们都会认真倾听。

这个问题将在即将发表于arXiv以及美国计算机协会（ACM）旗舰刊物上的一篇论文中得到解答。这个问题的起因是名为“LineShine”的新型全CPU超级计算机的出现，根据本月发布的最新Top500排名，它是目前世界上速度最快的AI/HPC超级计算机。

接下来，我们翻译一下这篇文章，供大家分享，以下是文章正文：

我们探讨随着中央处理器 (CPU) 的发展，图形处理器 (GPU) 是否仍将是人工智能 (AI) 和高性能计算 (HPC) 不可或缺的一部分。尽管 GPU 凭借其巨大的并行吞吐量和高内存带宽占据了主导地位，但现代 CPU 架构正越来越多地集成专用硬件特性，例如 ARM 的 SVE/SME 和 Intel 的 AVX/AMX，并结合封装内高带宽内存 (HBM) 和原生混合精度支持（从 FP64 到 FP4）。

我们认为，将矩阵引擎直接集成到 CPU 流水线中，可以解决 GPU 成为必需品的根本原因，从而降低与跨独立加速器接口传输数据相关的延迟、能耗和编程复杂性。这种以 CPU 为中心的方法对于融合了 AI 式张量吞吐量和不规则、分支密集型科学逻辑的融合工作流程来说非常有利。

最终，我们得出结论：尽管GPU对于前沿规模的AI训练仍然至关重要，但经过改进的加速CPU为下一代科学计算提供了一个更简单、更均衡且高度可编程的基础。为了量化这一结论，我们总结了一项相关的实证研究（该研究正在准备发表于arXiv），该研究在两款实际的Arm CPU上运行了针对万亿参数模型的长上下文推理，以验证上述论点：一款是拥有宽向量和HBM但没有矩阵引擎的Fugaku A64FX，另一款是新近上市的LX2，它增加了一个矩阵引擎。对A64FX的测量结果表明，其带宽已达到部署硬件的一半要求；而将同一模型应用于LX2的公开规格则表明，其矩阵引擎也已达到一半要求——我们明确指出这种不对称性，因为A64FX的结果是实测的，而LX2的结果是根据其规格预测的，尚待直接验证。互连、FP8支持以及与内存生成相关的能耗溢价这三个问题虽然影响了结论，但并未推翻该结论。

架构论证

十多年来，图形处理器 (GPU) 一直是人工智能的主要加速器，也是现代高性能计算 (HPC) 的基石。GPU 最初是为了处理复杂图形渲染所需的大规模像素级并行计算而设计的，其底层架构在近二十年前进行了通用化。这一演变使 GPU 从专用硬件转变为功能强大的可编程加速器，能够执行高度并行的通用工作负载。其成功原因显而易见：GPU 利用优化的数据类型提供海量的浮点运算吞吐量，在密集线性代数、矩阵运算、高内存带宽以及多种数据并行计算方面表现出色。现代人工智能，尤其是深度学习，正是围绕 GPU 的优势而构建的，许多科学应用程序也已重写以充分利用 GPU 的性能。

但GPU的统治地位不应被误解为必然。GPU之所以成为必需品，是因为传统CPU缺乏足够的并行运算能力或内存带宽来应对新兴的人工智能和高性能计算工作负载。如果未来的CPU包含宽向量单元、矩阵乘法引擎、大量高带宽内存、高效的低精度运算以及对正确数据类型的支持，那么情况就发生了变化。在这样的世界里，“CPU”和“加速器”之间的区别将变得不再重要。关键不在于设备是否被称为GPU，而在于它是否提供了合适的计算结构、内存系统、编程模型和数值计算能力。

我们将在下文中阐述这一架构论证，然后——因为此类论证的力度取决于支撑它的硬件——总结一项相关的实证研究。该研究使用了两款真实的Arm CPU，一款没有矩阵引擎，另一款则配备了矩阵引擎，并在要求苛刻的长上下文人工智能推理工作负载上对其进行了测试。

现代CPU配备ARM SVE和SME指令集或英特尔的AVX和AMX指令集，拥有大容量HBM显存，支持FP64、FP32、FP16、块级FP8和FP4运算，以及矩阵乘法引擎，这正开始解决GPU最初成为必需品的原因。这样的处理器可以提供人工智能所需的大部分计算吞吐量，同时保留CPU的通用性、可编程性和系统集成优势。事实上，这种架构会将加速功能引入CPU流水线，从而使其更易于使用。对于科学计算而言，这尤其具有吸引力，因为许多应用需要混合使用稠密线性代数、稀疏运算、非规则通信、归约、控制流和高精度运算。GPU功能强大，但并非总是最适合这种更广泛的工作负载组合。

人工智能和许多科学计算的核心计算内核都会处理矩阵和向量，类似于稠密线性代数运算。在人工智能领域，训练和推理主要依赖于矩阵乘法、卷积和注意力机制。通常情况下，数据维度足够大，这些运算能够很好地映射到高度并行的硬件上。在科学计算中，稠密线性代数在特征值求解器、因式分解、仿真代码、优化、不确定性量化以及日益重要的AI辅助建模中仍然至关重要。如果CPU包含具有高带宽和合适数据类型支持的向量和矩阵引擎，能够为这些运算提供高吞吐量，那么GPU最重要的历史优势之一就会减弱。

内存带宽对于科学计算和生成式人工智能推理至关重要。GPU之所以如此成功，主要原因在于其提供的带宽远超传统的CPU内存系统。许多科学和人工智能工作负载不仅受限于算术吞吐量，还受限于数据向算术单元的传输速率。在CPU中添加大量HBM可以改变这种平衡。HBM提供了向量和矩阵单元所需的带宽，从而缩小了CPU和GPU之间传统的性能差距。集成HBM的CPU可以避免通过单独的加速器接口传输数据造成的瓶颈，并使计算更靠近内存。

ARM的可扩展向量扩展（SVE）提供了一种与向量长度无关的编程模型，允许软件在不同向量宽度的实现上运行。这非常宝贵，因为它避免了将软件硬编码到特定的SIMD宽度。 ARM 的可扩展矩阵扩展（SME）更进一步，增加了对矩阵运算的架构支持，包括非常适合稠密线性代数和 AI 内核的外积式计算。其他架构，例如 Intel 的 AVX 和 AMX，也支持类似的加速。如果这些特性能够以高吞吐量实现，并配合足够的内存带宽，那么 CPU 就不仅仅是一个标量控制处理器，而是一个真正的数值引擎。

这一点至关重要，因为在现代计算中，数据移动往往是真正的成本所在。在 CPU 内存和 GPU 内存之间移动数据会增加延迟、消耗能源、使编程复杂化，并迫使应用程序管理多个内存空间。统一的内存模型和高速互连有所帮助，但它们并不能完全消除这种复杂性。配备 HBM 和集成矩阵运算能力的强大 CPU 可以简化执行模型。数据可以保留在由处理器管理的单一内存抽象层中，处理器同时还负责操作系统、通信、控制流和数值内核。对于许多应用而言，这种简化是一个巨大的优势。

人工智能工作负载也越来越依赖于低精度运算。训练和推理通常使用 FP16、BF16、INT8，在某些情况下甚至使用更低精度的格式。GPU 通过引入针对这些格式优化的张量核心获得了巨大的优势。但低精度矩阵运算本身并非 GPU 特有的。如果 CPU 原生支持 FP4、FP16、FP32、FP64、INT8 以及块缩放的 FP8 和 FP4，并配备矩阵乘法引擎，它就可以直接服务于许多人工智能工作负载。低精度格式对于推理尤为重要，因为量化模型可以提供高吞吐量和更低的能耗。FP16 和 BF16 式的计算对于训练和混合精度算法至关重要。FP64 对于许多科学应用以及在使用低精度时恢复精度仍然必不可少。

这种混合精度能力对于科学计算尤为重要。科学计算的未来并非简单地“处处降低精度”。更正确的策略是，针对计算的每个部分，选择安全的最低精度，同时在稳定性、收敛性和可复现性需要的地方保持较高的精度。原生支持多精度的CPU非常适合这种模型。它可以以较低精度执行批量计算，以较高精度进行累加或校正，并在必要时使用双精度。这与迭代细化、混合精度求解器、AI加速模拟以及将数值建模与学习组件相结合的算法完美契合。

在这样的系统中，我们可能不需要GPU的另一个原因是可编程性。GPU虽然非常高效，但通常需要专门的编程模型、精心设计的内核、内存层次结构管理，以及对内存占用、旧型号GPU的线程发散和数据放置的关注。优秀的编程系统确实存在，但其复杂性不容忽视。科学应用通常是由团队历经数十年开发的大型、长期运行的代码，这些团队的主要专长在于物理、化学、工程、应用数学或气候科学，而非GPU内核优化。以CPU为中心、具备强大向量和矩阵运算能力的架构可以降低性能门槛。现有的编程模型、编译器、OpenMP、MPI、数学库和操作系统服务都可以进行扩展，而不是被替换。

但这并不意味着软件可以免费获得。高性能仍然需要优化的库、精心的数据布局、编译器支持和算法重构。但如果处理器保持通用 CPU 的特性，并内置类似加速器的功能，那么实现路径可能会更简单。程序员无需将 GPU 视为独立设备，而是将其视为功能强大的 CPU，它拥有针对特定数据类型的可扩展向量和矩阵指令以及高带宽内存。这使得支持不规则工作负载、动态控制流、自适应方法、稀疏计算和紧耦合仿真变得更加容易。

科学计算的范围远不止稠密矩阵乘法。许多重要的应用都涉及稀疏矩阵、图状数据结构、自适应网格、粒子、多尺度耦合、不规则内存访问、全局归约以及分布式系统间的通信。GPU 可以处理许多此类工作负载，但其效率通常比稠密张量运算更难实现。CPU 传统上更擅长处理对延迟敏感、分支密集和不规则的计算。如果 CPU 还具有强大的稠密线性代数性能，那么它就可以处理工作负载的两个方面：常规的、计算密集型的内核以及围绕这些内核的不规则编排。这减少了将应用程序生硬地拆分到 CPU 和 GPU 之间的必要性，并避免了不必要的数据传输。

纯 CPU 方案还具有潜在的系统级优势。移除独立 GPU 可以降低系统复杂性，并减少 CPU 和 GPU 之间的数据传输。编程环境、内存空间、数据传输、故障点可能会减少，调度也可能更简单。在大规模系统中，可靠性、功耗、散热、封装和网络集成都至关重要。同构节点设计比异构 CPU-GPU 节点更容易管理，尤其是在 CPU 提供足够的运算强度和内存带宽来满足应用程序需求的情况下。

关于平衡性也存在着强有力的论点。一台设计精良的科学计算机并非仅仅以峰值浮点运算速度 (flops/s) 来定义。它必须在算术性能、内存带宽、内存容量、网络带宽、延迟、能效、软件成熟度和数值精度之间取得平衡。GPU 通常能提供卓越的峰值性能，但并非所有应用都能充分利用这种性能。对于许多科学工作负载而言，配备矩阵硬件和 HBM 的 CPU 或许能提供更好的平衡，即使其理论峰值性能低于 GPU 密集型节点。对于实际应用而言，求解时间、求解能耗和编程便捷性比标称的峰值性能更为重要。

对于人工智能而言，情况则更为复杂。前沿模型的大规模训练一直围绕 GPU 和类 GPU 加速器展开，因为它们能够提供巨大的密集张量吞吐量和能效，以及成熟的软件生态系统。要完全用 CPU 矩阵引擎替代 GPU 来训练最大规模的模型，就需要 CPU 矩阵引擎达到与之相当的效率和吞吐量、内存带宽、通信性能和软件支持。这是一个很高的门槛。但许多人工智能工作负载并非前沿规模的训练运行。推理、微调、科学机器学习、代理建模、图神经网络、稀疏模型以及嵌入仿真工作流程中的人工智能，都可以在具备矩阵扩展和HBM的CPU上高效运行。在这些情况下，集成和数据局部性可能与原始张量吞吐量同等重要。

因此，最有力的论点并非GPU毫无用处。GPU并非如此。它们功能强大，并且将继续发挥重要作用。论点在于，如果CPU能够发展并包含那些使GPU具有吸引力的架构特性，那么GPU就不再是必需的。具备SVE/AVX、SME/AMX、HBM、多精度格式和矩阵乘法能力的CPU不再是传统的CPU。它是一款具备加速器级数值计算能力的通用处理器。

这种转变对于人工智能和科学计算的融合尤为重要。未来的科学应用将不再简单地分别运行仿真或训练神经网络。他们将把模拟、数据同化、优化、不确定性量化和机器学习紧密结合在工作流程中。这些工作流程既需要人工智能式的张量吞吐量，也需要传统的高性能计算（HPC）能力：MPI 通信、双精度浮点运算、稀疏求解器、自适应算法、文件 I/O 和复杂的控制逻辑。对于这种融合而言，集成矩阵加速的 CPU 可能比需要在主机 CPU 和独立 GPU 之间频繁切换的系统更简洁。

验证论证：全面的实证研究

目前的论证尚属概念性，但架构主张的可靠性取决于支撑它的硬件。因此，我们开展了一项详细的实证研究，以验证该主张在现有机器上的量化结果是否成立。本文将对这项研究进行总结；包含完整性能模型、测量数据、系统规模、功耗分析和方法论的全面版本即将发布。

本文还介绍了用于验证该论点的工作负载以及两款 CPU。一个公平的测试需要一个能够同时考察论证两方面（带宽和矩阵吞吐量）的工作负载，以及能够区分二者贡献的硬件。对于此工作负载，我们固定了一个生产环境的长上下文推理任务，使用一个拥有万亿参数的混合专家模型（Kimi-K2，它采用了多头潜在注意力机制），上下文大小为 256K 个 token。我们从一开始就启用了完整的现代加速栈：INT4 量化感知权重、INT4/INT8 键值缓存量化、DeepSeek 稀疏注意力机制以及 EAGLE-3 推测性解码。这些加速技术是模型架构层面的，与硬件无关，这正是它们被纳入基线的原因——它们在架构实际执行任务之前就减少了工作量，而公平的比较必须假设双方都拥有完善的软件栈。我们明确说明了每项技术的具体状态：MLA 和 INT4 量化感知权重是 K2 的原生功能，EAGLE-3 被视为积分乘数，而 DSA 是基于 DeepSeek-V3.2 的灵敏度预测结果，而非在 K2 上进行联合验证的结果。

硬件方面，我们使用了两款真实的 Arm CPU，它们的区别在于被测特性。富岳超级计算机的 A64FX 是一款已部署的加速 CPU，它不具备矩阵引擎——支持宽 SVE 向量，每个节点拥有约 1 TB/s 的封装内 HBM 内存，但不支持 SME——因此可以作为清晰的对照，用于衡量矩阵引擎的贡献。而最新发布的全 CPU 系统“LineShine”的 Armv9 LX2 则是一款已部署的、配备矩阵引擎的 CPU：每个核心都支持 SVE 和 SME，拥有 4 TB/s 的 32 GB HBM 内存，每个插槽的 BF16 矩阵吞吐量为 240 TF，INT8 矩阵吞吐量为 960 TOPS。这两款 CPU 结合起来，将对未来 CPU 的推测转化为对现有 CPU 的测量和预测：带宽方面使用 A64FX 进行测量，矩阵引擎方面则根据已发布的 LX2 规格进行评估。

从这个意义上讲，问题不应该是“我们需要 GPU 吗？”，而是“我们需要哪些架构特性？”我们需要高内存带宽。我们需要高效的稠密线性代数运算。我们需要支持 FP64、FP32、FP16 和 INT8 编码。我们需要可扩展的向量和矩阵运算。我们需要强大的编译器和库。我们需要高效的通信和均衡的内存层次结构。我们需要一个科学家可以高效使用的编程模型。如果 CPU 能够提供这些特性，那么使用 GPU 的许多理由就不复存在了。

因此，未来或许不再是GPU与CPU的对立，而是融合。GPU已经向计算机界展示了高吞吐量数值硬件应有的形态。如今，CPU正在吸收其中的一些经验：更宽的向量、矩阵引擎、封装内集成的HBM、更低精度的运算以及与内存系统的更紧密集成。如果这些趋势持续下去，CPU将成为人工智能和科学计算领域更强大的平台。

为什么人工智能推理才是关键？选择人工智能工作负载而非模拟内核是经过深思熟虑的。对于传统模拟中占主导地位的内存密集型、稀疏型和图结构内核而言，这一论点已不再是猜想，而富岳（Fugaku）就是最清晰的例证：这台矩阵引擎性能较弱的A64FX处理器在2020年至2022年间一直是Top500全球排名第一的系统，同时在HPCG和Graph500（基于实际模拟运行的内核构建的内存密集型基准测试）中也名列前茅。在这些代码上，带宽充足的CPU已经能够与峰值FLOP/s更高的GPU机器匹敌，有时甚至更胜一筹；而GPU加速的密集模拟这一领域，其结果尚未定论。通常对此提出的异议是Green500，该测试似乎表明GPU的能效要高得多；但它回答的是一个更具体的问题——HPL（一种密集型 FP64 矩阵乘法基准测试）上的能效——而没有矩阵引擎的向量 CPU 在这种特定工作负载下处于劣势，这恰恰是 SME 型引擎旨在弥合的差距。对于主导模拟的内存密集型内核而言，这种劣势并不存在，而 Fugaku 已经在该领域占据领先地位。GPU 仍然被认为具有决定性优势，因此这个问题真正开放的领域是现代人工智能。这就是为什么配套测试以人工智能推理为目标。

解码：带宽的一半已经成立。生成式推理分为两个阶段，对硬件的要求截然相反，它们分别检验了论证的两部分。解码——一次生成一个输出标记的自回归过程——必须为生成的每个标记从内存中流式传输模型的活动权重和整个键值 (KV) 缓存，因此它受限于内存带宽，而不是算术性能。该研究发现，K2 解码性能约 80% 受限于 HBM 带宽，仅约 1% 受限于浮点运算吞吐量；矩阵引擎基本处于空闲状态，而聚合内存带宽决定了令牌生成速率。因此，解码性能与集群可提供的总 HBM 带宽成正比，就此而言，CPU 并非未来之选，而是已经具备竞争力：大约 48 个 A64FX 节点可提供与当前 GPU 节点（GB200 NVL4）相同的 K2-256K 解码吞吐量，因为它们的聚合 HBM 带宽相当。换句话说，对于主导长上下文服务令牌生成成本的阶段而言，本文的带宽论断已在目前出货的硬件上得到证实——甚至在完全没有矩阵引擎的 A64FX 上也得到了证实。

预填充：矩阵引擎及其性能要求。预填充——即对输入提示的初始并行处理——与此相反：它受计算资源限制，且包含大量密集矩阵运算，而这正是矩阵引擎发挥作用的地方。关键在于，预填充的“性能平衡”并非一个单一的数值，而是一个范围，完全取决于所参照的GPU。没有矩阵引擎的A64FX在预填充峰值性能上比顶级GPU落后约47倍。要缩小这一差距，每个节点的矩阵吞吐量需要介于约80 TF/节点（如果基准是启用稀疏注意力机制的合理均衡的GPU配置，这是大多数实际部署所采用的配置）和超过750 TF/节点（如果基准是未启用此类优化的最大密集型最快GPU配置）之间。较低的可行目标相当于比A64FX每个节点提升约6倍，这对于一个额外的矩阵引擎来说是合理的要求；而最高目标则不合理。决定性的关键在于，LX2 已经达到了可行的标准：其 BF16 运算速度为 240 TF，约为平衡目标值的 3 倍；其 INT8 运算速度为 960 TOPS，甚至超过了最大值。因此，根据 LX2 已公布的规格，矩阵引擎这一论点得到了满足——当然，这是有条件的，因为正确的基准至关重要——而且它所要求的引擎不再是假设性的，因为它已搭载在 LX2 的每个核心上；剩下的就是在机器上验证这些数据，因为与 A64FX 解码结果不同，这些数据是预测值，尚未实际测量。

有三个问题影响着这一结果，但并未推翻它：互连性能、能耗溢价和精度格式。每个问题都值得详细讨论，因为粗心的解读很容易导致对 CPU 性能的过高估计或否定。

互连架构及其在流水线并行和张量并行之间做出选择的原因。以上结果是按节点计算的，但要处理一个万亿参数的模型，需要数百个节点协同工作，而如何让它们协作是影响最大的系统级变量。对于单个节点无法处理的模型，可以通过以下两种方式之一将其拆分到多个节点上。张量并行 (TP) 将每个单独的层分片到各个节点上，并且对每一层执行一次 all-reduce 操作来重新组合部分结果——这是一种集体通信，其成本取决于互连架构的 all-reduce 带宽，并且在长上下文预填充期间的数据量很大。流水线并行 (PP) 则将连续的整组层分配给不同的节点，并将激活值从一个阶段传递到下一个阶段——这是一种点对点传输，移动的数据量要少得多，而且完全不需要集体通信。哪种策略更好直接取决于互连架构，而这正是问题的关键所在。

在像富岳的 Tofu-D 这样的环形互连架构上，实现的全规约带宽并不高（实际约为 6 GB/s），因此长上下文 TP 预填充会成为通信瓶颈：网络而非处理器决定了时间，矩阵引擎只能等待。解决方法是改用流水线并行进行预填充。由于 PP 仅交换阶段边界激活信息，并且是点对点的，因此它绕过了环形互连架构难以处理的集体操作，预填充再次成为计算瓶颈。当互连架构足够强大时——例如像 LX2 这样的以太网级 CPU 架构，其全规约带宽大约高一个数量级——TP 不再是瓶颈，更简单、统一的宽 TP 配置成为两个阶段的更佳选择。实际结论是，基于 CPU 的系统并非局限于单一拓扑结构：它可以根据网络情况灵活构建，并行化策略也可以根据网络情况进行调整——在带宽有限的情况下采用流水线并行，在带宽充足的情况下采用张量并行。因此，互连是一种设计选择，而非固定缺陷；如果搭配合适的网络架构，CPU 机器可以消除弱环面网络造成的通信障碍，即使在弱网络架构上，正确的并行化也能弥补大部分性能损失。

能耗：确实是一项重要的成本，但这并非架构上的差异，而是代际差异。就功耗而言，客观的结论是，全CPU机器虽然具有竞争力，但仍然落后，而且有必要精确地说明落后多少以及原因。针对此工作负载，全LX2机器的单用户功耗大约是最新HBM3e GPU集群的1.75到2.7倍。这个范围并非模糊不清，而是机器架构的两种不同方式：低端采用共置配置，预填充占用解码插槽的剩余矩阵容量；高端采用角色分离配置，提供独立的预填充插槽池，因此可以使用更多硅片。共置配置的功耗是吞吐量的上限：预填充还会占用解码阶段的HBM带宽和调度槽位，而解码阶段本身约80%的带宽都受限于解码，因此预填充只有在准入控制下才能实现，该控制将预填充突发限制在解码延迟预算之内，而角色分离配置则能提供更安全的服务质量。无引擎混合架构——将A64FX解码层连接到一个独立的、无GPU的预填充系统——性能更差，大约是现有架构的3到4倍。

关键问题在于，这部分性能损耗究竟来自何处，而答案主要并非架构本身。解码之所以耗能最多，是因为它占用了大量的令牌流，而解码又受限于带宽，因此其单用户能耗主要取决于内存功耗——LX2采用的是较老的HBM2级内存，而最新的GPU则使用HBM3e，后者每瓦带宽更高。剩余的大部分能耗损耗来自缺失的FP8路径，该路径可以让预填充以更密集的低精度格式运行，从而降低能耗。这两点都属于代际差异而非根本性问题：配备支持FP8的矩阵引擎的HBM3e级CPU（这两款产品均已列入公开路线图）将消除大部分能耗差异。反向性能损耗同样显著，这对于确保比较的客观性至关重要。对两台机器采用相同的冷却和配电设施开销，可以保持而非扩大能耗比；而且，由于独立的 CPU 插槽所需的外部开关远少于通过 NVLink 连接的 GPU 节点，因此更全面的系统级能耗计算往往会缩小而非扩大能耗溢价。简而言之，CPU 的能耗成本虽然可衡量，但正在不断降低，这与内存技术和精度支持密切相关，而非架构本身。

精度是我们正在研究的方向之一。第三个问题是精度，它又可分为近期经验问题和我们认为前景广阔但仍未解决的长期研究方向。近期问题比较具体：目前市售的 CPU 支持 INT8 和 BF16，但不支持 FP8，INT8 是否能提供足够精细的量化网格以实现精确的长上下文预填充，或者是否需要未来一代 SME 中预期的 FP8，这些问题仍有待确定。

长期问题是低精度矩阵乘法能否作为人工智能和科学计算的通用计算原语。基于数值分解的技术可以将高精度矩阵乘法表示为一系列低精度矩阵乘法，然后进行适当的累加和重构。原则上，用于神经网络推理的同一个 FP8 或 INT8 矩阵引擎可以加速某些 FP32 和 FP64 精度的数值内核。

这种方法可以简化硬件堆栈：单个高吞吐量矩阵引擎即可支持从低精度人工智能工作负载到精心构建的高精度计算的各种运算。对于未来面向带宽的CPU而言，这种可能性尤其具有吸引力，因为其内存带宽可达数十TB/s，而其原生FP64吞吐量仍然相对较低。对于合适的计算密集型内核，低精度矩阵引擎可以在无需相应庞大的传统FP64单元的情况下提供额外的运算能力。

我们将其视为一项研究假设，而非既定结论。其有效性将取决于数值条件、误差控制、分解和累加成本、数据移动以及在实际硬件上可达到的效率。此外，它最有可能自然地应用于稠密矩阵运算，而不是均匀地应用于稀疏、不规则、通信密集型或通用科学工作负载。确定该方法在代表性科学内核中的适用范围和优势是我们后续研究的重要组成部分。

目前的LX2处理器支持INT8运算，而其FP64运算能力相对较弱，不支持FP8运算。因此，除了密集矩阵乘法之外，原生FP64仍然是更合适的选择。本研究关注的是未来支持矩阵运算的CPU的性能，而非对当前芯片的评价。

结论

回到标题提出的问题：如果我们拥有具备 SVE 和 SME、大量 HBM、原生支持 FP64、FP32、FP16 和 INT8 以及高吞吐量矩阵乘法引擎的 CPU，那么对于许多 AI 和科学工作负载，我们可能就不需要 GPU 了。这样的处理器解决了导致 GPU 普及的根本限制——并行性不足、内存带宽不足以及低精度张量性能欠佳——同时保留了 CPU 的优势：通用性、可编程性、强大的控制流、成熟的系统软件以及对不规则科学工作负载的适用性。实证研究将这一愿景转化为针对推理和收敛模拟领域的测量和建模论断。

带宽方面，目前已在出货的硬件上得到验证，这在一款完全没有矩阵引擎的 CPU 上得到了证明；矩阵引擎方面，目前已出货的 CPU 也已满足，其性能已根据公布的规格并等待直接测量结果。而剩余的问题都是有限且可解决的——CPU系统可以通过选择适合自身架构的流水线或张量并行来适应互连，下一代矩阵引擎已经指定了FP8模式，并且能耗溢价与内存的代数而非架构相关。因此，距离GPU前沿的距离取决于工程技术和时机，根据目前的估计，构建无GPU机器的决定，目前主要取决于自主权和供应，而非绝对的能效。最大的非硬件差距仍然是软件成熟度：GPU库和服务栈如今已经深度优化，而CPU矩阵引擎需要类似的编译器、内核和运行时支持才能完全实现其架构优势。

GPU仍然很有价值，尤其是在处理最大规模的密集型AI训练问题时，但它们并非唯一的出路。具备集成矩阵和内存功能的均衡CPU可以为下一代AI赋能的科学计算提供更简单、更统一、更高效的基础。