统治 AI 十年的英伟达，要被谷歌NPU 掀桌子了？

作者 | 硅基象限张思

过去十年，AI算力的叙事几乎被一家公司定义——NVIDIA（英伟达）。

从A100到H100，再到H200，GPU像一条不断扩展的算力工业流水线，把深度学习从实验室推向大模型时代。

但一个被长期忽视的问题是：GPU最初并不是为AI而生，是为图形渲染而生。

这意味着它从一开始就是"通用并行计算架构"，而不是"AI原生架构"。

于是，一个更底层的趋势开始出现：

当AI计算规模指数级增长时，GPU的边际效率开始下降。

产业开始向另一个方向转型，重新设计计算范式，一种依靠专用计算芯片设计逻辑（ASIC）的算力芯片——NPU诞生了！

美国时间4月22日，在Google Cloud Next活动上，谷歌推出两款第八代NPU芯片，TPU8t、TPU8i分别用于AI训练和AI推理。TPU8t每瓦性能上比前代产品提升124%，TPU8i提升117% ，TPU8i的每美元性能提升80%。业内评论，"其如果对外出售，或将取代英伟达"。

云服务厂搞芯片，并非是谷歌的独特路线。

全球云服务市场的"老大"亚马逊，在2018年发布首款用于推理的 NPU—Inferentia1，并在2023年推出了第二代Inferentia2，并在去年底发布用于训练的NPU，Trainium3；排名第二的微软云也在2023年发布了首款云端NPU（Maia 100），并在今年初发布了Maia 200。

国内亦如此。阿里在2019年发布首款NPU（含光800），专注云端推理和视觉计算；2018 年开始百度发布基于ASIC逻辑的自研AI芯片昆仑1，并已迭代至昆仑芯3代。

2026年，算力芯片的大客户，字节跳动也将对NPU下手。外媒透露字节跳动已开始与三星洽谈自研NPU芯片，代号SeedChip，专为AI推理任务设计，预计2026年3月底前交付首批样品。

2026年的趋势是芯片不再是一整块，谷歌、字节、阿里们想在英伟达的平台上，"拼"入自己的专用模块。

云厂商自研NPU，或将改变AI成本结构、能耗曲线，甚至商业模式。

什么是 NPU？

谷歌TPU、阿里含光800等本质是一种NPU形态。

NPU（Neural Processing Unit）芯片，英文直接翻译过来就是神经网络处理芯片。

要理解NPU和GPU的差别，可以先从它们的底层逻辑开始，NPU广义上属于专用处理芯片（ASIC），而GPU属于通用处理芯片。

芯片按设计逻辑可以被分为三类，通用计算芯片、FPGA（可重构硬件）和ASIC （专用处理芯片）。

第一是通用计算芯片，诸如CPU和GPU，一条指令驱动成百上千线程并行执行，非常擅长处理大规模并行计算，通常不改变硬件，而是通过软件（CUDA）改变"任务调度"。这就是为什么大家都说英伟达其实是一家软件公司，GPU核心特征是高度可编程、适配所有计算任务、架构复杂（需要很多缓存）。但代价是通用性越强，效率越低。

第二类是 ASIC（专用定制芯片），它是为了某一个特定任务（比如识别图像、处理语音）而专门定制的，数据流固定、能效极高，是一种"把算法固化进硅片"的设计方法。缺点是一旦电路压印在硅片上，功能就无法更改，不够灵活。ASIC的本质是把AI计算从"软件问题"变成"物理问题"，但它也意味着灵活性最低、更新周期长。

第三类是FPGA（可重构硬件），其可以通过"重新布线" 改变芯片硬件布局和改变软件代码，来改变芯片功能，像一套"乐高积木"，它介于通用和专用之间，常用于算法迭代快的原型开发或边缘计算。

GPU功能强大，可以并行做很多事，要是把这些能力都用上，可以无比强大，但是单价更高，也更费电，而 NPU只做一件事或一类事，功能单一，但是单价低也更省电。

不卖芯片，只做更具性价比的云

云服务商并不卖芯片，而是想要提供更具性价比的算力。

在2015年，谷歌就开始研究NPU，当时，谷歌发现一个问题：其数据中心中，神经网络推理需求暴涨，但GPU效率不足。

于是，谷歌内部启动了TPU项目。2015年第一代仅用于数据推理的TPU诞生，2018年对外开放Google Cloud TPU，2020–2024年开始进入"训练+推理一体化"阶段。

2026年，随着TPU 8发布，谷歌首次明确分成两条路线：用于训练的TPU 8t和用于推理的TPU 8i，这背后反映的是一个更大的趋势：AI算力的重心，正在从训练转向推理。

行业机构预计，到2030年，75%-80%的AI算力将用于推理。这意味着GPT训练一次，推理运行数亿次。因此，谁能把 1 分钱的推理成本压到 0.1 分，谁就是未来的算力王者。

谷歌的两款芯片分别由两个合作方设计，TPU8t由博通设计， TPU8i由联发科设计，两颗都或将基于台积电2nm工艺，预计2027年底量产。TPU 8最核心变化在于试图解决"内存墙"问题，通过更高带宽HBM、更密集的片间互联。

据悉，此次TPU8对比上一代Ironwood产品，TPU 8i 推理芯片HBM容量从216GB增到288GB，带宽从6528提到8601GB/s，片上 SRAM提升三倍达384M。集群规模从数万颗扩到13.4万颗，最多可连100万颗。

NPU并不是谷歌独角戏，亚马逊、微软等都有NPU产品，而国内华为昇腾（Ascend）、寒武纪、地平线等也有类似产品发布。

以前云厂商买英伟达的"全家桶"，现在他们想买英伟达的"地基"，自己盖"房子"。

掌握算力时代主动权

TPU 8系列发布背后，是一个非常清晰的战略：去英伟达化。

如果TPU成功，AI算力将从"GPU垄断"变成"多架构竞争"。

但取代"英伟达"，却并不容易。

最重要的问题是生态，英伟达的CUDA仍然是行业标准，CUDA 有 400 万开发者。另一方面，TPU功能太过单一，GPU可以用于AI训练和推理、图形处理和渲染，但是TPU的功能单一。

业内人士普遍认为，NPU的意义不是"替代GPU"，而是重新定义AI算力结构。未来可能出现，GPU作为通用算力底座、TPU/NPU作为AI专用加速层。

英伟达也看到了这个趋势，在2025年底，英伟达斥资 200 亿美元对 Groq 进行收购，Groq研发的 LPU (Language Processing Unit) ，在运行大模型（LLM）时，其速度是传统 GPU 的 10 倍以上。

这就像是过去十年，大多手机厂商的竞争。当手机里最重要的Soc芯片已经被高通、联发科垄断，具备强大的护城河，自研Soc芯片需要付出很大的成本且面临高风险。

那么，想要有独特优势、在市场上更具竞争力，大多数手机企业不会选择自研Soc芯片，而是针对Soc芯片的局部功能做优化。

此前，三星、vivo、OPPO等手机厂商都选择自研用于提升拍照能力的NPU芯片，实现差异化，比如vivo蓝图影像芯片、OPPO马里亚纳 MariSilicon芯片。

云厂商的算力竞争也接近白热化，越来越多用于训练和推理的NPU将会出现，并不断提升能力。

未来真正的算力产业分水岭将是：谁能把AI推理成本压到极致，谁就掌握下一代算力时代主动权。