谷歌TPU《十年》：从青铜到王者，一块芯片如何干翻一个时代？-EDN 电子技术设计

 从一个为了解决生存危机的“救火队员”，到如今驱动世界顶级AI模型的Exa级超级计算机。

十年之前，你不认识我，我不属于你，我们还是一样，陪在GPU左右。

十年之后，我们是朋友，LLM的训练，再也找不到用GPU的理由。

这是Google TPU的故事。

十年之前，当时AI这把火刚烧起来，尤其是谷歌的语音搜索用户急剧增加。

据说，当时谷歌后台的工程师们脸都绿了，

他们算了笔账：要是每个用户每天就用3分钟语音搜索，他们就得把数据中心的规模翻一倍。

啥概念？

就是说，再不想办法，公司就要被大家说的话给“撑死”了。

服务器买不起了，电费交不起了，数据中心没地儿建了。

这已经不是技术问题，是生存问题了。RG6ednc

当时的大佬们（CPU、GPU）虽然能打，但又贵又耗电，性价比太低。RG6ednc

谷歌寻思着，这不行啊，不能总靠友商，得自己造“核武器”。RG6ednc

于是，一个“军令状”立下了：搞一个比同期GPU性价比高10倍的玩意儿出来！RG6ednc

TPU（Tensor Processing Unit，张量处理单元）的故事，就这么拉开了序幕。RG6ednc

第一章：V1出世，一个“偏科”的天才RG6ednc

谷歌的工程师们没有重新发明轮子，而是从故纸堆里翻出了一本上古秘籍——70年代末提出的“脉动阵列”（Systolic Array）。RG6ednc

这玩意儿听着玄乎，其实原理很“带感”。RG6ednc

你想象一下，把数据像“泵”一样，有节奏地“泵”进一个由成千上万个计算小单元组成的网格里。RG6ednc

数据在这个网格里流动，每流过一个单元，就被计算一次，结果直接传给下一个，全程无缝衔接，像心跳一样规律。RG6ednc

这套操作最大的好处是啥？RG6ednc

省事儿！RG6ednc

数据不用频繁地在内存和计算单元之间来回跑，极大减少了能量和时间开销。RG6ednc

TPU v1就把这个上古神功练到了极致。RG6ednc

它的核心是一个巨大的256x256矩阵乘法器（MXU），里面塞了65536个8位计算单元。RG6ednc

RG6ednc

为了把性能压榨到极限，它做了一个极其大胆的决定：RG6ednc

砍掉所有花里胡哨的功能！RG6ednc

什么缓存、分支预测、乱序执行，统统不要。RG6ednc

它只干一件事，就是做矩阵乘法，而且是用8位整数（INT8）去做。RG6ednc

这波“断舍离”的回报是惊人的：RG6ednc

在谷歌内部的真实业务（比如搜索排名）上，TPU v1比当时的CPU、GPU快了15到30倍。RG6ednc

能效比更是后者的30到80倍。RG6ednc

不过，它不是一个独立的“大哥”，而是个超级能打的“马仔” 。RG6ednc

CPU大哥发个指令，比如“算个卷积”，TPU v1就埋头吭哧吭哧地把活儿干完，又快又稳。RG6ednc

后来，在举世闻名的AlphaGo大战李世石中，TPU v1就是幕后英雄之一，主要负责帮AlphaGo进行海量的自我对弈训练。RG6ednc

这一战，让TPU彻底出圈，成了AI江湖里一个响当当的名号。RG6ednc

第二章：V2转身，从“单挑王”到“超级战队” RG6ednc

v1虽然猛，但它是个“偏科生”，只能搞推理（inference），不能搞训练（training）。RG6ednc

谷歌很快意识到，真正的瓶颈在于训练模型，那计算量比推理大好几个数量级。RG6ednc

RG6ednc

于是，TPU v2的设计目标发生了180度大转弯：不造一颗更快的芯片，而是要造一台“AI超级计算机”。RG6ednc

为了这个宏伟目标，v2进行了三大“魔改”：RG6ednc

1:训练模型需要高精度，但32位浮点（FP32）太占地方。谷歌大脑的天才们就发明了一种叫bfloat16的16位浮点格式。RG6ednc

这玩意儿堪称神来之笔：它保留了FP32的动态范围（不容易溢出），但砍了一半的精度位（反正神经网络对精度没那么敏感）。RG6ednc

好处是，硬件开销小了一大圈，性能直接翻倍，还不用像其他16位浮点那样搞一堆复杂的防呆设计。RG6ednc

堪称硬件和算法“协同设计”的典范。RG6ednc

2:换上了“消防栓”：RG6ednc

v1的内存带宽就像个小水管，完全喂不饱计算单元。RG6ednc

v2直接换装了高带宽内存（HBM），带宽暴涨17倍，从34 GB/s飙到600 GB/s 。RG6ednc

从此，计算核心再也不怕“饿肚子”了。RG6ednc

3:组建了TPU Pod：RG6ednc

谷歌用一种叫“2D环形互连”（ICI）的定制高速网络，把256颗TPU v2芯片直接连在了一起，组成了一个“TPU Pod” 。RG6ednc

在这个Pod里，所有芯片可以像一个巨型加速器一样协同作战，总算力高达11.5 PetaFLOPs 。RG6ednc

这标志着谷歌的思路彻底变了：RG6ednc

不再是设计芯片，而是在设计一台领域专用的超级计算机。RG6ednc

第三章：V3猛击，力大砖飞与“水冷散热” RG6ednc

TPU v3来得很快，距离v2发布仅一年。

它不是革命，而是一次简单粗暴性能升级。RG6ednc

策略就一个字：加倍！RG6ednc

计算单元加倍，单芯性能翻倍到123 TFLOPS 。RG6ednc

内存加倍到32GB，带宽提升到900 GB/s 。RG6ednc

Pod规模翻了四倍，达到1024颗芯片，总算力突破100 PetaFLOPs 。RG6ednc

但是，性能加倍的代价是功耗也跟着飙。RG6ednc

单颗v3芯片的功耗高达450W ，一千多颗这种“发热大户”挤在一起，传统风冷直接歇菜。RG6ednc

怎么办？RG6ednc

上水冷！RG6ednc

这是谷歌第一次在数据中心大规模引入液体冷却。RG6ednc

上面输液的管子就是液冷管。

这事儿说明了一个深刻的道理：在超算的世界里，性能、互连、密度和散热是“生死兄弟”，一荣俱荣，一损俱损。RG6ednc

想把性能往死里堆，就得接受“泡澡”的命运。RG6ednc

第四章：V4革命，给超算装上“任意门”RG6ednc

如果说v3是力大砖飞，RG6ednc

那v4又加入新的互联手段。RG6ednc

它的核心革命在于互联技术——光学电路交换（OCS）。RG6ednc

RG6ednc

以前的互连网络，不管是v2还是v3，都是焊死的“高速公路”，拓扑结构是固定的。RG6ednc

但v4的OCS，像给整个超算系统装上了“任意门”。RG6ednc

它用微型镜面阵列来引导光路，可以在毫秒之间，动态地改变任意两个TPU集群之间的连接。RG6ednc

RG6ednc

这带来了几个逆天的好处：RG6ednc

故障自动绕行：4096颗芯片组成的系统，训练个大模型动辄几周，中间坏掉一两个芯片太正常了。有了OCS，系统可以直接“绕开”故障节点，保证训练任务不中断。这可用性，直接拉满。RG6ednc

拓扑随心变：不同的AI算法，喜欢的“阵型”（网络拓扑）不一样。RG6ednc

OCS可以根据任务需求，动态组合出最适合的“切片”形状，比如“雪茄型”或者“魔方型”，把通信效率提到最高。RG6ednc

这已经不是简单的升级了，这是把物理网络变成了软件定义的资源。RG6ednc

谷歌的PaLM大模型，就是靠着6144颗v4芯片，以接近60%的硬件利用率训练出来的，OCS功不可没。RG6ednc

此外，v4芯片内部还搞起了“异构架构”，RG6ednc

塞进了一个叫SparseCore的专用单元。RG6ednc

RG6ednc

这是类似GPU的SIMD的组件。RG6ednc

这玩意儿专门对付推荐模型里那种不规则、老大难的嵌入查找操作。RG6ednc

虽然只占了5%的芯片面积，却带来了不小的性能提升。RG6ednc

TPU也开始走向异构了。RG6ednc

第五章：V5/V6分化，卷王与经济适用男 RG6ednc

到了v5时代，谷歌也学精了，搞起了产品线分化。RG6ednc

'p'系列 (Performance)：比如v5p，这是“性能卷王”，不计成本，就是要干最猛的活，训练Gemini这种级别的巨无霸模型。单芯算力459 TFLOPS，95GB HBM内存，能组8960颗芯片的超级Pod 。RG6ednc

'e'系列 (Efficiency)：比如v5e和最新的Trillium (v6e)，这是“经济适用男”，主打性价比和能效比。v5e的性价比就比v4高了2.5倍。RG6ednc

RG6ednc

而最新的Trillium (v6e)更是重量级，单芯算力比v5e猛增4.7倍，能效也提升了67% 。RG6ednc

这种分化说明AI硬件市场已经熟了，不再是“一招鲜吃遍天”，而是要针对不同客户提供不同价位的最优解。RG6ednc

谷歌甚至还预告了下一代专门为“推理时代”设计的Ironwood (TPU v7)，内存和带宽参数更是夸张到没朋友。RG6ednc

看来，专业化的道路要一条道走到黑了。RG6ednc

那么对于大模型（LLM）的训练，TPU的能效怎么样？RG6ednc

LLM 的核心是 Transformer 架构，其计算密集的部分就是大规模的矩阵乘法。TPU 的脉动阵列（MXU）天生就是为了高效执行这类运算而设计的。 RG6ednc

训练拥有数千亿甚至万亿参数的 LLM，需要将成千上万个芯片连接起来协同工作。RG6ednc

TPU Pod 架构，尤其是 v4 和 v5p 采用的高速、可重构的光学互连网络（OCS），正是为了解决这种超大规模并行训练的通信瓶颈而打造的。RG6ednc

TPU 在训练 LLM 领域的成功案例不胜枚举，其中最引人注目的就是谷歌自家的旗舰模型。这些模型不仅是科研成果的展示，更是 TPU 强大能力的最佳证明。RG6ednc

PaLM & PaLM 2：谷歌的 5400 亿参数大模型 PaLM，正是在一个由 6144 颗 TPU v4 芯片组成的庞大系统上训练完成的。这次训练实现了高达 57.8% 的硬件浮点性能利用率，创下了当时同等规模 LLM 训练效率的纪录。其后续版本 PaLM 2 同样由 TPU 驱动。 RG6ednc

Gemini：作为谷歌当前最先进的多模态模型系列，Gemini 的训练完全基于 TPU 的强大算力。RG6ednc

谷歌明确表示，TPU v4 和 v5e 都参与了 Gemini 的训练，而性能更强的 TPU v5p 的发布，正是为了支持像 Gemini 这样的前沿模型而量身定制的。RG6ednc

Gemma：谷歌推出的开放模型 Gemma 系列，也是在 TPU 上训练的。Hugging Face 等社区也提供了在 TPU 上对 Gemma 进行微调的教程，展示了其良好的生态支持。RG6ednc

尾声：《十年》RG6ednc

从一个为了解决生存危机的“救火队员”，到如今驱动世界顶级AI模型的Exa级超级计算机。RG6ednc

TPU的十年，就是一部AI需求与硬件创新相互追逐、相互成就的史诗。RG6ednc

责编：Ricardo

文章来源及版权属于歪睿老哥，EDN电子技术设计仅作转载分享，对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问，请联系Demi.xia@aspencore.com

阅读全文，请先

歪睿老哥

一个芯片设计行业老哥；忙时研发，闲时写作；聚焦芯片行业的那些事，唯武侠与芯片不可辜负。

进入专栏

上一篇： 挪威2025年6月：纯电占比96.9%，特斯拉占1/3 下一篇： 返回列表

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

热门评论
最新评论

换一换

杂志声明

谷歌TPU《十年》：从青铜到王者，一块芯片如何干翻一个时代？

TPU v3来得很快，距离v2发布仅一年。