广告

谷歌TPU《十年》:从青铜到王者,一块芯片如何干翻一个时代?

2025-07-14 歪睿老哥 阅读:
从一个为了解决生存危机的“救火队员”,到如今驱动世界顶级AI模型的Exa级超级计算机。
十年之前,你不认识我,我不属于你,我们还是一样,陪在GPU左右。
十年之后,我们是朋友,LLM的训练,再也找不到用GPU的理由。
这是Google TPU的故事。
十年之前,当时AI这把火刚烧起来,尤其是谷歌的语音搜索用户急剧增加。
据说,当时谷歌后台的工程师们脸都绿了,
他们算了笔账:要是每个用户每天就用3分钟语音搜索,他们就得把数据中心的规模翻一倍。
啥概念?
就是说,再不想办法,公司就要被大家说的话给“撑死”了。
服务器买不起了,电费交不起了,数据中心没地儿建了。

已经不是技术问题,是生存问题了。RG6ednc

当时的大佬们(CPU、GPU)虽然能打,但又贵又耗电,性价比太低。RG6ednc

谷歌寻思着,这不行啊,不能总靠友商,得自己造“核武器”。RG6ednc

于是,一个“军令状”立下了:搞一个比同期GPU性价比高10倍的玩意儿出来!RG6ednc

TPU(Tensor Processing Unit,张量处理单元)的故事,就这么拉开了序幕。RG6ednc

第一章:V1出世,一个“偏科”的天才RG6ednc

谷歌的工程师们没有重新发明轮子,而是从故纸堆里翻出了一本上古秘籍——70年代末提出的“脉动阵列”(Systolic Array)RG6ednc

这玩意儿听着玄乎,其实原理很“带感”。RG6ednc

你想象一下,把数据像“泵”一样,有节奏地“泵”进一个由成千上万个计算小单元组成的网格里。RG6ednc

数据在这个网格里流动,每流过一个单元,就被计算一次,结果直接传给下一个,全程无缝衔接,像心跳一样规律   RG6ednc

这套操作最大的好处是啥?RG6ednc

省事儿!RG6ednc

数据不用频繁地在内存和计算单元之间来回跑,极大减少了能量和时间开销。RG6ednc

TPU v1就把这个上古神功练到了极致。RG6ednc

它的核心是一个巨大的256x256矩阵乘法器(MXU),里面塞了65536个8位计算单元   RG6ednc

RG6ednc

为了把性能压榨到极限,它做了一个极其大胆的决定:RG6ednc

砍掉所有花里胡哨的功能!RG6ednc

 什么缓存、分支预测、乱序执行,统统不要   RG6ednc

它只干一件事,就是做矩阵乘法,而且是用8位整数(INT8)去做   RG6ednc

这波“断舍离”的回报是惊人的:RG6ednc

在谷歌内部的真实业务(比如搜索排名)上,TPU v1比当时的CPU、GPU快了15到30倍 RG6ednc

能效比更是后者的30到80倍   RG6ednc

不过,它不是一个独立的“大哥”,而是个超级能打的“马仔” RG6ednc

CPU大哥发个指令,比如“算个卷积”,TPU v1就埋头吭哧吭哧地把活儿干完,又快又稳。RG6ednc

后来,在举世闻名的AlphaGo大战李世石中,TPU v1就是幕后英雄之一,主要负责帮AlphaGo进行海量的自我对弈训练。RG6ednc

这一战,让TPU彻底出圈,成了AI江湖里一个响当当的名号。RG6ednc

第二章:V2转身,从“单挑王”到“超级战队” RG6ednc

 

v1虽然猛,但它是个“偏科生”,只能搞推理(inference),不能搞训练(training)。RG6ednc

谷歌很快意识到,真正的瓶颈在于训练模型,那计算量比推理大好几个数量级    RG6ednc

RG6ednc

于是,TPU v2的设计目标发生了180度大转弯:不造一颗更快的芯片,而是要造一台“AI超级计算机”RG6ednc

为了这个宏伟目标,v2进行了三大“魔改”:RG6ednc

1:训练模型需要高精度,但32位浮点(FP32)太占地方。谷歌大脑的天才们就发明了一种叫bfloat16的16位浮点格式   RG6ednc

这玩意儿堪称神来之笔:它保留了FP32的动态范围(不容易溢出),但砍了一半的精度位(反正神经网络对精度没那么敏感) RG6ednc

好处是,硬件开销小了一大圈,性能直接翻倍,还不用像其他16位浮点那样搞一堆复杂的防呆设计。RG6ednc

堪称硬件和算法“协同设计”的典范。RG6ednc

2:换上了“消防栓”RG6ednc

v1的内存带宽就像个小水管,完全喂不饱计算单元。RG6ednc

v2直接换装了高带宽内存(HBM),带宽暴涨17倍,从34 GB/s飙到600 GB/s RG6ednc

从此,计算核心再也不怕“饿肚子”了。RG6ednc

3:组建了TPU PodRG6ednc

谷歌用一种叫“2D环形互连”(ICI)的定制高速网络,把256颗TPU v2芯片直接连在了一起,组成了一个“TPU Pod” RG6ednc

在这个Pod里,所有芯片可以像一个巨型加速器一样协同作战,总算力高达11.5 PetaFLOPs   RG6ednc

这标志着谷歌的思路彻底变了:RG6ednc

不再是设计芯片,而是在设计一台领域专用的超级计算机。RG6ednc

第三章:V3猛击,力大砖飞与“水冷散热” RG6ednc

TPU v3来得很快,距离v2发布仅一年。

它不是革命,而是一次简单粗暴性能升级RG6ednc

策略就一个字:加倍!RG6ednc

计算单元加倍,单芯性能翻倍到123 TFLOPS   RG6ednc

内存加倍到32GB,带宽提升到900 GB/s    RG6ednc

Pod规模翻了四倍,达到1024颗芯片,总算力突破100 PetaFLOPs 。RG6ednc

但是,性能加倍的代价是功耗也跟着飙。RG6ednc

单颗v3芯片的功耗高达450W   ,一千多颗这种“发热大户”挤在一起,传统风冷直接歇菜。RG6ednc

怎么办?RG6ednc

上水冷!RG6ednc

这是谷歌第一次在数据中心大规模引入液体冷却。RG6ednc

上面输液的管子就是液冷管。

这事儿说明了一个深刻的道理:在超算的世界里,性能、互连、密度和散热是“生死兄弟”,一荣俱荣,一损俱损。RG6ednc

想把性能往死里堆,就得接受“泡澡”的命运。RG6ednc

第四章:V4革命,给超算装上“任意门”RG6ednc

如果说v3是力大砖飞,RG6ednc

那v4又加入新的互联手段。RG6ednc

它的核心革命在于互联技术——光学电路交换(OCS)  RG6ednc

RG6ednc

以前的互连网络,不管是v2还是v3,都是焊死的“高速公路”,拓扑结构是固定的。RG6ednc

但v4的OCS,像给整个超算系统装上了“任意门”。RG6ednc

它用微型镜面阵列来引导光路,可以在毫秒之间,动态地改变任意两个TPU集群之间的连接   RG6ednc

 RG6ednc

这带来了几个逆天的好处:RG6ednc

故障自动绕行:4096颗芯片组成的系统,训练个大模型动辄几周,中间坏掉一两个芯片太正常了。有了OCS,系统可以直接“绕开”故障节点,保证训练任务不中断。这可用性,直接拉满   RG6ednc

拓扑随心变:不同的AI算法,喜欢的“阵型”(网络拓扑)不一样。RG6ednc

OCS可以根据任务需求,动态组合出最适合的“切片”形状,比如“雪茄型”或者“魔方型”,把通信效率提到最高   RG6ednc

这已经不是简单的升级了,这是把物理网络变成了软件定义的资源。RG6ednc

谷歌的PaLM大模型,就是靠着6144颗v4芯片,以接近60%的硬件利用率训练出来的,OCS功不可没   RG6ednc

此外,v4芯片内部还搞起了“异构架构”,RG6ednc

塞进了一个叫SparseCore的专用单元   RG6ednc

 RG6ednc

这是类似GPU的SIMD的组件。RG6ednc

这玩意儿专门对付推荐模型里那种不规则、老大难的嵌入查找操作。RG6ednc

虽然只占了5%的芯片面积,却带来了不小的性能提升   RG6ednc

TPU也开始走向异构了。RG6ednc

第五章:V5/V6分化,卷王与经济适用男 RG6ednc

到了v5时代,谷歌也学精了,搞起了产品线分化   RG6ednc

'p'系列 (Performance):比如v5p,这是“性能卷王”,不计成本,就是要干最猛的活,训练Gemini这种级别的巨无霸模型。单芯算力459 TFLOPS,95GB HBM内存,能组8960颗芯片的超级Pod RG6ednc

'e'系列 (Efficiency):比如v5e和最新的Trillium (v6e),这是“经济适用男”,主打性价比和能效比 。v5e的性价比就比v4高了2.5倍   RG6ednc

 RG6ednc

而最新的Trillium (v6e)更是重量级,单芯算力比v5e猛增4.7倍,能效也提升了67%   RG6ednc

这种分化说明AI硬件市场已经熟了,不再是“一招鲜吃遍天”,而是要针对不同客户提供不同价位的最优解。RG6ednc

谷歌甚至还预告了下一代专门为“推理时代”设计的Ironwood (TPU v7),内存和带宽参数更是夸张到没朋友   RG6ednc

看来,专业化的道路要一条道走到黑了。RG6ednc

那么对于大模型(LLM)的训练,TPU的能效怎么样?RG6ednc

 LLM 的核心是 Transformer 架构,其计算密集的部分就是大规模的矩阵乘法。TPU 的脉动阵列(MXU)天生就是为了高效执行这类运算而设计的   RG6ednc

练拥有数千亿甚至万亿参数的 LLM,需要将成千上万个芯片连接起来协同工作。RG6ednc

TPU Pod 架构,尤其是 v4 和 v5p 采用的高速、可重构的光学互连网络(OCS),正是为了解决这种超大规模并行训练的通信瓶颈而打造的 RG6ednc

TPU 在训练 LLM 领域的成功案例不胜枚举,其中最引人注目的就是谷歌自家的旗舰模型。这些模型不仅是科研成果的展示,更是 TPU 强大能力的最佳证明。RG6ednc

PaLM & PaLM 2: 谷歌的 5400 亿参数大模型 PaLM,正是在一个由 6144 颗 TPU v4 芯片组成的庞大系统上训练完成的 。这次训练实现了高达 57.8% 的硬件浮点性能利用率,创下了当时同等规模 LLM 训练效率的纪录 。其后续版本 PaLM 2 同样由 TPU 驱动   RG6ednc

Gemini: 作为谷歌当前最先进的多模态模型系列,Gemini 的训练完全基于 TPU 的强大算力 RG6ednc

谷歌明确表示,TPU v4 和 v5e 都参与了 Gemini 的训练,而性能更强的 TPU v5p 的发布,正是为了支持像 Gemini 这样的前沿模型而量身定制的 RG6ednc

Gemma: 谷歌推出的开放模型 Gemma 系列,也是在 TPU 上训练的 。Hugging Face 等社区也提供了在 TPU 上对 Gemma 进行微调的教程,展示了其良好的生态支持 RG6ednc

尾声:《十年》RG6ednc

 

从一个为了解决生存危机的“救火队员”,到如今驱动世界顶级AI模型的Exa级超级计算机。RG6ednc

TPU的十年,就是一部AI需求与硬件创新相互追逐、相互成就的史诗。RG6ednc

责编:Ricardo
文章来源及版权属于歪睿老哥,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
歪睿老哥
一个芯片设计行业老哥;忙时研发,闲时写作;聚焦芯片行业的那些事,唯武侠与芯片不可辜负。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了