地球上最快的AI/计算产品，英伟达新一代Hopper GH100 GPU具体有哪些升级？-EDN 电子技术设计

 英伟达正式推出了其新一代架构与核心Hopper GH100 GPU，它采用全新的定制版台积电 4nm 工艺， CoWoS 2.5D晶圆级封装，单芯片设计，集成多达800亿个晶体管，号称世界上最先进的芯片。新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能

英伟达正式推出了其新一代架构与核心Hopper GH100 GPU，它采用全新的定制版台积电 4nm 工艺， CoWoS 2.5D晶圆级封装，单芯片设计，集成多达800亿个晶体管，号称世界上最先进的芯片。vpRednc

4nm工艺、800 亿个晶体管、地球上最快的 AI/计算产品

基于 Hopper 架构的 Hopper GPU 是在尖端台积电 4nm 工艺节点上生产的工程奇迹。就像之前的数据中心 GPU 一样，Hopper GH100 将针对各种工作负载，包括人工智能 (AI)、机器学习 (ML)、深度神经网络 (DNN) 和各种以 HPC 为重点的计算工作负载。vpRednc

完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元)，而每组SM有128个FP32 CUDA核心，总计18432个。vpRednc

显存支持六颗HBM3或者HBM2e，控制器是12组512-bit，总计位宽6144-bit。vpRednc

Tensor张量核心来到第四代，共有576个，另有60MB二级缓存。vpRednc

扩展互连支持PCIe 5.0、NVLink第四代，后者带宽提升至900GB/s，七倍于PCIe 5.0。整卡对外总带宽4.9TB/s。vpRednc

vpRednc

144组SM(流式多处理器单元)有哪些改进？

新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能包括：vpRednc

与 A100 相比，新的第四代 Tensor Core 的芯片到芯片速度提高了 6 倍，包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。在每个 SM 基础上，与上一代 16 位浮点数相比，Tensor Core 在等效数据类型上的 MMA（矩阵乘累加）计算速率是 A100 SM 的 2 倍，在使用新的 FP8 数据类型时是 A100 的 4 倍点选项。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性，将标准张量核心操作的性能提高一倍。
新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法，以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
与 A100 相比，芯片到芯片的 IEEE FP64 和 FP32 处理速率快 3 倍，因为每个 SM 的时钟对时钟性能提高了 2 倍，加上额外的 SM 计数和 H100 的更高时钟。
新的线程块集群功能允许以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。这通过向编程层次结构添加另一个级别来扩展 CUDA 编程模型，现在包括线程、线程块、线程块集群和网格。集群使多个线程块在多个 SM 上同时运行，以同步和协作获取和交换数据。
新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，它可以在全局内存和共享内存之间非常有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
新的 Transformer Engine 结合了软件和定制的 Hopper Tensor Core 技术，专门用于加速 Transformer 模型的训练和推理。Transformer 引擎智能管理并在 FP8 和 16 位计算之间动态选择，自动处理每层 FP8 和 16 位之间的重铸和缩放，以提供高达 9 倍的 AI 训练速度和高达 30倍的人工智能推理加速与上一代 A100 相比的语言模型。
HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU，可提供一流的 3 TB/秒内存带宽。
50 MB L2 缓存架构可缓存大部分模型和数据集以供重复访问，从而减少对 HBM3 的访问。NVIDIA H100 Tensor Core GPU 架构与 A100 的比较。现在首次提供具有 MIG 级可信执行环境 (TEE) 的机密计算功能。最多支持七个单独的 GPU 实例，每个实例都有专用的 NVDEC 和 NVJPG 单元。现在，每个实例都包含自己的一组与 NVIDIA 开发人员工具配合使用的性能监视器。
新的机密计算支持可保护用户数据，防御硬件和软件攻击，并在虚拟化和 MIG 环境中更好地隔离和保护 VM。H100 实现了世界上第一个原生机密计算 GPU，并以全 PCIe 线速使用 CPU 扩展了可信执行环境。
与上一代 NVLink 相比，第四代 NVIDIA NVLink® 在 all-reduce 操作上的带宽增加了 3 倍，一般带宽增加了 50%，多 GPU IO 的总带宽为 900 GB/秒，其带宽是 PCIe Gen 5 的 7 倍。
第三代 NVSwitch 技术包括位于节点内部和外部的交换机，用于连接服务器、集群和数据中心环境中的多个 GPU。节点内的每个 NVSwitch 提供 64 个第四代 NVLink 链路端口，以加速多 GPU 连接。总交换机吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代 NVSwitch 技术还通过多播和 NVIDIA SHARP 网络内减少为集体操作提供硬件加速。
新的 NVLink 交换机系统互连技术和基于第三代 NVSwitch 技术的新的二级 NVLink 交换机引入了地址空间隔离和保护，使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 锥形肥树拓扑连接. 这些连接的节点能够提供 57.6TB/秒的全对全带宽，并且可以提供令人难以置信的 FP8 稀疏 AI 计算的 exaFLOP。
第 5 代 PCIe 提供 128 GB/秒的总带宽（每个方向 64 GB/秒），而第 4 代 PCIe 中的总带宽为 64 GB/秒（每个方向 32 GB/秒）。PCIe Gen 5 使 H100 能够与性能最高的 x86 CPU 和 SmartNIC / DPU（数据处理单元）连接。

因此，按照规格，NVIDIA Hopper GH100 GPU 由一个巨大的 144 SM（流式多处理器）芯片布局组成，总共有 8 个 GPC。这些 GPC 共有 9 个 TPC，每个 TPC 进一步由 2 个 SM 单元组成。这使我们每个 GPC 有 18 个 SM，而在完整的 8 个 GPC 配置中，我们有 144 个。每个 SM 最多由 128 个 FP32 单元组成，这应该给我们总共 18,432 个 CUDA 内核。vpRednc

vpRednc

第 4 代 NVIDIA Hopper GH100 GPU SM（流式多处理器）的一些主要特性包括：vpRednc

与 A100 相比，芯片到芯片的速度提高了 6 倍，包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。
在每个 SM 的基础上，与上一代 16-位浮点选项。
稀疏性特征利用深度学习网络中的细粒度结构化稀疏性，将标准张量核心操作的性能提高一倍。
新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法，以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
与 A100 相比，芯片对芯片的 IEEE FP64 和 FP32 处理速率快 3 倍，因为每个 SM 的时钟对时钟性能提高了 2 倍，加上额外的 SM 计数和 H100 的更高时钟。
256 KB 的组合共享内存和 L1 数据缓存，比 A100 大 1.33 倍。
新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，它可以在全局内存和共享内存之间高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
新的线程块集群功能公开了跨多个 SM 的局部性控制。
分布式共享内存允许跨多个 SM 共享内存块的负载、存储和原子直接 SM 到 SM 通信。

vpRednc

责编：Demi

阅读全文，请先

产业前沿处理器/DSP 制造/工艺/封装缓存/存储技术

上一篇： iPhone 14系列设计图曝光：机身更厚，镜头更凸 下一篇： 东航失事客机MU5735航班一部黑匣子已找到！外部破损严重

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

地球上最快的AI/计算产品，英伟达新一代Hopper GH100 GPU具体有哪些升级？

4nm工艺、800 亿个晶体管、地球上最快的 AI/计算产品

144组SM(流式多处理器单元)有哪些改进？