广告

地球上最快的AI/计算产品,英伟达新一代Hopper GH100 GPU具体有哪些升级?

2022-03-23 15:51:28 综合报道 阅读:
英伟达正式推出了其新一代架构与核心Hopper GH100 GPU,它采用全新的定制版台积电 4nm 工艺, CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能

英伟达正式推出了其新一代架构与核心Hopper GH100 GPU,它采用全新的定制版台积电 4nm 工艺, CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。bSmednc

4nm工艺、800 亿个晶体管、地球上最快的 AI/计算产品

基于 Hopper 架构的 Hopper GPU 是在尖端台积电 4nm 工艺节点上生产的工程奇迹。就像之前的数据中心 GPU 一样,Hopper GH100 将针对各种工作负载,包括人工智能 (AI)、机器学习 (ML)、深度神经网络 (DNN) 和各种以 HPC 为重点的计算工作负载。bSmednc

完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计18432个。bSmednc

显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。bSmednc

Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。bSmednc

扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0。整卡对外总带宽4.9TB/s。bSmednc

bSmednc

bSmednc

bSmednc

144组SM(流式多处理器单元)有哪些改进?

新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能包括:bSmednc

  • 与 A100 相比,新的第四代 Tensor Core 的芯片到芯片速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。在每个 SM 基础上,与上一代 16 位浮点数相比,Tensor Core 在等效数据类型上的 MMA(矩阵乘累加)计算速率是 A100 SM 的 2 倍,在使用新的 FP8 数据类型时是 A100 的 4 倍点选项。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。
  • 新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
  • 与 A100 相比,芯片到芯片的 IEEE FP64 和 FP32 处理速率快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上额外的 SM 计数和 H100 的更高时钟。
  • 新的线程块集群功能允许以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。这通过向编程层次结构添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块集群和网格。集群使多个线程块在多个 SM 上同时运行,以同步和协作获取和交换数据。
  • 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
  • 新的 Transformer Engine 结合了软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer 引擎智能管理并在 FP8 和 16 位计算之间动态选择,自动处理每层 FP8 和 16 位之间的重铸和缩放,以提供高达 9 倍的 AI 训练速度和高达 30倍的人工智能推理加速与上一代 A100 相比的语言模型。
  • HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。
  • 50 MB L2 缓存架构可缓存大部分模型和数据集以供重复访问,从而减少对 HBM3 的访问。NVIDIA H100 Tensor Core GPU 架构与 A100 的比较。现在首次提供具有 MIG 级可信执行环境 (TEE) 的机密计算功能。最多支持七个单独的 GPU 实例,每个实例都有专用的 NVDEC 和 NVJPG 单元。现在,每个实例都包含自己的一组与 NVIDIA 开发人员工具配合使用的性能监视器。
  • 新的机密计算支持可保护用户数据,防御硬件和软件攻击,并在虚拟化和 MIG 环境中更好地隔离和保护 VM。H100 实现了世界上第一个原生机密计算 GPU,并以全 PCIe 线速使用 CPU 扩展了可信执行环境。
  • 与上一代 NVLink 相比,第四代 NVIDIA NVLink® 在 all-reduce 操作上的带宽增加了 3 倍,一般带宽增加了 50%,多 GPU IO 的总带宽为 900 GB/秒,其带宽是 PCIe Gen 5 的 7 倍。
  • 第三代 NVSwitch 技术包括位于节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个 GPU。节点内的每个 NVSwitch 提供 64 个第四代 NVLink 链路端口,以加速多 GPU 连接。总交换机吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代 NVSwitch 技术还通过多播和 NVIDIA SHARP 网络内减少为集体操作提供硬件加速。
  • 新的 NVLink 交换机系统互连技术和基于第三代 NVSwitch 技术的新的二级 NVLink 交换机引入了地址空间隔离和保护,使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 锥形肥树拓扑连接. 这些连接的节点能够提供 57.6TB/秒的全对全带宽,并且可以提供令人难以置信的 FP8 稀疏 AI 计算的 exaFLOP。
  • 第 5 代 PCIe 提供 128 GB/秒的总带宽(每个方向 64 GB/秒),而第 4 代 PCIe 中的总带宽为 64 GB/秒(每个方向 32 GB/秒)。PCIe Gen 5 使 H100 能够与性能最高的 x86 CPU 和 SmartNIC / DPU(数据处理单元)连接。

因此,按照规格,NVIDIA Hopper GH100 GPU 由一个巨大的 144 SM(流式多处理器)芯片布局组成,总共有 8 个 GPC。这些 GPC 共有 9 个 TPC,每个 TPC 进一步由 2 个 SM 单元组成。这使我们每个 GPC 有 18 个 SM,而在完整的 8 个 GPC 配置中,我们有 144 个。每个 SM 最多由 128 个 FP32 单元组成,这应该给我们总共 18,432 个 CUDA 内核。bSmednc

bSmednc

第 4 代 NVIDIA Hopper GH100 GPU SM(流式多处理器)的一些主要特性包括:bSmednc

  • 与 A100 相比,芯片到芯片的速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。
  • 在每个 SM 的基础上,与上一代 16-位浮点选项。
  • 稀疏性特征利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。
  • 新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
  • 与 A100 相比,芯片对芯片的 IEEE FP64 和 FP32 处理速率快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上额外的 SM 计数和 H100 的更高时钟。
  • 256 KB 的组合共享内存和 L1 数据缓存,比 A100 大 1.33 倍。
  • 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
  • 新的线程块集群功能公开了跨多个 SM 的局部性控制。
  • 分布式共享内存允许跨多个 SM 共享内存块的负载、存储和原子直接 SM 到 SM 通信。

bSmednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 苹果将终止自研5G基带芯片,仍要继续依赖高通 据报道,苹果将停止内部 5G 调制解调器的开发,并可能继续依赖高通。根据一份新报告,苹果似乎远未实现其目标,因为它已决定停止开发内部 5G 调制解调器。这些报道现阶段尚未得到证实,但多个消息来源报道了类似的情况。
  • 爱立信推出基于“Intel 4”工艺的处理器,甚至领先于英 爱立信在其新闻稿中指出,与上一代相比,新的 RAN 处理器 6672 和无线电处理器 6372 的容量增加了四倍,效率提高了一倍。他们声称,Intel 4上的新处理器的功耗比行业基准低30%到60%。
  • 首款背接触微米光伏电池问世,阴影效应降低95% 加拿大渥太华大学领导的国际科研团队,研制出了全球首款背接触微米光伏电池,相较于普通的光伏电池,这种背接触电池正面无栅线,正负极全部挪到了电池背面,能让太阳能电池板吸收更多太阳光···
  • B站UP主买了一颗国产卫星:微波炉大小,在轨360度拍摄宇宙 B站UP主“影视飓风”11月28日发布了最新一期视频《我们买了一颗国产卫星》。该视频播放量已成为全站排行榜榜首。视频中介绍,影视飓风和Insta360公司共同出资定制了这颗微波炉大小的卫星,装了一枚Insta360全景相机,可拍到卫星和地球的大合影。
  • 如何正确使用以确保舌簧继电器的可靠性? 当在指定的操作参数范围内使用时,舌簧继电器可以执行数百亿次操作,而性能变化很小或没有变化。例如,每天每小时运行 100 次(24 小时周期),大约需要 1141 年才能达到 10 亿次运行的里程碑。增加操作频率不应引起关注,因为要达到每分钟 100 次操作 19 年后才能达到相同的里程碑,而每秒 100 次操作则需要近 4 个月。
  • 龙芯3A6000问世,国产自研CPU最新里程碑 龙芯3A6000采用的是我国自主设计的指令系统和架构,无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,标志着我国自主研发的CPU在自主可控程度和产品性能方面达到新高度,性能达到国际主流产品水平···
  • 苹果Vision Pro即将量产,华为也将推出麒麟芯竞品? 华为其实很早也开始了在XR领域的布局,华为的AR Engine早在汽车、手机等设备上进行了广泛的应用,截至今年十月,AR Engine的安装量已经达到了21亿次,接入的应用数量超过了4100款···
  • 阿里达摩院裁撤量子实验室,将所有仪器设备都捐给浙大 阿里达摩院确认裁撤量子实验室,实验室连带仪器设备,统统捐给浙大;对于相关资源如何开放的具体细则,以及实验室人员是否流动到浙大等问题,目前达摩院方面暂无官方回应。但据知情人士透露,浙大会接受一部分实验室相关人员,核心还是遵照“双向选择,公开竞聘”的原则和流程。
  • 台积电前研发副总裁:华为可在现有DUV设备上制造5纳米芯 被誉为"芯片大师"的台积电前研发副总裁林本坚表示,华为在现有的DUV设备上制造5纳米芯片组是可行的。
  • 超过现有材料四倍,新型碳材料超级电容器创下储能纪录 近日,美国橡树岭国家实验室(ORNL)的研究人员在机器学习的指导下,设计了一种创纪录的碳基超级电容材料,它储存的能量是当前最佳商业材料的4倍···
  • 6分钟充电80%,华中科技大新研究再次突破锂离子电池瓶颈 中国华中科技大学的研究人员最近提出了一种开发含有石墨基材料的快速充电锂电池的新策略。他们提出的电池设计在《自然能源》杂志上发表的一篇论文中概述,被发现实现10分钟和6分钟可分别充满91.2%和80%的电量,同时也使它们即使在充电数千次后也能保留大部分容量。
  • 模拟人工智能能否通过混合数字计算东山再起? 本文将探讨的是模拟计算这一用例的进展程度,或者其他潜在的应用以及在复兴模拟计算上的努力···
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了