广告

地球上最快的AI/计算产品,英伟达新一代Hopper GH100 GPU具体有哪些升级?

2022-03-23 15:51:28 综合报道 阅读:
英伟达正式推出了其新一代架构与核心Hopper GH100 GPU,它采用全新的定制版台积电 4nm 工艺, CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能

英伟达正式推出了其新一代架构与核心Hopper GH100 GPU,它采用全新的定制版台积电 4nm 工艺, CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。fJ4ednc

4nm工艺、800 亿个晶体管、地球上最快的 AI/计算产品

基于 Hopper 架构的 Hopper GPU 是在尖端台积电 4nm 工艺节点上生产的工程奇迹。就像之前的数据中心 GPU 一样,Hopper GH100 将针对各种工作负载,包括人工智能 (AI)、机器学习 (ML)、深度神经网络 (DNN) 和各种以 HPC 为重点的计算工作负载。fJ4ednc

完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计18432个。fJ4ednc

显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。fJ4ednc

Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。fJ4ednc

扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0。整卡对外总带宽4.9TB/s。fJ4ednc

fJ4ednc

fJ4ednc

fJ4ednc

144组SM(流式多处理器单元)有哪些改进?

新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能包括:fJ4ednc

  • 与 A100 相比,新的第四代 Tensor Core 的芯片到芯片速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。在每个 SM 基础上,与上一代 16 位浮点数相比,Tensor Core 在等效数据类型上的 MMA(矩阵乘累加)计算速率是 A100 SM 的 2 倍,在使用新的 FP8 数据类型时是 A100 的 4 倍点选项。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。
  • 新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
  • 与 A100 相比,芯片到芯片的 IEEE FP64 和 FP32 处理速率快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上额外的 SM 计数和 H100 的更高时钟。
  • 新的线程块集群功能允许以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。这通过向编程层次结构添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块集群和网格。集群使多个线程块在多个 SM 上同时运行,以同步和协作获取和交换数据。
  • 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
  • 新的 Transformer Engine 结合了软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer 引擎智能管理并在 FP8 和 16 位计算之间动态选择,自动处理每层 FP8 和 16 位之间的重铸和缩放,以提供高达 9 倍的 AI 训练速度和高达 30倍的人工智能推理加速与上一代 A100 相比的语言模型。
  • HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。
  • 50 MB L2 缓存架构可缓存大部分模型和数据集以供重复访问,从而减少对 HBM3 的访问。NVIDIA H100 Tensor Core GPU 架构与 A100 的比较。现在首次提供具有 MIG 级可信执行环境 (TEE) 的机密计算功能。最多支持七个单独的 GPU 实例,每个实例都有专用的 NVDEC 和 NVJPG 单元。现在,每个实例都包含自己的一组与 NVIDIA 开发人员工具配合使用的性能监视器。
  • 新的机密计算支持可保护用户数据,防御硬件和软件攻击,并在虚拟化和 MIG 环境中更好地隔离和保护 VM。H100 实现了世界上第一个原生机密计算 GPU,并以全 PCIe 线速使用 CPU 扩展了可信执行环境。
  • 与上一代 NVLink 相比,第四代 NVIDIA NVLink® 在 all-reduce 操作上的带宽增加了 3 倍,一般带宽增加了 50%,多 GPU IO 的总带宽为 900 GB/秒,其带宽是 PCIe Gen 5 的 7 倍。
  • 第三代 NVSwitch 技术包括位于节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个 GPU。节点内的每个 NVSwitch 提供 64 个第四代 NVLink 链路端口,以加速多 GPU 连接。总交换机吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代 NVSwitch 技术还通过多播和 NVIDIA SHARP 网络内减少为集体操作提供硬件加速。
  • 新的 NVLink 交换机系统互连技术和基于第三代 NVSwitch 技术的新的二级 NVLink 交换机引入了地址空间隔离和保护,使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 锥形肥树拓扑连接. 这些连接的节点能够提供 57.6TB/秒的全对全带宽,并且可以提供令人难以置信的 FP8 稀疏 AI 计算的 exaFLOP。
  • 第 5 代 PCIe 提供 128 GB/秒的总带宽(每个方向 64 GB/秒),而第 4 代 PCIe 中的总带宽为 64 GB/秒(每个方向 32 GB/秒)。PCIe Gen 5 使 H100 能够与性能最高的 x86 CPU 和 SmartNIC / DPU(数据处理单元)连接。

因此,按照规格,NVIDIA Hopper GH100 GPU 由一个巨大的 144 SM(流式多处理器)芯片布局组成,总共有 8 个 GPC。这些 GPC 共有 9 个 TPC,每个 TPC 进一步由 2 个 SM 单元组成。这使我们每个 GPC 有 18 个 SM,而在完整的 8 个 GPC 配置中,我们有 144 个。每个 SM 最多由 128 个 FP32 单元组成,这应该给我们总共 18,432 个 CUDA 内核。fJ4ednc

fJ4ednc

第 4 代 NVIDIA Hopper GH100 GPU SM(流式多处理器)的一些主要特性包括:fJ4ednc

  • 与 A100 相比,芯片到芯片的速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。
  • 在每个 SM 的基础上,与上一代 16-位浮点选项。
  • 稀疏性特征利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。
  • 新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。
  • 与 A100 相比,芯片对芯片的 IEEE FP64 和 FP32 处理速率快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上额外的 SM 计数和 H100 的更高时钟。
  • 256 KB 的组合共享内存和 L1 数据缓存,比 A100 大 1.33 倍。
  • 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。
  • 新的线程块集群功能公开了跨多个 SM 的局部性控制。
  • 分布式共享内存允许跨多个 SM 共享内存块的负载、存储和原子直接 SM 到 SM 通信。

fJ4ednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 数据显示,苹果M2 GPU性能比M1高50% Apple M2的第一个 CPU 和 GPU 基准测试已经发布,数据显示,M2芯片单核和多核跑分比M1芯片有所提升,而GPU方面M2芯片优势更加明显。
  • 蔚来的全栈自研ICC到底有啥不同? 日前,NIO Innovations 蔚来创新技术沙龙活动在线上推出国内首个全栈自研的智能底盘域控制器ICC,引发热议。有网友称没想到新势力造车企业竟然能掏出这么硬核的技术,并称谁说电车操控性能不如油车?但同时不乏发出质疑的网友,并直指蔚来吹牛。
  • 纯视觉自动驾驶更安全?美国交通部发布数据打脸特斯拉 特斯拉的纯视觉自动驾驶到底效果如何?真的如马斯克所说的:“通过摄像头和计算机网络让自动驾驶比人类驾驶更安全”吗?近日美国国家公路交通安全管理局发布了一份新的数据,颇有打脸特斯拉的意味。
  • MIT曝光Apple M1 芯片新硬件漏洞:可被无痕攻破 尽管苹果最近发布的 M1 芯片号称Apple 迄今为止功能最强大的芯片,并具有行业领先的能效,但最近,麻省理工学院计算机科学和人工智能实验室(CSAIL)的科学家发布了一项研究称,他们发现了一种可以绕过 Apple M1 CPU 上的指针验证机制的新型硬件攻击……
  • 东京工业大学要在空中同时传输5G和电力 东京工业大学的研究人员创造了一种同时传输电力和 5G 信号的设备。这款 5G 网络信号收发器采用全无线供电,在大距离和角度下具有高功率转换效率。
  • 一种具有触觉感应能力的仿生弹性机器人皮肤 科学家认为,给社交机器人安装类人体皮肤(或触觉传感器),可以实现安全、直观和接触丰富的人机交互。然而,现有的软触觉传感器存在一些缺点,如结构复杂、可扩展性差、易碎,这限制了它们在机器人全身皮肤上的应用。韩国科学技术高等研究院的一组研究人员与麻省理工学院的一位研究人员和斯图加特大学的另一位研究人员合作,开发了一种具有触觉感应能力的仿生弹性机器人皮肤。
  • 详解比亚迪“海豹”的黑科技dTCS,核心技术还得靠博世? 刚刚过去的粤港澳大湾区车展上,比亚迪展台当属人流量最高的展台之一,其展出的限量版千山翠“汉”,以及海洋系列旗舰车型“海豹”也是大家关注的焦点。相比去年试水八合一电驱总成的海豚,海豹上自然有更多黑科技的东西,比如dTCS和iTAC这两项技术。本文就先聊聊dTCS这项技术。
  • 每秒可对近20亿张图像进行处理分类的“超级芯片” 在测试过程中,该团队制作了一个尺寸为 9.3 mm 2(0.01 in 2)的芯片,并将其用于对一系列类似于字母的手写字符进行分类。在对相关数据集进行训练后,该芯片能够对包含两种字符集的图像进行分类,准确率达到 93.8%,对四种类型的图像进行分类准确率为 89.8%。
  • 高考数学为何能带手机入考场作弊?信号屏蔽器出了什么问 近日,高考数学全国乙卷“疑似出现泄题”相关话题立即一度冲上热搜第一,引发高度关注!这些年,监考手段也在飞速升级:民警全程押送高考试卷,考点指纹认证、人脸识别双保险,安装反作弊设备屏蔽信号等,在如此严密的反作弊手段下,唐某某的手机是怎样带进入考场的呢?考试场地未组装信号屏蔽器吗?手机信号屏蔽器为什么没有具有阻隔数据信号的功效?
  • 欧盟宣布2024年统一USB-C接口标准,或对苹果造成打击 据EDN电子技术设计了解,欧洲议会和理事会谈判人员日前同意了一项拟议的欧盟法律文本,该法律对在欧盟销售的智能手机、平板电脑和笔记本电脑实施标准充电器,这对苹果来说是一个打击。
  • 2022年面向物联网的热门无线网络——第二部分:非蜂窝方 虽然蜂窝技术(主要是4G和5G)可以满足大多数无线应用的连接需求,但考虑到成本、可用性、隐私和功耗等因素,许多组织都在寻找其他可能性。
  • 纸基半导体可用于更安全的一次性电子产品! 事实上,电子废物仍然是一个日益严重的问题,尤其是考虑到制造电子废物所需的大量稀有元素(如铂、金和钯)。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了