广告

ChatGPT背后:微软耗资数亿美元,用数万英伟达A100打造的超级计算机

2023-03-16 07:13:36 夏菲 阅读:
EDN曾报道OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。近日,这一分析得到了微软方面的验证。

在EDN电子技术设计此前的报道中提到,TrendForce估计OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行GfPednc

近日,这一分析得到了微软方面的验证。GfPednc

周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。GfPednc

GfPednc

GfPednc

微软指出,建造大型超级计算机能够允许 OpenAI 和其他依赖 Azure 的公司训练更大、更复杂的AI模型,并加速推出生成式AI应用。负责云计算和AI业务的微软副总裁Scott Guthrie表示,该公司在这个项目上花费了数亿美元。虽然这对于微软来说只是九牛一毛,但这无疑表明该公司对人工智能领域的热情,并愿意在该领域投入更多的资金。GfPednc

该超级计算机使用数千个 NVIDIA A100 GPU 和 InfiniBand 网络来训练 ChatGPT

在第一篇博文中,微软揭示了 OpenAI 的 ChatGPT 背后的 NVIDIA 超级计算技术的强大功能。GfPednc

微软推出了 ND H100 v5 虚拟机,它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与我们上一代 ND A100 v4 VM 相比,客户将看到人工智能模型的性能显着提高,这些创新技术包括:GfPednc

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联
  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络
  • NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
  • 第四代英特尔至强可扩展处理器
  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽
  • 16通道4800MHz DDR5 DIMM

Azure HPC+AI 首席产品经理 Matt Vegas表示,对于 Microsoft 和 Inflection、NVIDIA 和 OpenAI 等致力于大规模部署的组织,此产品将启用一类新的大规模 AI 模型。GfPednc

“NVIDIA 和 Microsoft Azure 通过多代产品合作,为全球企业带来领先的 AI 创新。“NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示,NDv5 H100 虚拟机将有助于推动生成人工智能应用程序和服务的新时代。GfPednc

NVIDIA 表示,ND H100 v5 现已提供预览版,并将成为 Azure 产品组合中的标准产品,让任何人都能在云中释放 AI at Scale 的潜力。GfPednc

GfPednc

采用 NVIDIA 的新 H100 GPU 和 Quantum-2 InfiniBand 网络来加速生成 AI

在第二篇博文中,微软宣布推出集成最新 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络的新虚拟机。GfPednc

虚拟机是 Microsoft 向客户提供基础设施的方式,可以根据任何 AI 任务的规模进行扩展。Azure 的新 ND H100 v5 虚拟机为 AI 开发人员提供了卓越的性能和跨数千个 GPU 的扩展。GfPednc

该基础设施包括数以千计的 NVIDIA AI 优化 GPU,这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起,用于高性能计算。GfPednc

"微软Azure高性能计算和人工智能产品负责人Nidhi Chappell说:"肯定有一个强大的推动力,让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你必须能够长期可靠地运行它。GfPednc

数亿投资,上万颗芯片支撑的算力

2019 年,当微软向 ChatGPT 开发商 OpenAI 投资 10 亿美元时,它同意为这家人工智能研究创业公司打造一台庞大的尖端超级计算机。唯一的问题是:微软没有 OpenAI 需要的那样的东西,也无法完全确定它能在 Azure 云服务中构建这么大的东西而不会破坏它。GfPednc

当时,OpenAI 正试图训练一套规模越来越大的人工智能程序,也就是“模型”,后者正在吸收越来越大的数据量,学习越来越多的参数。这些参数是人工智能系统通过训练和再训练得出的变量。这意味着,OpenAI 需要在很长一段时间内使用强大的云计算服务。GfPednc

“我们从研究中学到的一件事是,模型越大,拥有的数据越多,训练时间越长,模型的准确性就越好,”微软 Azure high 产品负责人 Nidhi Chappell 说。“因此,肯定有强烈的推动力让更大的模型接受更长时间的训练,这意味着你不仅需要拥有最大的基础设施,还必须能够长时间可靠地运行它。 ”GfPednc

为了应对这一挑战,微软必须想方设法将数以万计的 Nvidia A100 图形芯片(用于训练 AI 模型的主力)串在一起,并改变其在机架上放置服务器以防止断电的方式。GfPednc

负责云计算和人工智能的微软执行副总裁斯科特·格思里 (Scott Guthrie) 表示该项目成本“可能大于”数亿美元。GfPednc

“我们构建了一个可以在非常大的范围内运行并且可靠的系统架构。这就是导致 ChatGPT 成为可能的原因,”Microsoft Azure AI 基础设施总经理 Nidhi Chappell 说。“这是从中得出的一个模型。还会有很多很多其他人。”GfPednc

ChatGPT 靠的是超级计算机训练

OpenAI 总裁兼联合创始人 Greg Brockman 表示:“与 Azure 共同设计超级计算机对于扩展我们苛刻的 AI 培训需求、使我们在 ChatGPT 等系统上的研究和调整工作成为可能至关重要。”GfPednc

为了训练一个大型语言模型,计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce),GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段,该阶段必须在 GPU 开始下一个计算块之前完成。GfPednc

“因为这些工作涉及数千个 GPU,所以你需要确保拥有可靠的基础设施,然后你需要在后端拥有网络,这样你才能更快地沟通,并能够连续几周这样做,”Chappell 说。“这不是你只需购买一大堆 GPU,将它们连接在一起就可以开始协同工作的东西。为了获得最佳性能,需要进行大量系统级优化,这需要几代人积累的丰富经验。”GfPednc

系统级优化包括能够有效利用 GPU 和网络设备的软件。在过去几年中,Microsoft 开发的软件技术提高了使用数万亿参数训练模型的能力,同时降低了在生产中训练和服务它们的资源需求和时间。GfPednc

微软及其合作伙伴也一直在逐步增加 GPU 集群的容量,发展 InfiniBand 网络。GfPednc

微软 AI 平台公司副总裁 Eric Boyd 表示,如今,这种针对大型语言模型训练优化的 Azure 基础设施可通过云中的 Azure AI 超级计算功能获得。该资源提供了 GPU、网络硬件和虚拟化软件的组合,以提供为下一波 AI 创新提供动力所需的计算。GfPednc

据称,针对 AI 优化的基础架构现在已成为整个 Azure 云计算结构的标准配置,其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源。GfPednc

微软云和人工智能集团执行副总裁 Scott Guthrie 表示,构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。GfPednc

参考链接:GfPednc

Azure previews powerful and scalable virtual machine series to accelerate generative AIGfPednc

How Microsoft’s bet on Azure unlocked an AI revolutionGfPednc

责编:Demi
夏菲
电子技术设计(EDN China)助理产业分析师
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 具有双频控制的E类谐振升压DC/DC转换器 Power Electronics News分析了一个以E类双频信号驱动运行的DC/DC升压转换器。
  • 国产SSD主控芯片发布,让存算一体与可信计算兼得 忆芯科技高端企业级芯片及方案发布会在合肥举行。“集成电路是整个可信根的根。没有集成电路是不行的,尽管软件定义,但是一定要软硬结合,以硬件为根。”沈昌祥院士认为。
  • A17 Bionic最新基准测试曝光,多核性能比早期结果慢11%? 据称网上出现了A17 Bionic的新性能数据,显示它在多核工作负载中比之前曝光的数据慢了11%,所谓的Geekbench 6分数是由Revengus发现的,他在韩国网站DCInside上偶然发现了新的A17 Bionic数字。通过下面给出的图片,苹果的第一个3纳米SoC在单核和多核结果中获得了3,019分和7,860分,值得一提的是,此前曝光的基准测试数据单核和多核分数分别为3,986和8,841。
  • 一种高性能半导体材料可以帮助减少热量排放 研究团队创造了一种氧化物陶瓷材料,解决了长期困扰热电发电机的效率问题。这些设备可以从热能中发电,包括发电厂的热能排放,这导致了全球变暖。
  • 三星也玩“P”月亮,“空间变焦”技术被指造假 很多网友一定已经看过三星 Galaxy S23 Ultra 的视频广告了,一位女士拍摄了一张月球的详细照片——陨石坑等等,她对面的邻居握着望远镜问道:“Can you send me that?”。而这段视频,也被一位网友指认为三星“空间变焦”(Space Zoom)登月照片造假的证据。
  • AC/DC电源尺寸在继续缩小 无论AC/DC电源是开放式还是封闭式,甚至是台式适配器,用于医疗应用和工业应用的最新电源设备都有一些共同点:它们提供了更小的解决方案尺寸并实现了更高的功率密度,同时提供更高的效率。
  • 从“吸血鬼设备”中节省家庭用电 家用电器浪费了大约20%的电力。这些能源吸血鬼有可能通过减少不断增长的需求来节省资金和能源。
  • 激光显示的四大核心器件国产化进程:自研芯片技术亟待提 激光显示的四大核心器件国产化程度从高到低依次为抗光幕布、激光光源、镜头、光成像芯片。技术突破下,预计未来3-5年内激光产业链国产化程度从45-55%提高至75%-80%,实现从技术领先到产业领先的跨越。
  • 中国科学家刷新纪录,达成百兆比特率的实时量子密钥分发 近日,中国科学技术大学潘建伟、徐飞虎等与上海微系统所、济南量子技术研究院、哈尔滨工业大学等单位的科研人员合作,通过发展高保真度集成光子学量子态调控、高计数率超导单光子探测等关键技术,首次在国际上实现百兆比特率的实时量子密钥分发,实验结果将此前的成码率纪录提升一个数量级。
  • PUF技术进展:可省去ID注册阶段的新PUF IP问世 物理不可克隆功能(physically unclonable function, PUF)技术运用了简单、经济高效且灵活、无需存储密钥的方式,建立信任根(Root of Trust)。然而,当PUF应用于替芯片产生特定密钥,还要确保不同芯片间ID的低重复率仍具有挑战性... 
  • 磁子电子学新突破,可用于芯片和雷达的光诱导磁子态 日前,据上海科技大学官网消息,上海科技大学物质科学与技术学院陆卫教授课题组在光子-磁子相互作用及强耦合调控方向取得重要进展。研究团队首次在铁磁绝缘体单晶中发现了一种全新的磁共振,命名为光诱导磁子态(pump-induced magnon mode, PIM)。
  • 原子钟在数据中心的作用:原子从对数据造成不利影响到带 利用原子钟授时现已成为数据中心不可或缺的组成部分。目前,通过全球定位系统(GPS)和其他全球导航卫星系统(GNSS)网络传输的原子钟时间已使全球各地的服务器实现了同步,并且部署在各个数据中心的原子钟可在传输时间不可用时保持同步。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了