广告

ChatGPT背后:微软耗资数亿美元,用数万英伟达A100打造的超级计算机

2023-03-16 07:13:36 夏菲 阅读:
EDN曾报道OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。近日,这一分析得到了微软方面的验证。

在EDN电子技术设计此前的报道中提到,TrendForce估计OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行b2Hednc

近日,这一分析得到了微软方面的验证。b2Hednc

周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。b2Hednc

b2Hednc

b2Hednc

微软指出,建造大型超级计算机能够允许 OpenAI 和其他依赖 Azure 的公司训练更大、更复杂的AI模型,并加速推出生成式AI应用。负责云计算和AI业务的微软副总裁Scott Guthrie表示,该公司在这个项目上花费了数亿美元。虽然这对于微软来说只是九牛一毛,但这无疑表明该公司对人工智能领域的热情,并愿意在该领域投入更多的资金。b2Hednc

该超级计算机使用数千个 NVIDIA A100 GPU 和 InfiniBand 网络来训练 ChatGPT

在第一篇博文中,微软揭示了 OpenAI 的 ChatGPT 背后的 NVIDIA 超级计算技术的强大功能。b2Hednc

微软推出了 ND H100 v5 虚拟机,它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与我们上一代 ND A100 v4 VM 相比,客户将看到人工智能模型的性能显着提高,这些创新技术包括:b2Hednc

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联
  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络
  • NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
  • 第四代英特尔至强可扩展处理器
  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽
  • 16通道4800MHz DDR5 DIMM

Azure HPC+AI 首席产品经理 Matt Vegas表示,对于 Microsoft 和 Inflection、NVIDIA 和 OpenAI 等致力于大规模部署的组织,此产品将启用一类新的大规模 AI 模型。b2Hednc

“NVIDIA 和 Microsoft Azure 通过多代产品合作,为全球企业带来领先的 AI 创新。“NVIDIA 超大规模和高性能计算副总裁 Ian Buck 表示,NDv5 H100 虚拟机将有助于推动生成人工智能应用程序和服务的新时代。b2Hednc

NVIDIA 表示,ND H100 v5 现已提供预览版,并将成为 Azure 产品组合中的标准产品,让任何人都能在云中释放 AI at Scale 的潜力。b2Hednc

b2Hednc

采用 NVIDIA 的新 H100 GPU 和 Quantum-2 InfiniBand 网络来加速生成 AI

在第二篇博文中,微软宣布推出集成最新 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络的新虚拟机。b2Hednc

虚拟机是 Microsoft 向客户提供基础设施的方式,可以根据任何 AI 任务的规模进行扩展。Azure 的新 ND H100 v5 虚拟机为 AI 开发人员提供了卓越的性能和跨数千个 GPU 的扩展。b2Hednc

该基础设施包括数以千计的 NVIDIA AI 优化 GPU,这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起,用于高性能计算。b2Hednc

"微软Azure高性能计算和人工智能产品负责人Nidhi Chappell说:"肯定有一个强大的推动力,让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你必须能够长期可靠地运行它。b2Hednc

数亿投资,上万颗芯片支撑的算力

2019 年,当微软向 ChatGPT 开发商 OpenAI 投资 10 亿美元时,它同意为这家人工智能研究创业公司打造一台庞大的尖端超级计算机。唯一的问题是:微软没有 OpenAI 需要的那样的东西,也无法完全确定它能在 Azure 云服务中构建这么大的东西而不会破坏它。b2Hednc

当时,OpenAI 正试图训练一套规模越来越大的人工智能程序,也就是“模型”,后者正在吸收越来越大的数据量,学习越来越多的参数。这些参数是人工智能系统通过训练和再训练得出的变量。这意味着,OpenAI 需要在很长一段时间内使用强大的云计算服务。b2Hednc

“我们从研究中学到的一件事是,模型越大,拥有的数据越多,训练时间越长,模型的准确性就越好,”微软 Azure high 产品负责人 Nidhi Chappell 说。“因此,肯定有强烈的推动力让更大的模型接受更长时间的训练,这意味着你不仅需要拥有最大的基础设施,还必须能够长时间可靠地运行它。 ”b2Hednc

为了应对这一挑战,微软必须想方设法将数以万计的 Nvidia A100 图形芯片(用于训练 AI 模型的主力)串在一起,并改变其在机架上放置服务器以防止断电的方式。b2Hednc

负责云计算和人工智能的微软执行副总裁斯科特·格思里 (Scott Guthrie) 表示该项目成本“可能大于”数亿美元。b2Hednc

“我们构建了一个可以在非常大的范围内运行并且可靠的系统架构。这就是导致 ChatGPT 成为可能的原因,”Microsoft Azure AI 基础设施总经理 Nidhi Chappell 说。“这是从中得出的一个模型。还会有很多很多其他人。”b2Hednc

ChatGPT 靠的是超级计算机训练

OpenAI 总裁兼联合创始人 Greg Brockman 表示:“与 Azure 共同设计超级计算机对于扩展我们苛刻的 AI 培训需求、使我们在 ChatGPT 等系统上的研究和调整工作成为可能至关重要。”b2Hednc

为了训练一个大型语言模型,计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce),GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段,该阶段必须在 GPU 开始下一个计算块之前完成。b2Hednc

“因为这些工作涉及数千个 GPU,所以你需要确保拥有可靠的基础设施,然后你需要在后端拥有网络,这样你才能更快地沟通,并能够连续几周这样做,”Chappell 说。“这不是你只需购买一大堆 GPU,将它们连接在一起就可以开始协同工作的东西。为了获得最佳性能,需要进行大量系统级优化,这需要几代人积累的丰富经验。”b2Hednc

系统级优化包括能够有效利用 GPU 和网络设备的软件。在过去几年中,Microsoft 开发的软件技术提高了使用数万亿参数训练模型的能力,同时降低了在生产中训练和服务它们的资源需求和时间。b2Hednc

微软及其合作伙伴也一直在逐步增加 GPU 集群的容量,发展 InfiniBand 网络。b2Hednc

微软 AI 平台公司副总裁 Eric Boyd 表示,如今,这种针对大型语言模型训练优化的 Azure 基础设施可通过云中的 Azure AI 超级计算功能获得。该资源提供了 GPU、网络硬件和虚拟化软件的组合,以提供为下一波 AI 创新提供动力所需的计算。b2Hednc

据称,针对 AI 优化的基础架构现在已成为整个 Azure 云计算结构的标准配置,其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源。b2Hednc

微软云和人工智能集团执行副总裁 Scott Guthrie 表示,构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。b2Hednc

参考链接:b2Hednc

Azure previews powerful and scalable virtual machine series to accelerate generative AIb2Hednc

How Microsoft’s bet on Azure unlocked an AI revolutionb2Hednc

责编:Demi
夏菲
电子技术设计(EDN China)助理产业分析师
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 用水泥和炭黑制造储能超级电容器 一项新的研究表明,人类最普遍的两种历史材料,水泥和炭黑(类似于非常细的木炭),可能会成为新型低成本储能系统的基础。该技术可以在可再生能源供应出现波动的情况下使能源网络保持稳定,从而促进太阳能、风能和潮汐能等可再生能源的使用。
  • 一种用于电路板回收的新基材:遇水能溶 英国的Jiva Materials公司开发了一种新型的PCB基材Soluboard,这种基材是由天然纤维包裹在一种无卤的聚合物中制成的,与行业内经常使用的FR-4基材不同,这种材料只要在90摄氏度左右的热水中浸泡30分钟,就可以分层溶解···
  • 美国公司声称发现室温超导材料,被授予了高于室温的第二 位于美国佛罗伦萨州的Taj Quantum的公司在社交媒体宣布,被授予了高于室温的第二类超导体专利。据称,这种独特的 II 型超导体(专利号:17249094)可在较宽的温度范围内工作,包括远高于室温的温度,从约 -100° F (-73° C) 到约 302° F (150° C) - 这是一种特性这在超导体世界中并不常见。
  • 俄罗斯“贝加尔湖”基准测试对比英特尔和华为芯片,惨败 俄罗斯服务器处理器 Baikal-S 的开发人员将其性能与美国和中国的同类芯片进行了比较。涉及六个流行指标。
  • 麻省理工发现新型量子磁铁释放电子潜力 研究人员发现了如何控制异常霍尔效应和贝里曲率来制造用于计算机、机器人和传感器的柔性量子磁体。
  • 电池能用三十年?美国Ener Venue称推出革命性电池技术 三元锂离子电池的理论寿命约为800次循环,磷酸铁锂约为2000次,而钛酸锂据说可以达到1万次循环,也就是说常规普通人使用的锂离子电池每天完全充放电三次,最多也就能用上几年的时间。虽然相较于铅酸电池200-300次的循环寿命来说,这已经是很大幅度的提升了,但现在有一家公司宣称他们的电池可以充放电30000次,每天充放电三次,能用30年。
  • 测试中比友商温度低14度,一加天工散热系统怎么做到的? 7月27日,一加在2023年ChinaJoy上发布了全球首创的散热技术,即航天级三维立体散热系统“天工散热系统”,这是一加的又一次新的尝试,让我们一起来了解一下。
  • 万物电气化:探索绿色未来之路 在本文中,我们将重点介绍美国年度脱碳展望(ADP)2022报告中的一些重要发现。本报告着眼于实现净零经济的各种情景。我们在本文中重点关注的方法称为“中心情景”,它遵循到2050年实现净零排放的时间表。
  • 韩国造世界首个室温超导体,闹剧还是新的未来? 7月22日,韩国的一个科研团队在预印本网站arXiv平台上上传了两篇论文,声称发现了世界上首个常压室温超导体,这种材料是一种改性铅磷灰石名为LK-99,超导临界温度在127摄氏度,即400K以上,而且在常压下就具备超导性。
  • 下一个医疗前沿:网联可穿戴设备 医疗和消费级可穿戴设备将继续增强连接性和电池寿命,以实现对血压、体温和身体水分等多种生物标志物的实时和非侵入性监测。
  • 瑞能半导体全球首座模块工厂在上海湾区高新区正式投入 瑞能微恩半导体暨瑞能金山模块厂开业典礼在上海湾区高新区隆重举行,标志着瑞能全球首座模块工厂正式投入运营,将主要生产应用于消费、通讯、新能源以及汽车相关的各类型功率模块产品,串联客户和生态圈,积极推动行业高质量发展。
  • TI无线MCU创新方案,助力用户加速拥抱物联网 7月21日,由AspenCore主办的“2023全球MCU生态发展大会”在深圳罗湖君悦酒店隆重举行,特邀请到MCU领域的领军企业之一德州仪器(TI)参加了“无线MCU分论坛”,论坛上,TI无线产品工程师魏天华分享了主题为“创新型无线解决方案,助力不断发展的互联世界”的演讲,为现场观众带来了TI最新的无线MCU系列,以及对于这一市场的深刻思考。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了