广告

美光 DDR5 内存配合第四代 AMD EPYC 处理器,提升高性能计算工作负载

2022-12-21 14:53:53 Krishna Yalamanchi、Sudharshan Vazhkudai 阅读:
美光 DDR5 内存与采用了Zen 4 服务器架构的第四代AMD EPYC 处理器强强联合,使服务器 CPU 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。美光DDR5 内存可帮助企业从本地和云端数据中更快获取洞察。

美光与AMD联手为客户及数据中心平台提供一流的用户体验。双方在奥斯汀建立联合服务器实验室,以减少服务器内存验证时间,在产品验证和发布期间共同进行工作负载测试。目前美光适用于数据中心的 DDR5 内存和第四代 AMD EPYCTMTM (霄龙)处理器均已出货,我们对其进行了一些常见的高性能计算(HPC)工作负载基准测试。937ednc

长期以来,超级计算机承担着高性能计算工作负载。此类大规模的数据密集型工作负载需要运行TB 级的数据量以进行数百万个并行操作,以解决人类世界的难题,如天气和气候预测;地震建模;化学、物理和生物分析等。随着计算机架构的进步,此类工作负载往往托管在超大型“可横向扩展”的高性能服务器集群中。这些服务器集群需要集合最强大的算力、架构、内存和存储基础设施,以满足关键工作负载对可扩展性、低延迟和高性能的需求。然而随着服务器 CPU 的性能和吞吐量不断增长,DDR4 无法提供足够的内存带宽,来满足不断增长的高性能内核。937ednc

937ednc

为缓解这一瓶颈,美光 DDR5 内存与采用了Zen 4 服务器架构的第四代AMD EPYC 处理器强强联合,使服务器 CPU 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。美光DDR5 内存可帮助企业从本地和云端数据中更快获取洞察。我们对最新的 AMD Zen 4 96 核CPU和美光DDR5进行了行业内高性能计算工作负载基准测试,所有结果均显示性能提升了两倍。937ednc

美光 DDR5 搭配第四代 AMD EPYC 处理器,在STREAM 测试中实现内存带宽翻倍STREAM1 是常见的基准测试工具,用于测量高性能计算机的内存带宽,可捕获高性能计算系统的峰值内存带宽。该工作负载使用的软件堆栈937ednc

Alma 9 Linux kernel 5.14937ednc

STREAM.f,2021 年 11 月 29 日发布版本937ednc

937ednc

测试设置937ednc

DDR4 系统搭配第三代 64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB937ednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB937ednc

测试结果937ednc

DDR5 系统每插槽内存带宽翻倍,达到 378 GB/s937ednc

该结果意味着客户能运行更大规模的人工智能/机器学习 (AI/ML)项目,或利用 DDR5 增加的内存带宽进行更多高性能计算。937ednc

937ednc

美光 DDR5 助力天气研究和预报 WRF4 速度提升2此次测试使用的高性能计算工作负载代码针对天气和气候。WRF模型在一些支持高性能浮点处理、高内存带宽、低延迟网络等传统高性能计算架构中表现良好,测试对象为横向分辨率为 2.5 公里的美国大陆地区 (CONUS)。该工作负载使用的软件堆栈937ednc

Alma 9 Linux kernel 5.14 937ednc

WRF 2.3.5 & 4.3.3 937ednc

Open MPI v4.1.1937ednc

测试设置937ednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB937ednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB937ednc

测试结果937ednc

美光 DDR5 搭配第四代 AMD EPYC 处理器,可实现 1.3567 时间步/秒 VS DDR4 系统的2.8533 时间步/秒937ednc

速度更快意味着可使用更大的数据库或运行更多模型以进行天气预测,进而改善预测的准确度。937ednc

美光 DDR5,助力OpenFOAM5 速度提升2OpenFOAM 是一种计算流体动力学(CFD)的开源高性能计算工作负载,广泛应用于多个行业,有助于缩短开发时间并降低成本。从消费类产品设计到航空航天设计,OpenFOAM能够模拟不同应用中的物理互动,包括摩托车风挡湍流。在该模拟中,OpenFOAM 能够计算摩托车和骑手周围的稳定气流。OpenFOAM 能够根据用户指定的进程数进行负载均衡计算,以此将网格分解成多个部分并分配给不同的进程求解。求解完成后,再将网格和解重新组合为单个域。937ednc

该工作负载使用的软件堆栈937ednc

OpenFOAM CFD 软件(版本8),其中摩托车网格尺寸为:600 x 240 x 240937ednc

Alma 9 Linux kernel 5.14 937ednc

Open MPI v4.1.1937ednc

测试设置937ednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB937ednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB937ednc

测试结果937ednc

测试结果表明美光DDR5 产品组合将OpenFOAM 性能提高了 2.4 倍。OpenFOAM 为五大高性能计算软件平台之一,拥有大型开源社区。该软件广泛应用于大学和研发中心,可利用高带宽内存和拥有密集内核的高性能CPU,实现高度的并行操作。美光 DDR5 ,助力分子动力学6 速度提升2CP2K 是一款开源量子化学工具,适用于许多应用,包括固态生物系统模拟。CP2K 能够为不同的建模方法提供通用的框架。此次测试对象为水(H2O)的密度泛函理论(DFT),模拟盒子中共包含 6,144 个原子(2,048 个水分子)。该工作负载使用的软件堆栈937ednc

H2O-DFT-LS.NREP4 及 H2O-DFT-LS937ednc

Alma 9 Linux kernel 5.14937ednc

测试设置937ednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB937ednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB937ednc

测试结果测试结果表明美光DDR5 产品组合将分子动力学性能提高了2.1 倍。随着内核数和内存带宽增加,此类工作负载的性能也显著提升。总结目前我们只针对少量高性能计算工作负载进行了测试,因此以上只是我们的初步成果。将高性能高带宽内存与最新的服务器处理器(如第四代 AMD EPYC 处理器)相结合,可为高性能计算客户创造新的可能。我们期待更多企业数据中心和云服务商,能够在新平台上应用美光 DDR5 产品,解锁更高的性能与能效。937ednc

________________________937ednc

我们在 STREAM 基准测试中配置了 25 亿个向量的STREAM Benchmark——运行在一台单 AMD CPU 系统上2 AMD DDR4 系统为一台 64  AMD EPYC 7763 处理器, DDR4-3200 MHz RDIMM 内存槽插满,共 64GB3 AMD DDR5 系统为一台 96  AMD EPYC 9654 处理器, DDR5-4800 MHz RDIMM 内存槽插满,共 64GB 横向分辨率为 12.5 公里CONUS  WRF  DDR4 系统上的运行时间为 929 秒,在 DDR5 系统上的运行时间为 287 秒(均包括存储器的输入/输出时间)。该测试中 WRF 配置为 2.5 公里 CONUS,测试结果为 1.3567 时间步秒, 相比之下DDR4 的运行时间为2.8533时间步/秒。5 针对 OpenFOAM,我们运行了三种变体:5a1004040 runtimesDDR4 系统运行时间为 1,144 秒,DDR5 系统运行时间为 478 5b1084646 runtimesDDR4 系统运行时间为 1,633 秒,DDR5 系统运行时间为 698 5c1305252 runtimesDDR4 系统运行时间为 2,522秒,DDR5 系统运行时间为 1,091 6 分子动力学工作负载在 DDR4 系统上的运行时间为 2,519 秒,在 DDR5 系统上的运行时间为 1,242 937ednc

作者:937ednc

Krishna Yalamanchi937ednc

Krishna 担任美光生态系统高级开发经理,专注于研发 DDR5 和 CXL 解决方案。他曾在英特尔 IT 部门任职,领导 SAP HANA 的迁移工作,通过与SI、OEM和云服务提供商共同搭建的合作伙伴生态系统,推出了用于SAP工作负载的第三代与第四代 Intel Xeon 处理器。937ednc

Sudharshan Vazhkudai937ednc

Sudharshan S. Vazhkudai 博士担任美光系统架构和工作负载分析总监。他领导一支位于奥斯汀和印度海得拉巴的团队,致力于研究内存和存储(DDR、CXL、HBM 和 NVME)产品中层次结构的可组合性,并优化与数据中心工作负载相关的系统架构。937ednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 莱迪思FPGA助力屡获殊荣的超级高铁及电机设计 在过去几年里,莱迪思与Swissloop合作,一如既往地支持他们的超级高铁研究项目。对于该学生组织而言,过去的一年又是成果丰硕的一年。本文将介绍该团队2022年的一些项目进展及Swissloop领导人Roger Barton和Hanno Hiss开展的卓有成效的工作。
  • iPhone 15还没上市,iPhone 16就已提前曝光 作为手机界的顶流之一,苹果前段时间关于iPhone 15系列的爆料接连不断,没想到还没等到它发布,明年发售的iPhone 16系列的爆料倒是一个个冒出来了。那就让我们一起看看iPhone 16系列会有哪些改动和升级吧。
  • 新思科技:数字赋能,安全先行 数字创新离不开软件驱动;软件的可信度很大程度取决于软件安全成熟度。中国正在把发展经济的着力点放在实体经济上,加快建设网络强国、数字中国。同时,数字经济与各种产业叠加,赋予数字化力量,可以提升实体经济的产业优势,促进产业迈向高质量。对此,新思科技强调,数字赋能,安全先行。把安全贯穿在数字经济发展的全过程,才能行稳致远。软件安全不会一蹴而就,而是一个旅程,需要借鉴“他山之石”,取长补短。
  • MiR发布2023年度自主移动机器人三大趋势预测 企业加快拥抱AMR以提升生产柔性,产业加速迈向大规模部署,向更复杂场景渗透
  • 如何避免音频信号处理中的常见错误 音频信号处理产品的设计和编码软件有其独特的挑战。那么,开发人员最常犯的错误是什么?如何避免这些错误呢?
  • 工业和汽车计算需求凸显,物联网应用处理器竞争格局和未 本文着重介绍了物联网中的应用处理器的市场总体规模以及在特定物联网应用市场的规模、增长预测以及竞争格局,包括汽车电子、消费电子、工业电子以及有线和无线通信应用市场。
  • 边缘智能需求猛增,AI MCU“飞入寻常百姓家” 此前,实现AI的方法主要依靠软件,例如当我们需要识别一只猫时,往往需要程序员编写一组规则来描述猫的特征,从而约束程序的运行,比如猫必须有尖尖的耳朵、三角形的鼻子和长长的胡须。但大量例外情况的出现给传统软件技术带来了巨大的困难……
  • 高能量密度、大容量的水系锌电池取得重要进展 据中国科学技术大学网站消息,该校化学与材料科学学院陈维教授课题组,设计了一种稳定的金属/金属—锌合金异质结界面层,实现了大面容量(200mAh/cm2)下无锌枝晶的稳定沉积和溶解,并达到274Wh/kg的锌溴电池能量密度。
  • CES 2023:ADAS重回主导地位 在CES 2023上发布的业界消息主要都着重于辅助驾驶和自动驾驶,并将这些发展作为其最终实现自动驾驶发展蓝图的一部分...
  • 国产芯片突破,长电科技4nm小芯片实现量产 近日,中国最大、世界第三大封测公司长电科技宣布,XDFOI Chiplet工艺已经实现了突破,并开始逐步进入稳定量产阶段,同步实现国际客户4nm节点多芯片系统集成封装产品出货,最大封装体面积约为1500mm2的系统级封装。
  • 苹果AR/VR头显最新技术细节:或需与H2芯片的AirPods协同 由于头带采用的是扬声器,因此附近的旁观者也可以听到音频,出于隐私原因,可能需要配对的AirPods,这样其他人就无法听到对话。还建议使用搭载了H2芯片的AirPods,这将限制对最新一代AirPods Pro的兼容性。
  • AMD在CES 2023开幕主题演讲中强调高性能和自适应计算 AMD首席执行官和包括微软、惠普、联想、Magic Leap和Intuitive Surgical在内的合作伙伴展示了AMD推动人工智能、混合办公、游戏、医疗、宇宙探索和可持续计算等领域发展的技术 。推出全新的移动CPU和GPU,包括首款搭载专用AI引擎的x86 PC CPU和具有领先游戏性能的新型3D堆叠桌面处理器,并预览了领先AI的推断加速器和数据中心APU 。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了