广告

美光 DDR5 内存配合第四代 AMD EPYC 处理器,提升高性能计算工作负载

2022-12-21 14:53:53 Krishna Yalamanchi、Sudharshan Vazhkudai 阅读:
美光 DDR5 内存与采用了Zen 4 服务器架构的第四代AMD EPYC 处理器强强联合,使服务器 CPU 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。美光DDR5 内存可帮助企业从本地和云端数据中更快获取洞察。

美光与AMD联手为客户及数据中心平台提供一流的用户体验。双方在奥斯汀建立联合服务器实验室,以减少服务器内存验证时间,在产品验证和发布期间共同进行工作负载测试。目前美光适用于数据中心的 DDR5 内存和第四代 AMD EPYCTMTM (霄龙)处理器均已出货,我们对其进行了一些常见的高性能计算(HPC)工作负载基准测试。bqaednc

长期以来,超级计算机承担着高性能计算工作负载。此类大规模的数据密集型工作负载需要运行TB 级的数据量以进行数百万个并行操作,以解决人类世界的难题,如天气和气候预测;地震建模;化学、物理和生物分析等。随着计算机架构的进步,此类工作负载往往托管在超大型“可横向扩展”的高性能服务器集群中。这些服务器集群需要集合最强大的算力、架构、内存和存储基础设施,以满足关键工作负载对可扩展性、低延迟和高性能的需求。然而随着服务器 CPU 的性能和吞吐量不断增长,DDR4 无法提供足够的内存带宽,来满足不断增长的高性能内核。bqaednc

bqaednc

为缓解这一瓶颈,美光 DDR5 内存与采用了Zen 4 服务器架构的第四代AMD EPYC 处理器强强联合,使服务器 CPU 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。美光DDR5 内存可帮助企业从本地和云端数据中更快获取洞察。我们对最新的 AMD Zen 4 96 核CPU和美光DDR5进行了行业内高性能计算工作负载基准测试,所有结果均显示性能提升了两倍。bqaednc

美光 DDR5 搭配第四代 AMD EPYC 处理器,在STREAM 测试中实现内存带宽翻倍STREAM1 是常见的基准测试工具,用于测量高性能计算机的内存带宽,可捕获高性能计算系统的峰值内存带宽。该工作负载使用的软件堆栈bqaednc

Alma 9 Linux kernel 5.14bqaednc

STREAM.f,2021 年 11 月 29 日发布版本bqaednc

bqaednc

测试设置bqaednc

DDR4 系统搭配第三代 64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GBbqaednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GBbqaednc

测试结果bqaednc

DDR5 系统每插槽内存带宽翻倍,达到 378 GB/sbqaednc

该结果意味着客户能运行更大规模的人工智能/机器学习 (AI/ML)项目,或利用 DDR5 增加的内存带宽进行更多高性能计算。bqaednc

bqaednc

美光 DDR5 助力天气研究和预报 WRF4 速度提升2此次测试使用的高性能计算工作负载代码针对天气和气候。WRF模型在一些支持高性能浮点处理、高内存带宽、低延迟网络等传统高性能计算架构中表现良好,测试对象为横向分辨率为 2.5 公里的美国大陆地区 (CONUS)。该工作负载使用的软件堆栈bqaednc

Alma 9 Linux kernel 5.14 bqaednc

WRF 2.3.5 & 4.3.3 bqaednc

Open MPI v4.1.1bqaednc

测试设置bqaednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GBbqaednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GBbqaednc

测试结果bqaednc

美光 DDR5 搭配第四代 AMD EPYC 处理器,可实现 1.3567 时间步/秒 VS DDR4 系统的2.8533 时间步/秒bqaednc

速度更快意味着可使用更大的数据库或运行更多模型以进行天气预测,进而改善预测的准确度。bqaednc

美光 DDR5,助力OpenFOAM5 速度提升2OpenFOAM 是一种计算流体动力学(CFD)的开源高性能计算工作负载,广泛应用于多个行业,有助于缩短开发时间并降低成本。从消费类产品设计到航空航天设计,OpenFOAM能够模拟不同应用中的物理互动,包括摩托车风挡湍流。在该模拟中,OpenFOAM 能够计算摩托车和骑手周围的稳定气流。OpenFOAM 能够根据用户指定的进程数进行负载均衡计算,以此将网格分解成多个部分并分配给不同的进程求解。求解完成后,再将网格和解重新组合为单个域。bqaednc

该工作负载使用的软件堆栈bqaednc

OpenFOAM CFD 软件(版本8),其中摩托车网格尺寸为:600 x 240 x 240bqaednc

Alma 9 Linux kernel 5.14 bqaednc

Open MPI v4.1.1bqaednc

测试设置bqaednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GBbqaednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GBbqaednc

测试结果bqaednc

测试结果表明美光DDR5 产品组合将OpenFOAM 性能提高了 2.4 倍。OpenFOAM 为五大高性能计算软件平台之一,拥有大型开源社区。该软件广泛应用于大学和研发中心,可利用高带宽内存和拥有密集内核的高性能CPU,实现高度的并行操作。美光 DDR5 ,助力分子动力学6 速度提升2CP2K 是一款开源量子化学工具,适用于许多应用,包括固态生物系统模拟。CP2K 能够为不同的建模方法提供通用的框架。此次测试对象为水(H2O)的密度泛函理论(DFT),模拟盒子中共包含 6,144 个原子(2,048 个水分子)。该工作负载使用的软件堆栈bqaednc

H2O-DFT-LS.NREP4 及 H2O-DFT-LSbqaednc

Alma 9 Linux kernel 5.14bqaednc

测试设置bqaednc

DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GBbqaednc

DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GBbqaednc

测试结果测试结果表明美光DDR5 产品组合将分子动力学性能提高了2.1 倍。随着内核数和内存带宽增加,此类工作负载的性能也显著提升。总结目前我们只针对少量高性能计算工作负载进行了测试,因此以上只是我们的初步成果。将高性能高带宽内存与最新的服务器处理器(如第四代 AMD EPYC 处理器)相结合,可为高性能计算客户创造新的可能。我们期待更多企业数据中心和云服务商,能够在新平台上应用美光 DDR5 产品,解锁更高的性能与能效。bqaednc

________________________bqaednc

我们在 STREAM 基准测试中配置了 25 亿个向量的STREAM Benchmark——运行在一台单 AMD CPU 系统上2 AMD DDR4 系统为一台 64  AMD EPYC 7763 处理器, DDR4-3200 MHz RDIMM 内存槽插满,共 64GB3 AMD DDR5 系统为一台 96  AMD EPYC 9654 处理器, DDR5-4800 MHz RDIMM 内存槽插满,共 64GB 横向分辨率为 12.5 公里CONUS  WRF  DDR4 系统上的运行时间为 929 秒,在 DDR5 系统上的运行时间为 287 秒(均包括存储器的输入/输出时间)。该测试中 WRF 配置为 2.5 公里 CONUS,测试结果为 1.3567 时间步秒, 相比之下DDR4 的运行时间为2.8533时间步/秒。5 针对 OpenFOAM,我们运行了三种变体:5a1004040 runtimesDDR4 系统运行时间为 1,144 秒,DDR5 系统运行时间为 478 5b1084646 runtimesDDR4 系统运行时间为 1,633 秒,DDR5 系统运行时间为 698 5c1305252 runtimesDDR4 系统运行时间为 2,522秒,DDR5 系统运行时间为 1,091 6 分子动力学工作负载在 DDR4 系统上的运行时间为 2,519 秒,在 DDR5 系统上的运行时间为 1,242 bqaednc

作者:bqaednc

Krishna Yalamanchibqaednc

Krishna 担任美光生态系统高级开发经理,专注于研发 DDR5 和 CXL 解决方案。他曾在英特尔 IT 部门任职,领导 SAP HANA 的迁移工作,通过与SI、OEM和云服务提供商共同搭建的合作伙伴生态系统,推出了用于SAP工作负载的第三代与第四代 Intel Xeon 处理器。bqaednc

Sudharshan Vazhkudaibqaednc

Sudharshan S. Vazhkudai 博士担任美光系统架构和工作负载分析总监。他领导一支位于奥斯汀和印度海得拉巴的团队,致力于研究内存和存储(DDR、CXL、HBM 和 NVME)产品中层次结构的可组合性,并优化与数据中心工作负载相关的系统架构。bqaednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 苹果将终止自研5G基带芯片,仍要继续依赖高通 据报道,苹果将停止内部 5G 调制解调器的开发,并可能继续依赖高通。根据一份新报告,苹果似乎远未实现其目标,因为它已决定停止开发内部 5G 调制解调器。这些报道现阶段尚未得到证实,但多个消息来源报道了类似的情况。
  • 爱立信推出基于“Intel 4”工艺的处理器,甚至领先于英 爱立信在其新闻稿中指出,与上一代相比,新的 RAN 处理器 6672 和无线电处理器 6372 的容量增加了四倍,效率提高了一倍。他们声称,Intel 4上的新处理器的功耗比行业基准低30%到60%。
  • 首款背接触微米光伏电池问世,阴影效应降低95% 加拿大渥太华大学领导的国际科研团队,研制出了全球首款背接触微米光伏电池,相较于普通的光伏电池,这种背接触电池正面无栅线,正负极全部挪到了电池背面,能让太阳能电池板吸收更多太阳光···
  • B站UP主买了一颗国产卫星:微波炉大小,在轨360度拍摄宇宙 B站UP主“影视飓风”11月28日发布了最新一期视频《我们买了一颗国产卫星》。该视频播放量已成为全站排行榜榜首。视频中介绍,影视飓风和Insta360公司共同出资定制了这颗微波炉大小的卫星,装了一枚Insta360全景相机,可拍到卫星和地球的大合影。
  • 如何正确使用以确保舌簧继电器的可靠性? 当在指定的操作参数范围内使用时,舌簧继电器可以执行数百亿次操作,而性能变化很小或没有变化。例如,每天每小时运行 100 次(24 小时周期),大约需要 1141 年才能达到 10 亿次运行的里程碑。增加操作频率不应引起关注,因为要达到每分钟 100 次操作 19 年后才能达到相同的里程碑,而每秒 100 次操作则需要近 4 个月。
  • 龙芯3A6000问世,国产自研CPU最新里程碑 龙芯3A6000采用的是我国自主设计的指令系统和架构,无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,标志着我国自主研发的CPU在自主可控程度和产品性能方面达到新高度,性能达到国际主流产品水平···
  • 苹果Vision Pro即将量产,华为也将推出麒麟芯竞品? 华为其实很早也开始了在XR领域的布局,华为的AR Engine早在汽车、手机等设备上进行了广泛的应用,截至今年十月,AR Engine的安装量已经达到了21亿次,接入的应用数量超过了4100款···
  • 阿里达摩院裁撤量子实验室,将所有仪器设备都捐给浙大 阿里达摩院确认裁撤量子实验室,实验室连带仪器设备,统统捐给浙大;对于相关资源如何开放的具体细则,以及实验室人员是否流动到浙大等问题,目前达摩院方面暂无官方回应。但据知情人士透露,浙大会接受一部分实验室相关人员,核心还是遵照“双向选择,公开竞聘”的原则和流程。
  • 台积电前研发副总裁:华为可在现有DUV设备上制造5纳米芯 被誉为"芯片大师"的台积电前研发副总裁林本坚表示,华为在现有的DUV设备上制造5纳米芯片组是可行的。
  • 超过现有材料四倍,新型碳材料超级电容器创下储能纪录 近日,美国橡树岭国家实验室(ORNL)的研究人员在机器学习的指导下,设计了一种创纪录的碳基超级电容材料,它储存的能量是当前最佳商业材料的4倍···
  • 6分钟充电80%,华中科技大新研究再次突破锂离子电池瓶颈 中国华中科技大学的研究人员最近提出了一种开发含有石墨基材料的快速充电锂电池的新策略。他们提出的电池设计在《自然能源》杂志上发表的一篇论文中概述,被发现实现10分钟和6分钟可分别充满91.2%和80%的电量,同时也使它们即使在充电数千次后也能保留大部分容量。
  • 模拟人工智能能否通过混合数字计算东山再起? 本文将探讨的是模拟计算这一用例的进展程度,或者其他潜在的应用以及在复兴模拟计算上的努力···
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了