如何突破AI的内存瓶颈？-EDN 电子技术设计

 人工智能（AI）发展到今天，业内批评人士认为，目前内存是其发展的最大瓶颈。因为无法加速处理器和内存之间的数据传输，内存性能瓶颈阻碍了实际应用。本文将探讨CPU和内存之间的瓶颈及未来发展趋势。

人工智能（AI）发展到如今的地步，业内批评人士认为，目前内存是其发展的最大瓶颈——因为无法加速处理器和内存之间的数据传输，内存性能的瓶颈阻碍了实际应用。本文将探讨CPU和内存之间的瓶颈及未来发展趋势。3lgednc

在数据中心内用于训练人工智能模型的AI加速器需要极高的内存带宽。理想情况下，整个模型可以存储在一个处理器中，这种方法能够消除片外内存，但是按照目前的技术发展来看这几乎是不可能的，因为现在大的模型通常都有10亿到万亿个参数。也就是说之前的内存瓶颈使得整个系统受限，而如今数据中心正不遗余力通过构建各种技术来克服内存瓶颈。3lgednc

另一方面，人工智能的“疯狂炒作”阶段逐渐结束，现在到了对未来AI和机器学习技术发展前景和本身缺陷重新评估的时候了，而这也可以称为人工智能技术发展的新纪元。3lgednc

高带宽存储器

目前业界最流行的解决方案是使用高带宽存储器（HBM），这涉及到CPU架构的革新，通常是用一个硅基连接层将4层、8层或者12层DRAM芯片通过3D堆叠方式连接到处理器中。目前业界最新的技术是HBM2E，其单个内存引脚具有高达3.6Gb/s的传输速率，三星和海力士都可提供8层HBM2E堆栈，总容量为16Gb，拥有460GB/s带宽（根据海力士数据，目前主流的DDR5为2.4GB/s，GDDR6为64GB/s）。未来的HBM3可能拥有更快的速度和更高的容量。3lgednc

3lgednc

图1：Nvidia的A100数据中心GPU有6个HBM2E内存进行堆叠（目前量产版只堆了5个内存）。（图片来源：Nvidia）3lgednc

A100 CPU是Nvidia专为旗舰级数据中心设计的专用型CPU，目前提供高达80GB的HBM2E内存和2TB/s的内存带宽，其内部有5个16GB的DRAM Die进行堆叠（图1）。另一个版本采用的是40GB的HBM2E，其总带宽为1.6TB/s，但是其深度学习的人工智能模型训练速度相差了三倍之多。3lgednc

同时，数据中心专用的CPU正在向DRAM“借力”，Intel下一代的至强系列Sapphire Rapids将推出具备HBM的Xeon系列产品。这是Intel第一款采用新的AMX指令拓展的数据中心用CPU（AMX拓展是专门为人工智能浮点运算而设计的指令集），并且可以使用片外的DDR5 DRAM或者HBM内存。3lgednc

Intel高级工程师Arijit Biswas在最近Hot Chips的演讲中说：“CPU可以提升带负载能力，而加速器或者GPU则提升了带宽；目前CPU发展迅猛，使得内存容量和带宽的瓶颈越来越明显，二者没有均衡发展。全新一代的Sapphire Rapids系列原生支持两种内存（DDR和HBM），通过多层内存结构加上内部软件支持，可以让系统得到进一步增强。”3lgednc

Intel的首席工程师Nevine Nassif 也告诉笔者，每一代HBM内存升级都是以裸片面积增大为代价的。兼容HBM的裸片有些与众不同，其内部还包含一个HBM主控芯片（这是有别于DDR5主控的）。在只采用DDR的Sapphire Rapids系列CPU中，Intel在芯片上设计了一个裸片区域，用于进行加密和压缩等功能的加速器；而HBM版本中则没有这些，只保留了数据流加速器，因为设计时为了满足HBM带宽需求，必须对裸片的布局做出一定改变。3lgednc

除了CPU和GPU外，HBM也是FPGA的“座上宾”，Intel的Stratix和Xilinx的Versal FPGA都有HBM版本，一些专用于AI的ASIC也使用HBM，例如腾讯数据中心的AI专用ASIC——Enflame，采用HBM的DTU 1.0设备，专为云AI训练加速进行了优化，该设备拥有采用HBM的高达80T flops(FP16/BF16)的两块芯片，为片上数据网提供512GB/s带宽。3lgednc

3lgednc

图2：Enflame的DTU 1.0数据中心AI加速芯片。(图片来源：Enflame)3lgednc

成本是关键

尽管HBM为数据中心人工智能加速器所需的片外存储器提供了极高的带宽，但仍有一些人认为“不值得”。Graphcore在Hot Chips上的演讲中提到，虽然目前业界的共识是大型人工智能模型训练需要更快的内存带宽和更大的内存容量，而且目前各家也都在研究自己的HBM，但是却忽略了成本、功耗和散热等问题。图3比较了采用不同技术的内存的容量和带宽。3lgednc

3lgednc

图3：对采用不同技术的内存的容量和带宽进行比较。（图片来源：Graphcore）3lgednc

Graphcore第二代智能处理单元（IPU）采用的是超大SRAM芯片（896MiB）来支持其1472个处理器核心所需要的内存带宽，这样可以尽可能地避免内存带宽不足带来的性能瓶颈。但是人工智能模型太大，不适合片上的型式，而是采用服务器级DDR低带宽远程DRAM来满足存储容量的需求。目前该IPU设备部署到主机处理器上，允许中等规模的模型在一个集群中训练。3lgednc

越来越多的芯片公司将以1美元的性能回报来衡量公司的业绩，Graphcore拒绝HBM的主要原因也似乎是出于成本的考量。“HBM与人工智能CPU融合的净成本是服务器用DDR成本的10倍以上，即便是容量不大的情况下，HBM也占据了整个模块的大部分成本（图4）。如果人工智能模块可以使用DDR，那么它可以在成本同样的情况下拥有更多的处理器核心。”3lgednc

3lgednc

图4：HBM2内存的成本是DDR4的10倍。（图片来源：Graphcore）3lgednc

40GB的HBM是同一封装内CPU成本的三倍之多，对于同样都是8GB的HBM和DDR4来说，HBM裸片的成本是DDR的两倍，这还不算TSV蚀刻、堆叠、组装和封装成本，以及各个制造商的利润。反观DDR芯片，这些额外增加的成本都不用考虑，用户可以直接从内存制造商手里买来成品，这种插件化生态就是为了减少成本。3lgednc

多核心分布式方案

在Hot chips的众多演讲中，Esperanto也向业界展示了其关于内存瓶颈问题的解决方案，该公司的1000核心RISC-V人工智能加速器目标是超大规模运营商(hyper-scaler)推荐模型推理，而不是传统的人工智能模型训练。Esperanto创始人Ditzel称，客户并不想要250MB的内存，而只需要100MB——他们希望所有的推理任务都在100MB的存储空间内完成，任何超过这个内存容量的任务所需的成本都大得多。3lgednc

CEO Ditzel还补充说，“客户喜欢将大量DRAM与处理器放在同一块卡上，并且建议我们把所有东西都放到这块卡上并使用快速接口。如果通过这种方式支持100GB内存比PCI-E总线快，那么就是一个成功。”3lgednc

我们不妨来比较下Esperanto和其他的数据中心推理加速器的异同，Ditzel说，“其他家关注的是整个处理器的功率，而Esperanto则是将多个低功耗CPU安装在双M.2加速卡上，这样能更好地利用片外存储（图5）。”HBM可以在引脚数少的情况下获得一个非常高的带宽收益，但是HBM也是真的昂贵和功率低。3lgednc

3lgednc

图5：Esperanto的方案是将6个小裸片连接到LPDDR4x。（图源来源：Esperanto）3lgednc

Esperanto多核心方案使得更多的I/O口用于片外DRAM通信，除了6颗CPU芯片，还采用了24颗低价LPDDR4x DRAM芯片，在低电压情况下，其功耗和HBM方案基本一样。因为LPDDR4x的带宽比HBM要低，所以我们通过扩大IO来获得更大的带宽，在加速卡的内存系统上采用了1500bit的内存，对于每个数据引脚来说，必须拥有两个电源和接地引脚，但是这样一来引脚数又太多了。经过Esperanto的内部讨论，决定把整个系统分开，举例来说，192GB的内存容量需要通过822GB/s的带宽进行访问，对于64bit DRAM来说，我们可以分成96x 16bit通道，不仅可以更好地处理内存延迟，还能把功耗控制在120W以内。3lgednc

权重分配

无独有偶，另一家晶圆级人工智能加速器设计公司Cerebras也在Hot Chips上向业界展示了用于解决存储瓶颈的方案——MemoryX（图6），该系统专为高性能计算和科学海量运算设计，可用于CS-2的人工智能加速系统。MemoryX是DRAM和NAND的结合体，并且是在芯片级别合二为一，其内部框架具有极好的兼容性，可容纳从4TB到2.4PB（2000亿到120万亿个）参数，足以容纳世界上最大的人工智能模型。 3lgednc

图6：Cerebras的MemoryX系统是其CS-2晶圆级引擎系统的片外存储器，作用跟片上存储器一样。（图片来源：Cerebras）3lgednc

Cerebras联合创始人兼CEO Sean Lie表示，为了让片外存储表现得和片内存储一样，Cerebras对MemoryX进行了优化，把参数和对应的权重都输入到CPU中，能极大f地消除延迟带来的影响(图7)。3lgednc

3lgednc

图7：Cerebras利用权重分配来消除延迟带来的影响。(图片来源：Cerebras)3lgednc

在系统训练过程中，必须立即访问对延迟敏感的激活存储器。Cerebras设计整个芯片都处于激活状态，系统将绝大多数权重存储在MemoryX中，当系统有需要时输入到CPU中，这样可以最大程度地避免延迟，也可以解决不同层之间的依赖性（在前一层权重分配完成之前就可以开始为新的层分配权重）。3lgednc

同时，更加细分的权重分配能够避免训练迭代之间的依赖，给不同层分配不同的权重能够消除外部调度带来的延迟，从而提升整个系统的性能。3lgednc

（原文刊登于EDN姐妹网站EETimes美国版，参考链接：Solving AI’s Memory Bottleneck，由Jenny Liao编译。）3lgednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能缓存/存储技术产业前沿 EDN原创

上一篇： 在电路系统中如何准确测量PCB温度与环境温度？ 下一篇： 新兴存储器将取代NOR和SRAM？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

如何突破AI的内存瓶颈？

高带宽存储器

成本是关键

多核心分布式方案

权重分配