一种基于FPGA的图神经网络加速器解决方案-EDN 电子技术设计

 本白皮书的写作动机是将国外最新的GNN算法、对加速技术的研究以及对基于现场可编程逻辑门阵列（FPGA）的GNN加速技术的探讨相结合，并以概述的形式呈现给读者。

得益于大数据的兴起和计算能力的快速提升，机器学习技术近年来经历了革命性的发展。诸如图像分类、语音识别和自然语言处理等机器学习任务，都是对具有一定大小、维度和有序排列的欧几里得数据进行处理。然而，在许多现实场景中，数据是由复杂的非欧几里得数据（例如图形）表示的。这些图形不仅包含数据，还包含数据之间的依赖关系，例如社交网络、蛋白质分子结构、电子商务平台中的客户数据等。数据复杂性的提升给传统的机器学习算法设计及其实现技术带来了严峻的挑战。在这种情况下，许多全新的基于图形的机器学习算法或图神经网络（GNN）不断在学术界和工业界涌现。dHeednc

GNN对计算能力和存储有非常高的要求，而且其算法的软件实现效率非常低。因此，业界对GNN的硬件加速有着非常迫切的需求。尽管传统的卷积神经网络（CNN）硬件加速有很多种解决方案，但GNN的硬件加速还没有得到充分的讨论和研究。在撰写本白皮书时，谷歌（Google）和百度（Baidu）都无法搜索到关于GNN硬件加速的中文研究资料。本白皮书的写作动机是将国外最新的GNN算法、对加速技术的研究以及对基于现场可编程逻辑门阵列（FPGA）的GNN加速技术的探讨相结合，并以概述的形式呈现给读者。dHeednc

对图神经网络（GNN）的介绍

在宏观层面上，GNN的架构与传统CNN有很多相似之处，诸如卷积层、池化、激活函数、机器学习处理器（MLP）、全连接层（FC layer）等模块，这些都可以应用到GNN。下图展示了一个相对简单的GNN架构。dHeednc

dHeednc

图1：典型的GNN架构（来源：https://arxiv.org/abs/1901.00596）dHeednc

但是，GNN中的图形数据卷积计算与传统CNN中的二维卷积计算不同。以下图为例，红色目标节点的卷积计算过程如下所示：dHeednc

1、图卷积——使用近邻函数对周围节点的特征进行采样，并计算平均值。相邻节点的数量是不确定且无序的（非欧几里得数据）dHeednc

2、二维卷积——使用卷积核对周围节点的特征进行采样，并计算加权平均值。相邻节点的数量是确定且有序的（欧几里得数据）dHeednc

dHeednc

图2：图卷积和二维卷积（来源：https://arxiv.org/abs/1901.00596）dHeednc

对GraphSAGE算法的介绍

学术界对GNN算法进行了大量的研究和探讨，提出了相当多的创新实现方法。其中，由斯坦福大学（Stanford University）于2017年提出的GraphSAGE是一种归纳表示学习算法，用于预测大规模图中动态的、全新的、未知的节点类型，还专门针对节点数量庞大、节点特征丰富的图进行了优化。如下图所示，GraphSAGE算法的计算过程可以分为三个主要步骤：dHeednc

1、相邻节点采样——用于降低复杂性，一般采样两层，每层采样几个节点。dHeednc

2、聚合——用于嵌入目标节点，即图的低维向量表示。dHeednc

3、预测——使用嵌入作为全连接层的输入，以预测目标节点d的标签。dHeednc

dHeednc

图3：GraphSAGE算法的可视化表示（来源：http://snap.stanford.edu/graphsage）dHeednc

为了在FPGA中实现GraphSAGE算法加速，必须了解其数学模型，以便将算法映射到不同的逻辑模块。下图所示的代码说明了该算法的数学过程。dHeednc

dHeednc

图4：GraphSAGE算法的数学模型（来源：http://snap.stanford.edu/graphsage）dHeednc

对于每个要处理的目标节点xv，GraphSAGE算法都会执行以下操作：dHeednc

1、通过近邻采样函数N(v)对子图中的节点进行采样。dHeednc

2、聚合要采样的相邻节点的特征。聚合函数可以是mean()、lstm()或polling()等。dHeednc

3、将聚合结果与上一次迭代的输出表示合并起来，并使用Wk进行卷积。dHeednc

4、对卷积结果进行非线性处理。dHeednc

5、多次迭代以结束当前第k层的所有相邻节点的处理。dHeednc

6、对第k层迭代的结果进行标准化处理。dHeednc

7、多次迭代以结束对所有K层采样深度的处理。dHeednc

8、将最终的迭代结果zv嵌入到输入节点xv。dHeednc

GNN加速器设计所面临的挑战

GNN算法涉及大量的矩阵计算和存储访问操作。在传统的x86架构服务器上运行这种算法的效率是非常低的，表现为速度慢、能耗高等。dHeednc

新型图形处理器（GPU）的应用可以显著提高GNN的计算速度与能效比。但是，GPU在存储可扩展性方面存在短板，使其无法处理图形中的海量节点。GPU的指令执行方式也会导致计算延迟过大和不确定性；因此，它不适用于需要实时计算图形的场景。dHeednc

上面提到的各种设计挑战，使得业界迫切需要一种能够支持高并发、实时计算，拥有巨大存储容量和带宽，并可扩展到数据中心的GNN加速解决方案。dHeednc

基于FPGA设计方案的GNN加速器

Achronix的Speedster®7t系列FPGA产品（以及该系列的第一款器件AC7t1500）是针对数据中心和机器学习工作负载进行了优化的高性能FPGA器件，消除了基于中央处理器（CPU）、GPU和传统FPGA的解决方案中存在的若干性能瓶颈。Speedster7t系列FPGA产品采用了台积电（TSMC）的7nm FinFET工艺，其架构采用了一种革命性的全新二维片上网络（NoC）、独创的机器学习处理器矩阵（MLP），并采用高带宽GDDR6控制器、400G以太网和PCI Express Gen5接口，在确保ASIC级性能的同时，它为用户提供了灵活的硬件可编程性。下图展示了高性能FPGA器件Speedster7t1500的架构。dHeednc

dHeednc

图5：Achronix高性能FPGA器件Speedster AC7t1500的架构dHeednc

上述特点使Achronix Speedster7t1500器件成为应对在GNN加速器设计中面临的各种挑战的完美解决方案。dHeednc

表1：GNN设计面临的挑战和Achronix Speedster7t1500 FPGA器件提供的解决方案dHeednc

GNN设计所面临的挑战	Speedster AC7t1500器件提供的解决方案
高速矩阵运算	机器学习处理器（MLP）
高带宽和低延迟存储	LRAM+BRAM+GDDR6+DDR4
高并发和低延迟计算	FPGA使用可编程逻辑电路，以确保在硬件层面进行低并发和高并发延迟计算
存储扩展	基于4×400 Gbps的RDMA确保在数据中心以极低的延迟扩展存储访问
算法不断演进	FPGA中的可编程逻辑确保算法可以在硬件层面进行升级和重新配置
复杂的设计	丰富的硬IP减少开发时间、降低复杂性，NoC简化模块之间的互连并改善时序

GNN加速器顶层架构

此GNN加速器是为GraphSAGE算法设计的，但是它的设计也可以应用于其他类似的GNN算法加速。其顶层架构如下图所示。dHeednc

dHeednc

图6：GNN加速器顶层架构dHeednc

该架构由以下模块组成：dHeednc

图中的GNN内核是算法实现的核心部分（详情如下）。dHeednc

RoCE-Lite是RDMA协议的轻量级版本，用于通过高速以太网进行远程存储访问，以支持海量节点的图计算。dHeednc

400GE以太网控制器用于承载RoCE-Lite协议。dHeednc

GDDR6存储器用于存储GNN处理过程中所需的高速访问数据（DDR4作为备用大容量存储器）。该存储器用于存储访问频率相对较低的数据，例如待预处理的图形数据。dHeednc

PCIe Gen5 ×16 接口提供高速主机接口，用于与服务器软件进行数据交互。dHeednc

上述所有模块均通过具有高带宽的NoC实现互连。dHeednc

GNN内核微架构

在开始讨论GNN内核的微架构之前，有必要先回顾一下GraphSAGE算法。其内层循环的聚合和合并（包括卷积）占据了该算法的大部分计算和存储访问。通过研究，我们得出这两个步骤的特点，具体如下。dHeednc

表2：GNN算法中聚合和合并操作的对比（来源：https://arxiv.org/abs/1908.10834）dHeednc

步骤	聚合操作	合并操作
存储访问方式	间接访问，不规则	直接访问，规则
数据重用	低	高
计算模式	动态，不规则	静态，规则
计算量	低	高
性能瓶颈	存储	计算

可以看出，聚合操作和合并操作在计算和存储访问模式上有着完全不同的需求。聚合操作涉及相邻节点的采样。然而，图形是一种非欧几里得数据类型——它的大小和维度是不确定且无序，矩阵稀疏，节点位置随机。因此，存储访问是不规则的，并且难以重复利用数据。dHeednc

在合并操作中，输入数据是聚合结果（节点的低维表示）和权重矩阵。它的大小和维度是固定的，具有线性存储位置。因此对存储访问没有挑战，但是矩阵的计算量非常大。dHeednc

基于上述分析，我们决定在GNN内核加速器设计中选择使用两种不同的硬件结构来分别处理聚合和合并操作（如下图示）：dHeednc

聚合器——通过单指令多数据（SIMD）处理器阵列，对图形相邻节点进行采样和聚合。单指令可以预定义为mean()平均值计算，或其他适用的聚合函数；多数据是指单次mean()均值计算中需要多个相邻节点的特征数据作为输入，这些数据来自子图采样器。SIMD处理器阵列通过调度器Agg Scheduler进行负载平衡。子图采样器通过NoC从GDDR6或DDR4读回的邻接矩阵和节点特征数据h0v分别缓存在邻接列表缓冲区（Adjacent List Buffer）和节点特征缓冲区（Node Feature Buffer）。聚合的结果hkN(v)存储在聚合缓冲区（Aggregation Buffer）中。dHeednc

合并器——通过脉动矩阵PE对聚合结果进行卷积运算。卷积核是Wk权重矩阵。卷积结果由ReLU激活函数进行非线性处理，同时也存储在Partial Sum Buffer中，以用于下一轮迭代。dHeednc

dHeednc

图7：GNN内核功能框图dHeednc

合并结果经过L2BN标准化处理后，即为最终的节点表示hkv。在一个典型的节点分类预测应用中，节点表示hkv可以通过一个全连接层（FC）来获取节点的分类标签。这个过程是传统的机器学习处理方法之一，在GraphSAGE文献资料中没有体现，这个功能也没有包含在这个架构中。dHeednc

结论

本白皮书探讨了GraphSAGE GNN算法的数学原理，并从多个角度分析了GNN加速器设计中的技术挑战。通过分析问题并在架构层面逐一解决，提出了一种架构，利用Achronix Speedster7t AC7t1500 FPGA器件提供的具有竞争性的优势，创建了一种高度可扩展的、能够提供卓越性能的GNN加速解决方案。dHeednc

有关Speedster7t系列FPGA器件的更多信息，请访问www.achronix.com。dHeednc

免责声明

本文件中所提供的信息被认为是准确和可靠的。但是，Achronix半导体公司不对此类信息的完整性或准确性作出任何声明或担保，并且对于使用本文包含的信息不承担任何责任。Achronix半导体公司保留随时更改本文件及其所含信息的权利，恕不另行通知。所有Achronix商标、注册商标、免责声明和专利均在网站上列出http://www.achronix.com/legal。dHeednc

阅读全文，请先

FPGA 技术实例

上一篇： 学子专区 — 活动：零增益放大器(MOS) 下一篇： 虚拟仿真技术助力自动驾驶测试降本增效，加速智能汽车产业发展

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
第二代Versal Premium系列问世，AMD如何突破数据密集型继第一代Versal Premium系列自适应SoC之后，AMD于2024年11月12日发布了第二代Versal Premium系列产品，这是业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件···
TPLD助力工程师在数分钟内完成分立式逻辑设计通过将多达40个逻辑元件集成到单个芯片上，工程师可以大幅减小电路板尺寸。使用德州仪器的InterConnect Studio工具，工程师无需软件知识即可在数分钟内轻松设计、仿真和配置德州仪器的可编程逻辑器件。
德州仪器(TI)全新可编程逻辑产品系列助力工程师在数分全新可编程逻辑器件和无代码设计工具可降低工程设计复杂性和成本、减少布板空间并缩短时间。
AMD发布第六代Spartan FPGA系列，重塑IoT时代的I/O密集日前，AMD正式发布了其第六代Spartan FPGA产品——Spartan UltraScale+ FPGA系列，该产品系列能为边缘端各种I/O密集型应用提供成本效益与高能效性能，在基于28纳米及以下制程技术的FPGA领域带来业界极高的I/O逻辑单元比，较之前代产品可带来高达30%的总功耗下降···
Achronix推出基于FPGA的加速自动语音识别解决方案提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流
Microchip FPGA采用量身定制的PolarFire FPGA和SoC解涵盖工业和通信领域以及智能嵌入式视觉、电机控制和光学接入技术等十个系列的协议栈，内容包括 IP、参考设计、开发套件、应用说明、演示指南等
AMD 以面向工业与商业应用的 Kria K24 SOM 及入 K24 SOM 和 KD240 套件支持为电机控制和数字信号处理应用设计高能效量产就绪型解决方案，并加速上市进程···
AMD Kria新品只有信用卡一半大，无需FPGA经验一小时内日前，AMD宣布推出AMD Kria™ K24系统模块（SOM）和KD240驱动器入门套件，这是Kria自适应SOM及开发者套件产品组合的最新产品。AMD Kria K24 SOM能以小尺寸提供高能效计算，面向成本敏感型工业和商业边缘应用···
通过AI加速，智能终端应用得到创新提升京微齐力采用Imagination AI加速器，助力打造Avatar高端产品系列第一颗新型智能加速芯片，为不同行业用户提供高性价比、强适配性的系统级平台解决方案
2023年嵌入式调查：随着工作负载的激增，更多IP将会被重复最新的2023年嵌入式调查已经出炉，它不仅显示了迅速增长的工作负载以及工程师如何应对处理，还展示了最常用的设计工具、操作系统和处理器。
Microchip发布业界能效最高的中端FPGA工业边缘协议栈这些新工具使得转向使用PolarFire FPGA和片上系统（SoC）FPGA变得比以往更容易

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

一种基于FPGA的图神经网络加速器解决方案

对图神经网络（GNN）的介绍

对GraphSAGE算法的介绍

GNN加速器设计所面临的挑战

基于FPGA设计方案的GNN加速器

GNN加速器顶层架构

GNN内核微架构

结论

免责声明