机器学习实战：GNN（图神经网络）加速器的FPGA解决方案-EDN 电子技术设计

 应用Achronix Speedster7t FPGA设计高能效、可扩展的GNN加速器

1. 概述

得益于大数据的兴起以及算力的快速提升，机器学习技术在近年取得了革命性的发展。在图像分类、语音识别、自然语言处理等机器学习任务中，数据为大小维度确定且排列有序的欧氏（Euclidean）数据。然而，越来越多的现实场景中，数据是以图（Graph）这种复杂的非欧氏数据来表示的。Graph不但包含数据，也包含数据之间的依赖关系，比如社交网络、蛋白质分子结构、电商平台客户数据等等。数据复杂度的提升，对传统的机器学习算法设计以及其实现技术带来了严峻的挑战。在此背景之下，诸多基于Graph的新型机器学习算法—GNN（图神经网络），在学术界和产业界不断的涌现出来。Ve4ednc

GNN对算力和存储器的要求非常高，其算法的软件实现方式非常低效，所以业界对GNN的硬件加速有着非常迫切的需求。我们知道传统的CNN（卷积神经网络网络）硬件加速方案已经有非常多的解决方案；但是，GNN的硬件加速尚未得到充分的讨论和研究，在本文撰写之时，Google和百度皆无法搜索到关于GNN硬件加速的中文研究。本文的撰写动机，旨在将国外最新的GNN算法、加速技术研究、以及笔者对GNN的FPGA加速技术的探讨相结合起来，以全景图的形式展现给读者。Ve4ednc

2. GNN 简介

GNN的架构在宏观层面有着很多与传统CNN类似的地方，比如卷积层、Polling、激活函数、机器学习处理器（MLP）和FC层等等模块，都会在GNN中得以应用。下图展示了一个比较简单的GNN架构。Ve4ednc

Ve4ednc

图 1：典型的GNN架构（来源：https://arxiv.org/abs/1901.00596）Ve4ednc

但是， GNN中的Graph数据卷积计算与传统CNN中的2D卷积计算是不同的。以图2为例，针对红色目标节点的卷积计算，其过程如下：Ve4ednc

Graph卷积：以邻居函数采样周边节点特征并计算均值，其邻居节点数量不确定且无序（非欧氏数据）。
2D卷积：以卷积核采样周边节点特征并计算加权平均值，其邻居节点数量确定且有序（欧氏数据）。

Ve4ednc

图 2： Graph卷积和2D卷积（来源：https://arxiv.org/abs/1901.00596）Ve4ednc

3. GraphSAGE算法简介

学术界已对GNN算法进行了非常多的研究讨论，并提出了数目可观的创新实现方式。其中，斯坦福大学在2017年提出的GraphSAGE是一种用于预测大型图中动态新增未知节点类型的归纳式表征学习算法，特别针对节点数量巨大、且节点特征丰富的图做了优化。如下图所示，GraphSAGE计算过程可分为三个主要步骤：Ve4ednc

Ve4ednc

图 3：GraphSAGE算法的视觉表述（来源：http://snap.stanford.edu/graphsage）Ve4ednc

邻节点采样：用于降低复杂度，一般采样2层，每一层采样若干节点
聚合：用于生成目标节点的embedding，即graph的低维向量表征
预测：将embedding作为全连接层的输入，预测目标节点d的标签

为了在FPGA中实现GraphSAGE算法加速，我们需要知悉其数学模型，以便将算法映射到不同的逻辑模块中。下图所示的代码阐述了本算法的数学过程。Ve4ednc

Ve4ednc

图 4：GraphSAGE算法的数学模型（来源：http://snap.stanford.edu/graphsage）Ve4ednc

对于每一个待处理的目标节点x_v_，GraphSAGE 执行下列操作：Ve4ednc

1）通过邻居采样函数N（v），采样子图(subgraph)中的节点Ve4ednc

2）聚合被采样的邻节点特征，聚合函数可以为mean()、lstm()或者 polling()等Ve4ednc

3）将聚合结果与上一次迭代的输出表征合并，并以W^k做卷积Ve4ednc

4）卷积结果做非线性处理Ve4ednc

5）迭代若干次以结束当前第k层所有邻节点的处理Ve4ednc

6）将第k层迭代结果做归一化处理Ve4ednc

7）迭代若干次以结束所有K层采样深度的处理Ve4ednc

8）最终迭代结果z_v即为输入节点x_v的嵌入（embedding）Ve4ednc

4. GNN加速器设计挑战

GNN的算法中涉及到大量的矩阵计算和内存访问操作，在传统的x86架构的服务器上运行此算法是非常低效的，表现在速度慢，能耗高等方面。Ve4ednc

新型GPU的应用，可以为GNN的运算速度和能效比带来显著收益。然而GPU内存扩展性的短板，使其无法胜任海量节点Graph的处理；GPU的指令执行方式，也造成了计算延迟过大并且不可确定，无法胜任需要实时计算Graph的场景。Ve4ednc

如上所述种种设计挑战的存在，使得业界急需一种可以支持高度并发实时计算、巨大内存容量和带宽、以及在数据中心范围可扩展的GNN加速解决方案。Ve4ednc

5. GNN加速器的FPGA设计方案

Achronix 公司推出的 Speedster7t系列高性能FPGA，专门针对数据中心和机器学习工作负载进行了优化，消除了CPU、GPU以及传统 FPGA 存在的若干性能瓶颈。Speedster7t FPGA 基于台积电的 7nm FinFET 工艺，其架构采用革命性的新型 2D 片上网络（NoC），独创的机器学习处理器矩阵（MLP），并利用高带宽 GDDR6 控制器、400G 以太网和 PCI Express Gen5 接口，在保障ASIC 级别性能的同时，为用户提供了灵活的硬件可编程能力。下图展示了Speedster7t1500高性能FPGA的架构。Ve4ednc

Ve4ednc

图5: Achronix Speedster7t1500 高性能FPGA 架构（来源：http://www.achronix.com）Ve4ednc

如上所述种种特性，使得Achronix Speedster7t1500 FPGA器件为GNN加速器设计中所面临的各种挑战，提供了完美的解决方案。Ve4ednc

Ve4ednc

表1：GNN设计挑战与Achronix的Speedster7t1500 FPGA解决方案Ve4ednc

5.1 GNN加速器顶层架构

本GNN加速器针对GraphSAGE进行设计，但其架构具有一定的通用性，可以适用于其他类似的GNN算法加速，其顶层架构如下图所示。Ve4ednc

Ve4ednc

图6: GNN加速器顶层架构（来源：Achronix原创）Ve4ednc

图中GNN Core为算法实现的核心部分，其设计细节将在下文展开谈论；RoCE-Lite为RDMA协议的轻量级版本，用于通过高速以太网进行远程内存访问，以支持海量节点的Graph计算，其设计细节将在本公众号的后续文章中讨论；400GE以太网控制器用来承载RoCE-Lite协议；GDDR6用于存放GNN处理过程中所需的高速访问数据；DDR4作为备用高容量内存，可以用于存储相对访问频度较低的数据，比如待预处理的Graph；PCIe Gen5x16提供高速主机接口，用于与服务器软件交互数据；上述所有模块，皆通过NoC片上网络来实现高速互联。Ve4ednc

5.2 GNN Core 微架构

在开始讨论GNN Core 微架构之前，我们先回顾一下本文第3节中的GraphSAGE算法，其内层循环的聚合以及合并（包含卷积）等两个操作占据了算法的绝大部分计算和存储器访问。通过研究，我们得到这两个步骤的特征如下：Ve4ednc

Ve4ednc

表2：GNN算法中聚合与合并操作对比（来源：https://arxiv.org/abs/1908.10834）Ve4ednc

可以看出，聚合操作与合并操作，其对计算和存储器访问的需求完全不同。聚合操作中涉及到对邻节点的采样，然而Graph属于非欧氏数据类型，其大小维度不确定且无序，矩阵稀疏，节点位置随机，所以存储器访问不规则并难以复用数据；在合并操作中，其输入数据为聚合结果（节点的低维表征）以及权重矩阵，其大小维度固定，存储位置规则线性，对存储器访问不存在挑战，但是矩阵的计算量非常大。Ve4ednc

基于以上分析，我们决定在GNN Core加速器设计中用两种不同的硬件结构来处理聚合操作与合并操作，功能框图如下图所示：Ve4ednc

Ve4ednc

图7: GNN Core功能框图（来源：Achronix原创）Ve4ednc

聚合器（Aggregator）：通过SIMD（单指令多数据处理器）阵列来对Graph进行邻居节点采样并进行聚合操作。其中的“单指令”可以预定义为mean()均值计算，或者其他适用的聚合函数；“多数据”则表示单次mean()均值计算中需要多个邻居节点的特征数据作为输入，而这些数据来自于子图采样器（Subgraph Sampler）；SIMD阵列通过调度器Agg Scheduler做负载均衡；子图采样器通过NoC从GDDR6或DDR4读回的邻接矩阵和节点特征数据h⁰_v，分别缓存在Adjacent List Buffer和Node Feature Buffer之中；聚合的结果h^k_N(v)存储在Agg Buffer之中。Ve4ednc

合并器（Combinator）：通过脉动矩阵PE来执行聚合结果的卷积操作；卷积核为W^k权重矩阵；卷积结果通过ReLU激活函数做非线性处理，同时也存储在Partial Sum Buffer中以方便下一轮迭代。Ve4ednc

合并的结果通过L2BN归一化处理之后，即为最终的节点表征h^k_v。Ve4ednc

在比较典型的节点分类预测应用中，该节点表征h^k_v可以通过一个全连接层（FC），以得到该节点的分类标签。此过程属于传统的机器学习处理方法之一，没有在GraphSAGE论文中体现，此设计中也没有包含这个功能。Ve4ednc

6. 结论

本文深入讨论了GraphSAGE GNN 算法的数学原理，并从多个维度分析了GNN加速器设计中的技术挑战。作者通过分解问题并在架构层面逐一解决的方法，综合运用Achronix Speedster7t1500 FPGA所提供的竞争优势，创造了一个性能极佳且高度可扩展的GNN加速解决方案。Ve4ednc

阅读全文，请先

上一篇： 华为在5G行业终端生态峰会上发布白皮书，智能机器人加速应用 下一篇： 四种Wi-Fi定位技术综述

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

机器学习实战：GNN（图神经网络）加速器的FPGA解决方案

1. 概述

2. GNN 简介

3. GraphSAGE算法简介

4. GNN加速器设计挑战

5. GNN加速器的FPGA设计方案

5.1 GNN加速器顶层架构

5.2 GNN Core 微架构

6. 结论