实测！AlexNet卷积核在FPGA占90%资源仍跑750MHz-EDN 电子技术设计

 本文将重点描述基于AlexNet的2D卷积核的实例应用。

MLP_Conv2D是功能齐全的设计，可将2D输入图像与多个内核同时进行卷积。该设计充分利用了MLP和BRAM模块，每个MLP一个周期执行12个int8乘法。此外，MLP列和BRAM块均等级联以有效地将图像数据传递，从而允许同时处理多个内核。nzaednc

该设计使用NoC接入点（NAP）从片上网络（NoC）读取或写入数据。NoC连接到Speedster7t器件中的GDDR6控制器再到外部存储器。nzaednc

AlexNet

尽管最初为AlexNet图像和内核大小配置了MLP_Conv2D设计，但是2D卷积是一个通用过程，因此可以重新配置该设计并使其适应许多不同的2D方法。nzaednc

2D卷积的一般原理是在图像（实际上是另一个2D矩阵）上传递内核（2D矩阵）。对于每次计算，内核均以输入图像的像素为中心，并对每个内核值（称为权重）与其当前对齐的像素执行乘法运算。这些乘法的总和给出了原始图像像素的特定卷积结果。然后将内核移至下一个像素，并重复该过程。nzaednc

经过训练的内核，2D卷积生成一个输出结果图像，突出显示输入图像的特定特征，例如垂直线，水平线，变化角度的对角线和变化半径的曲线。然后可以将这些特征输入到其他处理层（包括其他2D卷积），然后可以将其标识为（通常在软件中）为特定对象。nzaednc

因此，二维卷积处理不应被视为图像识别的完整解决方案，而应被视为处理操作链中的单个关键组件。nzaednc

乘法密度

2D卷积的挑战是所需的乘法数量，这就是MLP中专用的乘法器阵列。对于AlexNet配置，每个内核为11×11= 121个权重值。但是，卷积实际上是3D的，因为输入图像具有三层（RGB），因此一组内核有121×3 = 363个乘法来产生单个输出结果。AlexNet输入图像为227×227;但是，此图像的stride为4（在计算之间内核移动了四个像素）。此过程导致输出结果矩阵为54×54 = 2916个结果。因此，对于一幅图像需要363×2916 = 1,058,508次乘法；即处理一个图像需要进行一百万次以上的累加运算。其中单个Kernel进行2D卷积的动态示意图如下：nzaednc

nzaednc

图表 1 单个Kernel进行2D卷积的动态示意图nzaednc

对于MLP_Conv2D，其设计旨在一次处理一幅图像中的60个内核，单次执行超过6000万次乘法累加操作。nzaednc

性能

MLP_Conv2D设计可以以750 MHz的频率运行。单个MLP能够在137 µs内对具有11×11内核的单个227×227 RGB输入图像进行卷积，相当于每秒15.4GOPS（包含乘和加）。但一个MLP_Conv2D实例由60个并行运行的MLP构成，可以同时对60个输入图像进行卷积，相当于924GOPS。最后，将多达40个MLP_Conv2D实例化到单个器件中，每个实例都通过自己的NAP将数据传输到GDDR6存储器，从而实现了组合高达37 TOPS的性能-相当于每秒处理28,8000张图像（本设计主要针对卷积核）。nzaednc

资源

MLP_Conv2D围绕MLP和BRAM块功能而设计，并使用它们各自的内部级联走线。同样，NAP允许直接从外部存储器路由数据互联。这些功能可实现最小的附加逻辑或路由要求，利用率表如下：nzaednc

nzaednc

图表 2 单个MLP_Conv2D实例资源使用nzaednc

nzaednc

图表 3 并行40个MLP_Conv2D实例资源使用nzaednc

nzaednc

图表 4 MLP_Conv2D框图nzaednc

数据流：单个MLP

每个MLP都有一个邻近的BRAM。在此设计中BRAM用于存储内核并将其多次传递到MLP。初始化时，将从输入NAP中读取不同的内核，并将其写入相应的BRAM。 BRAM在写侧配置为72位，而读取设置为144位。在操作期间，仅将96位用作内核权重，即读取为4个权重×3层×8位。初始图像数据从NAP读取到输入FIFO中，该输入FIFO用于将图像存储为一系列行。尽管此输入存储器被列为FIFO，但仍可作为可重复读取的FIFO，因为可以多次从中读取行。该存储器配置为144位宽，仅使用96位，由两个BRAM72K组成。每个字由4个像素×3层×8位组成。初始化时，将读取足够的行以匹配内核中的行数加上垂直跨步所需的行数。即nzaednc

nzaednc

一旦加载了初始数据和内核，便开始计算。nzaednc

从输入FIFO中读取第一条图像行，并读取与内核水平大小匹配的图像数据像素数量。在读取这些像素时，将读取匹配的内核权重。MLP将这些96位流的每一个乘以12个int8值并累加结果。输入FIFO前进到第二行，重复此过程，直到内核的所有行都与输入图像左上角的适当像素相乘。在此过程中，MLP积累了结果；现在，该结果是图像与内核卷积的左上角的2D卷积。该结果以16位结果的形式从MLP输出。重复此过程，输入FIFO跨行超前STRIDE参数设置的像素数（对于当前设计，STRIDE固定为4）。在每个处理周期包括在内时，都会生成另一个结果，直到水平地获取了适当数量的结果为止。nzaednc

然后，将输入FIFO下移STRIDE行数，然后重复该过程以生成输入图像中下一组线的卷积结果。当输入FIFO向下移动时，不再需要FIFO中的初始行，因此与MLP计算并行时，将加载下一组用于输入图像的STRIDE行。考虑外部存储源的带宽要求时，可以看到映像和内核仅从内存中读取一次。然后，它们可以从各自的BRAM中重新使用，从而减少了外部存储器带宽的总体负担，其过程参考图表1。nzaednc

数据流：多个MLP

MLP的一个显著特点是能够将数据和结果从一个MLP或BRAM级联到同一列中。 MLP_Conv2D通过将MLP及其关联的BRAM放在列组中来利用这些级联路径。在将BRAM加载到内核时，级联路径用于将数据流水线传输到每个BRAM，并且使用BRAM块地址模式选择要写入内核的BRAM。nzaednc

在计算过程中，输入的图像数据将在MLP的列中级联，以便每个MLP在其下一个邻居之后的一个周期接收到图像数据。同时，控制内核读取的BRAM读取地址以一个周期的延迟级联到BRAM列中。这样，每个MLP在其先前的MLP之后一个周期接收相同的图像数据和相同的内核读取地址。每个MLP的计算差异在于，其关联的BRAM将具有不同的内核数据。结果是一个图像并行地与多个内核卷积。并行卷积的数量称为BATCH。nzaednc

数据流：计算结果

如前所述，每个MLP为内核和图像部分的每个卷积生成16位结果。nzaednc

MLP排列在16列中，因此从该列中生成一个256位字，该字由该列中每个MLP的结果组成。然后将此256位字写入输出NAP。这种安排导致卷积结果作为同一图像的图层存储在内存中；因此，当三层或RGB存储在单个输入字中时，匹配输入字排列。nzaednc

然后，由于可以在完整的256位结果上的16个并行实例中执行激活功能，因此该安排允许将涉及的结果并行处理到激活层中。同样，一旦256位结果通过输出NAP写回到存储器中，则可以将结果读回到另一个2D卷积电路中。nzaednc

nzaednc

图表 5 MLP_Conv2D布局示意图nzaednc

布局

在Speedster7t架构中，每个NAP对应32个MLP。该设计经过优化，可使用两个NAP，一个用于读取，一个用于写入，因此可以对应64个MLP。nzaednc

但是，输入和输出FIFO需要两个BRAM 72K存储块才能创建一个256位宽的组合存储器。因此，这些存储器将消耗64个可用位置中的四个用于数据I / O。nzaednc

设计被安排为使用与两个NAP相关联的四列MLP。但是，第一列和最后一列都使用14个MLP，剩下两个MLP位置分别用于输入和输出FIFO。中间两列使用所有16个可用的MLP。在平面图中，各列的排列方式是使第一列（底部具有输入FIFO存储器）与NAP相邻，以改善时序。nzaednc

下面显示了一个实例，即使用了60个MLP（Batch=60）的设计实际布局图（突出显示了路线）：nzaednc

nzaednc

图表 6 60个MLP布局图nzaednc

在全芯片构建中使用40个实例时，尽力使每个实例都使用NAP与内存进行通信。结果，FMax仍能达到750MHz，并使用掉芯片中的所有80个NAP以及94％的MLP和BRAM72K。nzaednc

nzaednc

图表 7 2400个MLP布局图nzaednc

“占90%资源”这个真是厉害了！

阅读全文，请先

FPGA 处理器/DSP 人工智能产业前沿

上一篇： 制造专家拆解Model Y：与Model 3共享约75%的零部件 下一篇： 开关键控成为通信工作的基础

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
第二代Versal Premium系列问世，AMD如何突破数据密集型继第一代Versal Premium系列自适应SoC之后，AMD于2024年11月12日发布了第二代Versal Premium系列产品，这是业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件···
TPLD助力工程师在数分钟内完成分立式逻辑设计通过将多达40个逻辑元件集成到单个芯片上，工程师可以大幅减小电路板尺寸。使用德州仪器的InterConnect Studio工具，工程师无需软件知识即可在数分钟内轻松设计、仿真和配置德州仪器的可编程逻辑器件。
德州仪器(TI)全新可编程逻辑产品系列助力工程师在数分全新可编程逻辑器件和无代码设计工具可降低工程设计复杂性和成本、减少布板空间并缩短时间。
AMD发布第六代Spartan FPGA系列，重塑IoT时代的I/O密集日前，AMD正式发布了其第六代Spartan FPGA产品——Spartan UltraScale+ FPGA系列，该产品系列能为边缘端各种I/O密集型应用提供成本效益与高能效性能，在基于28纳米及以下制程技术的FPGA领域带来业界极高的I/O逻辑单元比，较之前代产品可带来高达30%的总功耗下降···
Achronix推出基于FPGA的加速自动语音识别解决方案提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流
Microchip FPGA采用量身定制的PolarFire FPGA和SoC解涵盖工业和通信领域以及智能嵌入式视觉、电机控制和光学接入技术等十个系列的协议栈，内容包括 IP、参考设计、开发套件、应用说明、演示指南等
AMD 以面向工业与商业应用的 Kria K24 SOM 及入 K24 SOM 和 KD240 套件支持为电机控制和数字信号处理应用设计高能效量产就绪型解决方案，并加速上市进程···
AMD Kria新品只有信用卡一半大，无需FPGA经验一小时内日前，AMD宣布推出AMD Kria™ K24系统模块（SOM）和KD240驱动器入门套件，这是Kria自适应SOM及开发者套件产品组合的最新产品。AMD Kria K24 SOM能以小尺寸提供高能效计算，面向成本敏感型工业和商业边缘应用···
通过AI加速，智能终端应用得到创新提升京微齐力采用Imagination AI加速器，助力打造Avatar高端产品系列第一颗新型智能加速芯片，为不同行业用户提供高性价比、强适配性的系统级平台解决方案
2023年嵌入式调查：随着工作负载的激增，更多IP将会被重复最新的2023年嵌入式调查已经出炉，它不仅显示了迅速增长的工作负载以及工程师如何应对处理，还展示了最常用的设计工具、操作系统和处理器。
Microchip发布业界能效最高的中端FPGA工业边缘协议栈这些新工具使得转向使用PolarFire FPGA和片上系统（SoC）FPGA变得比以往更容易

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

实测！AlexNet卷积核在FPGA占90%资源仍跑750MHz

AlexNet

乘法密度

性能

资源

数据流：单个MLP

数据流：多个MLP

数据流：计算结果

布局