人工智能应用需要怎样的硬件加速？-EDN 电子技术设计

 摩尔定律现已打破。未来性能增长需要依赖架构上的改变，即需要利用可编程的硬件加速器来实现性能增长。对于人工智能/机器学习应用，需要有高运算能力的运算单元、高效高速数据传输，以及高存储带宽。

摩尔定律从2003年开始放缓。为了延续性能倍增、功耗减半，Intel CPU采用多核来实现。然而，到2015年以后，多核也达不到了。内核数每增加一倍，运算性能并不能成倍增长。因此，业界需要寻找新的方法来实现延续，比如针对应用进行硬件加速。CZgednc

人工智能的硬件加速，如果想要做得好的话，需要具备三个条件：运算能力很强，数据传输高效，存储器带宽高。业界衡量性能的指标包括性能功耗比和性能价格比。CZgednc

CZgednc

Achronix Semiconductor公司市场营销副总裁Steve MensorCZgednc

CZgednc

硬件加速应用六大应用场景

日前，Achronix Semiconductor公司市场营销副总裁Steve Mensor告诉记者，硬件加速应用有几大类应用场景：CZgednc

1.云的加速。涉及压缩解压缩、区块链和安全等，需要很高的运算能力和功耗成本比。CZgednc

2.边缘计算。很多应用由于需要低延迟，不允许将数据传到数据中心处理，而需要在边缘处理，并且需要低功耗。CZgednc

3.存储。有些应用需要高效率，因而要求在存储器里进行数据处理。CZgednc

4.5G基础设施。5G网络中的BBU（基带处理单元）和RRU（射频拉远单元），其协议处理有很大不确定性，需要用FPGA来编程。CZgednc

CZgednc

5.传统的网络加速需要用FPGA，而现在网络中出现了新的智能网卡，要求在发给服务器之前进行加解密、压缩解压缩等各种处理。CZgednc

6.自动驾驶。涉及人工智能、数据运算和传感器融合等，需要具有可编程性。CZgednc

人工智能/机器学习应用为何要用FPGA？

FPGA在人工智能/机器学习（AI/ML）上扮演重要角色。AI涵盖各种应用和层面，工业、教育、政府、农业等各行各业都可以运用。个人电脑在1980年到2000年增长很快。从2000年开始（包括智能手机的出现），无线互联网增长更快。而在未来，据估计，随着5G的到来，AI的增长又将会更快。据估计，在半导体业务方面，到2024年，AI将占有约500亿美元市场。CZgednc

Mensor介绍，硬件加速从实现上看可以有几种不同选择：CPU、GPU、FPGA和ASIC。CPU最有灵活性，能够覆盖各种不同应用，但它的能力（效率）最弱。ASIC的成本、性能和功耗最好，但它不能改变。目前AI算法层出不穷，ASIC不能满足各种要求。CZgednc

若要同时具有可编程性和效率，则可以采用GPU和FPGA。在功耗和效率上，FPGA比GPU更强。尤其是在AI推理上，对于低精度场景，FPGA的性能功耗比比GPU大16倍。“GPU更适合用在服务器侧，而FPGA则更适合用在边缘侧。”Mensor补充说。FPGA适合做推理，GPU适合做训练。CZgednc

7nm eFPGA性能增强

日前，Acronix推出新的7nm架构IP——Speedcore 7t，在功耗、性能和裸片尺寸（PPA）上均有改进。CZgednc

从工艺上看，7nm比16nm快60%。同时，它针对AI/ML做了新的架构改进（第四代架构），对于AI/ML应用，性能比16nm增长3倍。此外，相比16nm，其功耗降低50%，裸片面积减少2/3。CZgednc

7nm相对16nm在架构上做了很大改变，例如算逻单元（ALU）增加一倍，布线布局做了改善，并且针对AI/ML运算增加了新的模块（详见下图）。ALU和MAX()针对AI/ML更有效率，其他四个则适用于所有应用，他补充说。CZgednc

CZgednc

从走线架构来看，相对于传统架构，它增加了bus走线，这对很多应用都很有用，例如现在有的AI应用数据高达512位。Bus走线是在传统走线之上，是另外一层，没有占用传统LE（逻辑单元）和开关等等。尤其是在AI/ML方面更有效率，Mensor指出。CZgednc

CZgednc

除了bus走线以外，它还增加了bus mux，例如4进1出（不固定，也可以是2或3个）。AI/ML应用可能有几个不同存储器输入，如果用传统方法来做，则可能消耗很多LUT/LE资源以及布线布局资源。而新的bus布线则不会占用到这些资源。此外，其性能比传统方法实现2倍增长。CZgednc

CZgednc

AI/ML计算趋势

下面来看AI/ML计算趋势。首先来看算法，例如CNN、DNN、RNN等，对于图像和语音等不同应用需要用到不同算法。然后是精度，Int 32相比Int 8，其功耗会高10倍。新的算法带来精度降低，而准确性却损失很小，是发展趋势。而Speedcore 7t IP对所有算法都提供支持，尤其是对小的算法来说很有效率。除了运算能力以外，AI/ML涉及大量的矩阵乘运算，在存储器和FPGA之间有大量的数据传输，因此两者要靠得很近，从而提高效率。CZgednc

CZgednc

下一代DSP模块针对矩阵乘的优化

下一代DSP模块——MLP（机器学习处理器）——针对矩阵乘运算进行优化，可以支持多种不同精度，性能达750MHz，并且支持不同类型（浮点、定点）运算。一个MLP可以支持1个16*16、8个8*8、12个6*6或16个4*4，满足不同精度的乘方。CZgednc

传统上，做矩阵乘运算，一行一列相乘得到一个数据，但是数据很宽，需要经过多次运算才能得到一个数据。对于MLP来说，则可以采用块的方式做。对于1个时钟周期，可以实现6倍运算增长。CZgednc

CZgednc

MLP和存储器放在一起。传统架构去做矩阵乘，性能受制于DSP、MLP以及走线。现在把存储器和MLP放在旁边，数据传输很快，不需要经过LE。另外，MLP和MLP之间走线类似ASIC连线。要做更宽运算，这种走线与传统相比可以将性能提升不小。CZgednc

总的来说，这种架构对于AI/ML运算具有可编程性，可以根据性能、功耗和精度进行权衡。矩阵乘运算可以将参数放在MLP存储器中运行，采用级联方式可以一次性完成，获得几倍性能提升。MLP和存储器及MLP和MLP之间绑在一起，这样就不用经过LE，速度很快。另外，MLP可以支持不同精度（如4、6、8比特），非常灵活，而CPU只能支持某种比特乘法。另外，它支持多重取整和饱和，不需要在LE中再做另外一层运算。CZgednc

除了用MLP做乘法以外，也可以用LUT来做。传统用LUT做8*8运算，需要36个6输入LUT。现在用新的架构来做，如果是6输入LUT，只需要用到一半，即18个LUT即可。甚至精度更低一点则会更有效率。CZgednc

此外，Speedcore IP资源可以定制。Acronix提供Speedcore Builder Tool工具供用户进行参数选择。一旦确定需要多少资源，一个半月即可实现IP交付。这个架构现在是针对7nm所做，在2019年年中还会过渡到16nm。CZgednc

总结

摩尔定律现已打破。未来性能增长需要依赖架构上的改变，即需要利用可编程的硬件加速器来实现性能增长。CZgednc

对于AI/ML应用，需要有高运算能力的运算单元、高效高速数据传输，以及高存储带宽。CZgednc

Speedcore 7t在第四代架构中做了很多AI/ML优化。基本性能提高60%，AI/ML性能提高3倍，功耗减半，面积缩减到1/3等。可以使AI/ML应用设计很有效率，在运算能力和功耗等方面都有很大改进。CZgednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

赵明灿

赵明灿是EDN China的产业分析师/技术编辑。他在电子行业拥有10多年的从业经验。在加入ASPENCORE之前，他曾在电源和智能电表等领域担任过4年的工程师。

进入专栏

物联网人工智能处理器/DSP FPGA EDA/IP/IC设计产业前沿

上一篇： 这个装在指甲上的小型传感器，靠数微米变形程度就能判断动作 下一篇： 雷达VS激光雷达，究竟谁更适合自动驾驶车？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
Arm 技术预测：2025 年及未来的技术趋势 Arm 对 2025 年及未来的技术发展做出了预测，范围涵盖技术的各个方面，从 AI 的未来发展到芯片设计，再到不同技术市场的主要趋势···
该如何设计PCB以保证恶劣环境下的信号完整性在现代电子设计中，保持PCB信号完整性是一项越来越具有挑战性的任务···
CES 2025：洞察汽车创新未来从CES 2025的汽车方案展示可以看到，汽车OEM正从黑盒解决方案转变为区域架构为主的处理主干，传感器功能也逐渐优化，结合多模态输入数据与情境感知的 ML...
CES 2025：Edge AI硬件加速再掀热潮边缘计算/边缘人工智能(Edge AI)一直是热门话题，在CES 2025也不例外。然而，实现边缘计算/智能的底层硬件是什么？又是如何实现与应用的呢？
摩尔斯微电子推出MM8108：全球体积最小、速度最快、功耗最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准，配套USB网关，轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成。
虚拟天线技术：物联网天线设计的不同方法虚拟天线®(Virtual Antenna®)技术，代表了无线设备天线设计的重大突破，特别是对于物联网应用···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
探索工业应用中边缘连接的未来我们的世界正变得更加智能且紧密相连，楼宇和工厂正以前所未有的方式实现自动化。为了确保这些新系统有效运行，可靠的信息通信至关重要···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···
人工智能前沿｜2025 年影响工程的顶级趋势想要在人工智能竞赛中保持领先的工程领导者应该关注四个关键领域的进步：生成式人工智能、验证和确认、降阶模型（ROM）和控制系统设计···
人工智能对数据中心基础设施带来了哪些挑战在加密货币和人工智能/机器学习（AI/ML）等新兴应用的驱动下，数据中心的能耗巨大，并将快速增长以满足用户需求···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

人工智能应用需要怎样的硬件加速？

硬件加速应用六大应用场景

人工智能/机器学习应用为何要用FPGA？

7nm eFPGA性能增强

AI/ML计算趋势

下一代DSP模块针对矩阵乘的优化

总结