广告

FPGA运算单元可支持高算力浮点

2020-03-06 杨宇,Achronix资深现场应用工程师 阅读:
Achronix创新的机器学习处理器(MLP)突破传统FPGA运算瓶颈

随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行推理(inference)加速,而传统FPGA只支持定点运算的瓶颈越发凸显。Achronix为了解决这一大困境,创新地设计了机器学习处理器(MLP)单元,不仅支持浮点的乘加运算,还可以支持对多种定浮点数格式进行拆分。Eu9ednc

MLP全称Machine Learning Processing单元,是由一组至多32个乘法器的阵列,以及一个加法树、累加器、还有四舍五入rounding/饱和saturation/归一化normalize功能块。同时还包括2个缓存,分别是一个BRAM72k和LRAM2k,用于独立或结合乘法器使用。MLP支持定点模式和浮点模式,对应下面图1和图2。Eu9ednc

Eu9ednc

图1定点模式下的MLP框图Eu9ednc

Eu9ednc

图2浮点模式下的MLP框图Eu9ednc

考虑到运算能耗和准确度的折衷,目前机器学习引擎中最常使用的运算格式是FP16和INT8,而Tensor Flow支持的BF16则是通过降低精度,来获得更大数值空间。下面的表1是MLP支持的最大位宽的浮点格式,表2说明了各自的取值范围。Eu9ednc

Eu9ednc

表1MLP支持的最大位宽的浮点格式Eu9ednc

Eu9ednc

表2不同运算格式的取值范围Eu9ednc

而且这似乎也成为未来的一种趋势。目前已经有不少研究表明,更小位宽的浮点或整型可以在保证正确率的同时,还可以减少大量的计算量。因此,为了顺应这一潮流,MLP还支持将大位宽乘法单元拆分成多个小位宽乘法,包括整数和浮点数。详见下表3。Eu9ednc

值得注意的是,这里的bfloat16即Brain Float格式,而blockfloat为块浮点算法,即当应用Block Float16及更低位宽块浮点格式时,指数位宽不变,小数位缩减到了16bit以内,因此浮点加法位宽变小,并且不需要使用浮点乘法单元,而是整数乘法和加法树即可,MLP的架构可以使这些格式下的算力倍增。Eu9ednc

表3是Speedster7t系列1500器件所支持的典型格式下的算力对比,可以看到,单片FPGA的浮点算力最高可达到123TOPS。Eu9ednc

Eu9ednc

表3 Achronix的Speedster7t系列1500器件支持的典型格式的算力对比Eu9ednc

下图3是MLP中FP24/FP16乘加单元的简化结构图,即一个MLP支持FP24/FP16的A*B+C*D,或者A*B,C*D。Eu9ednc

Eu9ednc

图3MLP中FP24/FP16乘加单元的简化结构图Eu9ednc

而以下的图4则是块浮点乘加单元结构。Eu9ednc

Eu9ednc

图4块浮点乘加单元结构Eu9ednc

这里考虑浮点数序列块ai=mai•2ea,浮点数序列块bi=mbi•i•2eb,各序列块内均拥有相同的指数ea和eb。则Eu9ednc

Eu9ednc

不难看出,乘法单元的个数取决于尾数(即整数)位宽。Eu9ednc

Eu9ednc

表4 MLP中乘法单元的个数与整数位宽的关系Eu9ednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 罗克韦尔自动化发布全新HiLINE 800智能低压动力中心 出厂即用,节能高效,助力企业加速实现智能制造
  • 学子专区—ADALM2000实验:跨阻放大器输入级 本次实验旨在研究简单跨阻放大器的输入级配置。
  • “中国IC设计成就奖”提名产品简介:超星光级系列产品SC 思特威面向高端智能摄像头市场推出了4K超星光级夜视全彩图像传感器SC850SL,SC850SL具有800万像素以及 2.0μm*2.0μm的光学尺寸,可输出高清4K影像,采用67Pin CSP封装形式,搭载思特威全新的第二代近红外感度NIR+技术并拥有出色的超星光级夜视成像性能。
  • “中国IC设计成就奖”提名产品:亿海微6系芯片EQ6HL130 中科亿海微自主研制的基于40nm工艺的可编程逻辑芯片具有小尺寸、低功耗、高性能、高性价比的显著特点,具有完全自主的芯片架构、电路结构和EDA软件…
  • 低能量水平下的电压转换 本文将介绍一类新的DC-DC转换器,其中一个例子是LTC3336。它在待机模式下仅消耗约65nA的电流,非常适合电池供电系统。
  • 恩智浦通过下一代安全认证的NFC解决方案实现安全感测 恩智浦的全新单芯片NFC解决方案为物联网应用提供安全性、双模式篡改状态检测和无电池感测功能
  • 通过SiC技术电机逆变器实现电动汽车行驶里程拓展的承 在同时考虑行驶里程和成本因素时,仍然需要以电机逆变器为焦点不断创新,旨在进一步提高电动汽车的效率和行驶里程。作为电机逆变器中价格最昂贵、功能最重要的元件,SiC功率开关需要接受精准控制,以充分发挥额外的开关成本的价值。
  • 对比美光、三星、SK 海力士的DDR5内存 本文比较了美光、三星和 SK 海力士的 DDR4-3200 和 DDR5-4800 芯片的 DDR5 芯片尺寸、存储密度、DRAM 单元尺寸和设计规则。
  • 世界上最小的电池,比一粒盐还小! 智能微尘是微电子和纳米电子领域最有前途的未来技术之一。在最近出版的《Advanced Energy Materials》中,研究人员讨论了如何在亚毫米级实现电池供电的智能粉尘应用,并展示了迄今为止世界上最小的电池作为面向应用的原型。
  • Achronix的FPGA技术可优化用于工业4.0及5.0的人工智能 AI、ML和DL将继续推动工业4.0和5.0的发展,使生产力与效率更上层楼。在IoT和5G技术的协助下,自动化和机器人将与人类的奇思妙想和创造力融为一体,孕育出人类在10年前未曾想象的制造环境。FPGA促成了传感器融合,能够与众多物联网设备连接,充分把握制造环境下人工智能系统所需的高性能与灵活性之间的平衡。
  • 自动驾驶汽车有多复杂? 自动驾驶汽车有许多棘手的技术问题仍远未解决。在我看来,这里有三个关键问题:为什么自动驾驶汽车问题如此难以解决?不同的自动驾驶汽车用例如何影响自动驾驶汽车问题?自动驾驶汽车用例的部署将如何发展?
  • 基于光学测量的可穿戴生命体征监测方案 生命体征监测包括测量一系列能显示个人健康状况的生理参数。心率是最常见的参数之一,可以通过心电图来检测,心电图可以测量心跳的频率,最重要的是,可以测量心跳的变化。心率变化往往由活动引起。在睡眠或休息时,节奏较慢,但往往会随着身体活动、情绪反应、压力或焦虑等因素而加快。本文将结合亚德诺半导体公司(ADI)的相关产品与技术提供基于光学测量的可穿戴生命体征监测方案。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了