广告

利用本性、借力培育打造令人惊叹的AI SoC

2019-05-13 Ron Lowman,Synopsys产品营销经理 阅读:
在过去十年中,设计人员开发了各种硅技术,能够以足够快的速度运行先进的深度学习数学,以探索和实现人工智能(AI)应用,如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确,它是推动新的片上系统(SoC)投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络(CNN)和其它深度学习算法已经产生了这样的影响——即SoC内的AI能力正变得普及。

在过去十年中,设计人员开发了各种硅技术,能够以足够快的速度运行先进的深度学习数学,以探索和实现人工智能(AI)应用,如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确,它是推动新的片上系统(SoC)投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络(CNN)和其它深度学习算法已经产生了这样的影响——即SoC内的AI能力正变得普及。 Semico的《2018年人工智能报告》对此进行了有效总结:“......某种程度的AI功能几乎在各类硅片中都很强大、且发展势头强劲。”Phsednc

除视觉应用外,深度学习还用于解决复杂问题,例如蜂窝基础设施的5G实现,以及通过自组织网络(SON)的配置、优化和修复自身的能力来简化5G操作任务。 5G网络将增加新的复杂层,包括波束成形、毫米波(mmWave)中的附加频谱、载波聚合和更高带宽,所有这些都需要机器学习算法在分布式系统中适当地优化和处理数据。Phsednc

行业巨头和数百家初创公司都致力于将AI功能推广到各行各业的大量新的SoC和芯片组——从云服务器农场到每家厨房的家庭助理。 SoC设计师正在使用更多来自生物学的例子而不仅仅是他们旨在复制的神经网络;他们拥抱——利用设备的基本构建模块(本性或DNA),以及针对AI设计的培育(环境方面的设计工具、服务和专业知识等)——这两种概念,以期超越竞争对手并不断改进产品。Phsednc

对AI SoC的培育已经不限于硅设计

在SoC中添加AI功能突显了当今用于AI的SoC架构的弱点。在为非AI应用构建的SoC上实现视觉、语音识别和其它深度学习/机器学习算法时,SoC的资源会捉襟见肘。选择和整合IP清楚地确定了AI SoC的基础效率,它构成了AI SoC的“DNA”或本征特性。 (参见:《AI SoC的DNA》)。例如,引入自定义处理器或处理器阵列可以加速AI应用中所需的大规模矩阵乘法运算。Phsednc

然而,对设计的培育会影响各部分在硬件中如何协同工作,或者如何优化IP以实现更有效和优化的AI SoC。优化、测试和对比SoC性能的设计流程需要工具、服务和/或专业知识来优化AI系统。通过定制和优化在设计流程中支持设计可最终决定该SoC在市场中的成功。Phsednc

随着AI SoC的复杂性不断增加,使用工具、服务和专业知识来降低功耗、提升性能和削减成本变得益发重要。设计师需要各种支持手段来加速其设计流程和芯片成功。Phsednc

AI设计的三大挑战

依靠传统的设计流程不会产生每家公司都追求的高性能、市场领先的AI方案。设计师必须考虑各种半导体方案。 Semico的《2018年市场报告》指出,“用于培训和推理的架构在不断完善,以达到可提供恰当性能水平的最佳配置。”Phsednc

数据中心架构包括GPU、FPGA、ASIC、CPU、加速器和高性能计算(HPC)方案,而移动市场则是各种片上处理方案的盛宴,如ISP、DSP、多核应用处理器、音频和传感器处理子系统等。可通过专有SDK有效利用这些异构方案,以包纳AI和深度学习功能。此外,对于预期中的自主驾驶能力,汽车市场诉求差异很大。例如,正如可预期的那样,Level 5自主驾驶SoC所支持的带宽和计算能力比Level 2+自主驾驶SoC所能支持的要高出得多。Phsednc

这些AI设计中的三个一致性挑战包括:Phsednc

  • 添加专门的可更高效地多地执行必要的数学运算(如矩阵乘法和点积)的处理功能
  • 用于处理深度学习所需的诸如权重和激活等特殊系数的高效内存访问
  • 用于芯片到芯片、芯片到云、传感器数据和加速器到主机连接的可靠、经过验证的实时接口

20190510-synopsys-1.jpgPhsednc

机器学习算法面临的最大障碍之一是传统SoC架构的内存访问和处理能力不尽如人意。例如,流行的冯·诺伊曼架构就面临着对AI不够有效的诟病,导致大家竞相搭建更好的机器(即SoC系统设计)。Phsednc

那些有幸设计第二代和第三代面向AI的SoC的玩家已经添加了更高效的AI硬件加速器和/或选择为现有ISP和DSP添加功能以应对神经网络挑战。Phsednc

然而,简单地添加有效的矩阵乘法加速器或高带宽存储器接口虽被证明有帮助,但尚不足以成为AI的市场领导者,这一局面强化了在系统设计期间专门针对AI进行优化的概念。Phsednc

机器学习和深度学习适用于各种各样的应用,因此设计师在定义特定硬件实现的目标方面存在很大差异。此外,机器学习数学进展迅速,使架构灵活性成为一项强力诉求。对于垂直整合的公司,他们可能能够将其设计范围缩小到特定用途、增加优化,但也可以灵活地容纳其它不断发展的算法。Phsednc

最后,正如发布在Linley旗下的《微处理器报告(Microprocessor Report)》 期刊的《AI基准测试仍不成熟》一文所讨论的那样,人工智能算法和芯片的基准测试仍处于起步阶段:Phsednc

“几款流行的基准测试程序可评估CPU和图形性能,但即使AI工作负载变得越来越常见,比较AI性能仍是个挑战。许多芯片供应商仅引用每秒浮点运算的峰值执行率,或者仅针对整数设计的每秒运算。但与CPU类似,由于软件、内存或设计中其它部分的瓶颈,深度学习加速器(DLAs)的运行速度通常远低于峰值理论性能。大家都同意应在运行实际应用时测量性能,但在运行哪些应用以及如何运行方面各执己见。”(2019年1月)Phsednc

有趣的新基准开始面对特定市场。例如,MLPerf目前正在研究训练AI SoC的有效性,并计划进行拓展。虽然这是解决基准测试挑战的良好开端,但训练AI SoC仅是影响系统结果的众多不同市场、算法、框架和压缩技术的一小部分。Phsednc

另一家组织AI-Benchmark专注于对手机中的AI功能进行基准测试。手机使用少量芯片组,其中一些是早期版本,除了传统处理器之外不包括任何AI加速,采用的做法是针对AI的软件开发套件(SDK)实现。这些基准测试表明,利用现有的非AI优化的处理方案无法提供所需的吞吐量。Phsednc

所选择的处理器或处理器阵列通常具有每秒操作的最大额定值或特定处理技术的特定最高频率。处理器性能还取决于每条指令的能力。另一方面,接口IP(PCIe®、MIPI、DDR)和基础IP(逻辑库、内存编译器)具有最大的理论内存带宽和数据吞吐量水平;在接口IP的情况下,通常由标准组织定义。Phsednc

但是,系统的真正性能不是这些部分的简单总和;它取决于能够将处理器、存储器接口和数据管道正确连接在一起的能力。整个系统的性能由每个集成部件的能力以及如何优化这些部件来决定。Phsednc

虽然设计师已经在AI SoC的处理器、SDK、数学和其它相关设计方面取得了快速进步,但这些变化使得进行逐项对比变得困难。Phsednc

压缩在边缘应用中的作用

压缩将是边缘AI的关键组件,例如在进行实时面部识别的相机中、执行自主驾驶的汽车或运行超级图像分辨率的数字视频等应用。就使用压缩来说,市场似乎还只是蜻蜓点水。理解算法的类型以及某种压缩级别所赋能的准确度水平是困难的,且还需要试错迭代。Phsednc

人工智能驱动协同设计

虽然多年来人们一直在讨论硬件/软件协同设计的功用,但人工智能可能会放大实际实现的重要性。协同设计AI芯片的概念不限于硬件和软件。存储器和处理器也需要专门为AI协同设计。Phsednc

例如,在确定系统中每个英特尔至强主处理器对应多少个Google TPU(谷歌专为机器学习定制的一款芯片)时,协同设计显而易见,且在其单板计算机的配置和软件程序手册中对此进行了概述。Phsednc

对同一AI算法使用不同的AI框架是协同设计可以提高效率的另一个例子。每个框架的输出可能需要不同的存储容量。在硬件设计之前了解存储容量使设计师能优化芯片的功耗、大小和性能。Phsednc

用于AI的存储和处理方面的协同设计势在必行。例如,深度学习算法需要存储权重、激活(activation)和其它组件。有趣的是,每次都可以重新计算深度学习算法的激活,以减少内存存储。即使必须考虑额外的处理资源或额外的处理时间,内存节省和降低功耗的好处也可能超过所付代价。类似地,存储器内计算技术可能在AI SoC中扮演未来的角色。Phsednc

20190510-synopsys-2.jpgPhsednc

这些共同设计的例子是由人工智能的新投资拉动的,这种趋势将继续需要新的和额外的专业知识。Phsednc

AI实现专家可以优化协同设计系统架构所需的权衡。专家不仅事先了解在先前的设计中任务是如何完成的,而且他们也非常了解能更好地实现成功设计的适当的工具和服务。在AI设计流程中,设计师在采用仿真器、原型设计和架构探索,以便能够快速实施最佳设计实践。Phsednc

例如,让我们以一个必须在非常有限的功率预算下执行非常困难任务的芯片组为例。 SoC内的管道带宽必须足够宽,以便在不利用大量资源的情况下将数据从处理器移动到存储器或其它系统组件。管道越细,可以添加的处理器和内存就越多。管道越粗,可用的处理和内存越少,这直接影响AI性能。这些权衡可以在仿真器、原型设计环境和架构探索工具中建模,从而为AI设计提供关键的市场优势。Phsednc

培育AI SoC设计

SoC的开发流程不断变化,但本质上包括各标准阶段,如:系统规范和架构设计;逻辑和功能电路设计;物理设计、验证和分析;制造、封装和测试;以及硅后(post silicon)验证。新的AI功能可在各阶段增加复杂性。集成的IP明确规定了某些理论上的最大能力,但设计是如何被支持的决定着实现能够在多大程度上逼近理论最大值。Phsednc

系统与架构设计

由于已经发现传统架构对于AI SoC来说效率低下,因此系统规范需要越来越多的架构探索来优化设计。因为认为传统架构效率不高,架构服务就更重要。Phsednc

20190510-synopsys-3.jpgPhsednc

此外,因利用经验丰富的设计团队进行优化和定制,AI SoC与“代”俱进,一代更比一代强。 深度学习算法包括许多存储的权重,理想情况下它们存储在片上SRAM中以降低功耗和减少处理工作量,借助定制来优化SRAM编译器的功率和密度是个明显趋势。Phsednc

AI在安全漏洞方面提出了新的挑战。 AI的数据往往是私有的,所开发的算法非常昂贵,并且就最终结果的准确性而言,仅破坏一个比特的代价就可能是灾难性的。 实施完整的可信根( Root of Trust)子系统或安全区域可能很有价值,但会需要额外的沟通,以确保基于SoC流程早期开发的已定义威胁配置文件可保护特定的漏洞。Phsednc

20190510-synopsys-4.jpgPhsednc

电路设计

机器学习数学可要求标量、向量和大规模矩阵乘法,以及可以设计用于优化特定算法的专用处理器。定制处理器是新型AI SoC方案最受欢迎的IP成果之一。设计自定义处理器的工具对于确保——门级优化得到充分利用和重用以及跟上支持自定义处理器所需的生态系统的发展——这两者,都变得具有内在价值。例如,RISC-V已经普及;但它只定义了一个指令集,该指令集多次需要额外的特殊指令来处理机器学习,以及必要的编译器和用于优化的特定设计实例。设计、支持和软件实施的成本必须由内部设计团队长期规划和支持。拥有管理此要求的工具和支持可为成功实现带来巨大利益。Phsednc

开发AI SoC需要市场上一些最具创新性的IP。例子包括快速采用HBM2e、PCIe5、CCIX等新技术以及最新的MIPI技术。为培育这些标准技术的设计实现,设计师需要可支持早期软件开发和性能验证的先进的仿真和原型设计方案。同样由于设计的不成熟和复杂性,这些工具被频繁地多地用于AI。Phsednc

物理设计、验证和分析

预先构建的AI SoC验证环境只能由具有AI SoC开发经验的人员使用。因此,设计服务和设计第二代和后世代芯片组的公司在上市时间方面具有早于先行者的固有优势。设计师可以依靠服务作为有效的方式来利用AI SoC专业知识,加快产品上市速度,从而松绑内部设计团队,使其专注于设计的差异化特征。Phsednc

接口IP的硬化服务是另一种优化工具,可支持更低功耗和更小体积的实现。硬化的IP为SoC腾出了空间,以容纳更好的AI性能所需的宝贵的片上SRAM和处理器组件。Phsednc

最后,通过专业知识和已建立的工具链,可轻松快速地对不同的AI图进行基准测试。为基准测试活动手工编写这些图表可能是项艰巨的任务,但为了解SoC设计是否能提供所需的价值所必须。依靠具有可有效快速地对这些图表进行基准测试工具的处理器可加快系统设计,确保其满足要求。Phsednc

20190510-synopsys-5.jpgPhsednc

测试和封装

AI SoC正在使用一些最先进的FinFET工艺节点来提高性能、降低功耗、并增加片上存储器和计算能力。但从可测试性的角度看,最新的工艺节点会增加测试模式的数量,并增加了出现软缺陷的概率。测试集成、维修和诊断功能可帮助设计师克服可测试性障碍。 Synopsys的DesignWare STAR存储系统(DesignWare STAR Memory System)和STAR层级系统(STAR Hierarchical System)等工具可有效满足AI测试需求。Phsednc

HBM2和未来HBM2e等新技术需要特殊的封装专业知识和能力,因此需要特殊的凸点规划(bump planning)和与AI SoC开发相关的其它封装专业知识。Phsednc

结论

随着AI功能进入新市场,所选的用于集成的IP提供了AI SoC的关键组件。但除了IP外,设计师在利用AI专业知识、服务和工具方面找到了显著优势,以确保按时交付设计、为最终客户提供高水平的质量和价值,以满足新的创新应用需求。Phsednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • Microchip模拟嵌入式SuperFlash技术助力存算一体创新 SuperFlash memBrain存储器解决方案使知存科技片上系统(SoC)能够满足最苛刻的神经处理成本、功耗和性能要求
  • 用TinyML开始设计——开发评估套件 本文中展示的开发套件和评估板得到一些流行的机器学习库和用于 TinyML 工作流程资源的支持,包括用于微控制器的 Google TensorFlow Lite 和 Edge Impulse,因而它们能够成为您第一个项目的理想起点。
  • “中国IC设计成就奖”提名产品简介:全志科技高性能智能 高性能三重异构智能语音应用处理器R329芯片,采用业界先进的半导体工艺,首款集成Arm中国周易语音处理器。集成DSP、NPU、64位CPU及丰富的外设接口,创新突破了低功耗、边缘语音AI超级算力、多重异构通讯、多核调度等关键技术,处于国内领先水平。
  • “中国IC设计成就奖”提名产品简介:追萤3D AI芯片Ai310 埃瓦科技自主研发的追萤 3D AI芯片创新的采用了异构架构 SOC 设计和微内核架构设计,包含 NPU 神经网络加速核、3D 立体匹配加速核、ISP 核等功能性处理核心;其中 NPU 神经网络加速核基于可重构以及片上多级存储和缓存设计,使数据可高效送达加速核心,使该芯片拥有领先的高效智能处理能力、分析以及低功耗管理的能力;其设计架构的资源复用性使硬件计算单位可灵活分配,适应于不同场景的计算需求;在 3D 视觉算法加速方面创新的采用了自研立体匹配算法的 3D 加速微内核架构设计,可有效加速双目立体视觉、结构光等多种 3D 视觉算法。
  • “中国IC设计成就奖”提名产品简介:ada200优势 1.九天睿芯,感存算一体芯片,可以在功耗和性能满足”低功耗AI场景“的同时,成本也大幅度下降。2.采用模数混合的存内计算架构,ADA200相比传统数字芯片,1/3成本,1/10功耗。
  • “中国IC设计成就奖”提名产品简介:面向边缘视觉分析的 面向边缘视觉分析的数据流AI芯片CAISA是鲲云科技自主研发的专为人工智能图像提供高性能计算加速的AI芯片产品,是全球首个量产的数据流AI芯片。
  • “中国IC设计成就奖”提名产品简介:人工智能语音芯片CI 1、人工神经网络硬件引擎架构:具备高计算性能,进行神经网络计算时相当于数十个CPU并行计算的能力;低访问带宽和低功耗,通过并行计算和共用神经元权重参数,大幅降低访问带宽及功耗;高可配置性,支持神经元层数和节点数、神经网络结构的配置。 2、单、双、及麦克风阵列降噪增强技术:支持各种平稳、非平稳环境噪声抑制;可支持线阵、圆阵结构等常用麦阵结构;采用定向波束形成与自适应信号处理技术相结合;拾取方向动态可调;支持单声道、立体声等回声抑制;采用独立研发的空间预测技术,支持强回声情况下回声抑制;与降噪处理技术相结合;自动增益调节、高通、带通滤波等。 3、低功耗和可靠性设计技术:具备低功耗集成电路设计技术,包括基于活动语音检测的低功耗控制技术和时钟门控技术。 4、逻辑设计技术:掌握了语音信号处理IP的设计方法,包括算法硬件化、定点、浮点运算处理等。同时积累了整套SoC设计所需的控制类IP,并成功通过流片验证。
  • “中国IC设计成就奖”提名产品简介:智能安防AI SoC芯片 亿智SV826是2021年推出的高性能的安防AI SoC芯片,主要面向视频编解码AI摄像机产品。
  • “中国IC设计成就奖”提名产品简介:低功耗视觉AIoT SoC 亿智SH516芯片是亿智电子2021年推出的一款低功耗的智能视觉AIoT SoC芯片。
  • “中国IC设计成就奖”提名产品简介:高性能大算力全场景 - AI性能跑分更强,超越Nvidia Orin - 应用当前先进的安全技术和研发流程 - 国内唯一可获得、支持快速量产的整车智能计算平台芯片
  • “中国IC设计成就奖”提名产品简介:高端AIoT芯片RV1126 RK3568是瑞芯微的高端AIoT芯片。
  • “中国IC设计成就奖”提名产品简介:玉龙人工智能芯片Yu 玉龙(YULONG)是欧比特公司推出的新一代嵌入式人工智能系列处理器芯片,是目前市面上唯一的军用级人工智能芯片,并且实现了自主可控国产化生产。芯片聚焦于前端图像处理、前端信号处理和智能控制,芯片具有深度学习、神经网络算法的平台加速能力。Yulong810APro芯片为异构多核架构(CPU+AI加速器),采用FD-SOI生产工艺,具有高性能、高可靠、低功耗的特点,芯片面向航空航天、智能安防、机器人、AIoT、智能制造、智慧交通等应用场景。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了