利用本性、借力培育打造令人惊叹的AI SoC-EDN 电子技术设计

 在过去十年中，设计人员开发了各种硅技术，能够以足够快的速度运行先进的深度学习数学，以探索和实现人工智能（AI）应用，如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确，它是推动新的片上系统（SoC）投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络（CNN）和其它深度学习算法已经产生了这样的影响——即SoC内的AI能力正变得普及。

在过去十年中，设计人员开发了各种硅技术，能够以足够快的速度运行先进的深度学习数学，以探索和实现人工智能（AI）应用，如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确，它是推动新的片上系统（SoC）投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络（CNN）和其它深度学习算法已经产生了这样的影响——即SoC内的AI能力正变得普及。 Semico的《2018年人工智能报告》对此进行了有效总结：“......某种程度的AI功能几乎在各类硅片中都很强大、且发展势头强劲。”2cxednc

除视觉应用外，深度学习还用于解决复杂问题，例如蜂窝基础设施的5G实现，以及通过自组织网络（SON）的配置、优化和修复自身的能力来简化5G操作任务。 5G网络将增加新的复杂层，包括波束成形、毫米波（mmWave）中的附加频谱、载波聚合和更高带宽，所有这些都需要机器学习算法在分布式系统中适当地优化和处理数据。2cxednc

行业巨头和数百家初创公司都致力于将AI功能推广到各行各业的大量新的SoC和芯片组——从云服务器农场到每家厨房的家庭助理。 SoC设计师正在使用更多来自生物学的例子而不仅仅是他们旨在复制的神经网络；他们拥抱——利用设备的基本构建模块（本性或DNA），以及针对AI设计的培育（环境方面的设计工具、服务和专业知识等）——这两种概念，以期超越竞争对手并不断改进产品。2cxednc

对AI SoC的培育已经不限于硅设计

在SoC中添加AI功能突显了当今用于AI的SoC架构的弱点。在为非AI应用构建的SoC上实现视觉、语音识别和其它深度学习/机器学习算法时，SoC的资源会捉襟见肘。选择和整合IP清楚地确定了AI SoC的基础效率，它构成了AI SoC的“DNA”或本征特性。（参见：《AI SoC的DNA》）。例如，引入自定义处理器或处理器阵列可以加速AI应用中所需的大规模矩阵乘法运算。2cxednc

然而，对设计的培育会影响各部分在硬件中如何协同工作，或者如何优化IP以实现更有效和优化的AI SoC。优化、测试和对比SoC性能的设计流程需要工具、服务和/或专业知识来优化AI系统。通过定制和优化在设计流程中支持设计可最终决定该SoC在市场中的成功。2cxednc

随着AI SoC的复杂性不断增加，使用工具、服务和专业知识来降低功耗、提升性能和削减成本变得益发重要。设计师需要各种支持手段来加速其设计流程和芯片成功。2cxednc

AI设计的三大挑战

依靠传统的设计流程不会产生每家公司都追求的高性能、市场领先的AI方案。设计师必须考虑各种半导体方案。 Semico的《2018年市场报告》指出，“用于培训和推理的架构在不断完善，以达到可提供恰当性能水平的最佳配置。”2cxednc

数据中心架构包括GPU、FPGA、ASIC、CPU、加速器和高性能计算（HPC）方案，而移动市场则是各种片上处理方案的盛宴，如ISP、DSP、多核应用处理器、音频和传感器处理子系统等。可通过专有SDK有效利用这些异构方案，以包纳AI和深度学习功能。此外，对于预期中的自主驾驶能力，汽车市场诉求差异很大。例如，正如可预期的那样，Level 5自主驾驶SoC所支持的带宽和计算能力比Level 2+自主驾驶SoC所能支持的要高出得多。2cxednc

这些AI设计中的三个一致性挑战包括：2cxednc

添加专门的可更高效地多地执行必要的数学运算（如矩阵乘法和点积）的处理功能
用于处理深度学习所需的诸如权重和激活等特殊系数的高效内存访问
用于芯片到芯片、芯片到云、传感器数据和加速器到主机连接的可靠、经过验证的实时接口

2cxednc

机器学习算法面临的最大障碍之一是传统SoC架构的内存访问和处理能力不尽如人意。例如，流行的冯·诺伊曼架构就面临着对AI不够有效的诟病，导致大家竞相搭建更好的机器（即SoC系统设计）。2cxednc

那些有幸设计第二代和第三代面向AI的SoC的玩家已经添加了更高效的AI硬件加速器和/或选择为现有ISP和DSP添加功能以应对神经网络挑战。2cxednc

然而，简单地添加有效的矩阵乘法加速器或高带宽存储器接口虽被证明有帮助，但尚不足以成为AI的市场领导者，这一局面强化了在系统设计期间专门针对AI进行优化的概念。2cxednc

机器学习和深度学习适用于各种各样的应用，因此设计师在定义特定硬件实现的目标方面存在很大差异。此外，机器学习数学进展迅速，使架构灵活性成为一项强力诉求。对于垂直整合的公司，他们可能能够将其设计范围缩小到特定用途、增加优化，但也可以灵活地容纳其它不断发展的算法。2cxednc

最后，正如发布在Linley旗下的《微处理器报告（Microprocessor Report）》期刊的《AI基准测试仍不成熟》一文所讨论的那样，人工智能算法和芯片的基准测试仍处于起步阶段：2cxednc

“几款流行的基准测试程序可评估CPU和图形性能，但即使AI工作负载变得越来越常见，比较AI性能仍是个挑战。许多芯片供应商仅引用每秒浮点运算的峰值执行率，或者仅针对整数设计的每秒运算。但与CPU类似，由于软件、内存或设计中其它部分的瓶颈，深度学习加速器（DLAs）的运行速度通常远低于峰值理论性能。大家都同意应在运行实际应用时测量性能，但在运行哪些应用以及如何运行方面各执己见。”（2019年1月）2cxednc

有趣的新基准开始面对特定市场。例如，MLPerf目前正在研究训练AI SoC的有效性，并计划进行拓展。虽然这是解决基准测试挑战的良好开端，但训练AI SoC仅是影响系统结果的众多不同市场、算法、框架和压缩技术的一小部分。2cxednc

另一家组织AI-Benchmark专注于对手机中的AI功能进行基准测试。手机使用少量芯片组，其中一些是早期版本，除了传统处理器之外不包括任何AI加速，采用的做法是针对AI的软件开发套件（SDK）实现。这些基准测试表明，利用现有的非AI优化的处理方案无法提供所需的吞吐量。2cxednc

所选择的处理器或处理器阵列通常具有每秒操作的最大额定值或特定处理技术的特定最高频率。处理器性能还取决于每条指令的能力。另一方面，接口IP（PCIe®、MIPI、DDR）和基础IP（逻辑库、内存编译器）具有最大的理论内存带宽和数据吞吐量水平；在接口IP的情况下，通常由标准组织定义。2cxednc

但是，系统的真正性能不是这些部分的简单总和；它取决于能够将处理器、存储器接口和数据管道正确连接在一起的能力。整个系统的性能由每个集成部件的能力以及如何优化这些部件来决定。2cxednc

虽然设计师已经在AI SoC的处理器、SDK、数学和其它相关设计方面取得了快速进步，但这些变化使得进行逐项对比变得困难。2cxednc

压缩在边缘应用中的作用

压缩将是边缘AI的关键组件，例如在进行实时面部识别的相机中、执行自主驾驶的汽车或运行超级图像分辨率的数字视频等应用。就使用压缩来说，市场似乎还只是蜻蜓点水。理解算法的类型以及某种压缩级别所赋能的准确度水平是困难的，且还需要试错迭代。2cxednc

人工智能驱动协同设计

虽然多年来人们一直在讨论硬件/软件协同设计的功用，但人工智能可能会放大实际实现的重要性。协同设计AI芯片的概念不限于硬件和软件。存储器和处理器也需要专门为AI协同设计。2cxednc

例如，在确定系统中每个英特尔至强主处理器对应多少个Google TPU（谷歌专为机器学习定制的一款芯片）时，协同设计显而易见，且在其单板计算机的配置和软件程序手册中对此进行了概述。2cxednc

对同一AI算法使用不同的AI框架是协同设计可以提高效率的另一个例子。每个框架的输出可能需要不同的存储容量。在硬件设计之前了解存储容量使设计师能优化芯片的功耗、大小和性能。2cxednc

用于AI的存储和处理方面的协同设计势在必行。例如，深度学习算法需要存储权重、激活（activation）和其它组件。有趣的是，每次都可以重新计算深度学习算法的激活，以减少内存存储。即使必须考虑额外的处理资源或额外的处理时间，内存节省和降低功耗的好处也可能超过所付代价。类似地，存储器内计算技术可能在AI SoC中扮演未来的角色。2cxednc

2cxednc

这些共同设计的例子是由人工智能的新投资拉动的，这种趋势将继续需要新的和额外的专业知识。2cxednc

AI实现专家可以优化协同设计系统架构所需的权衡。专家不仅事先了解在先前的设计中任务是如何完成的，而且他们也非常了解能更好地实现成功设计的适当的工具和服务。在AI设计流程中，设计师在采用仿真器、原型设计和架构探索，以便能够快速实施最佳设计实践。2cxednc

例如，让我们以一个必须在非常有限的功率预算下执行非常困难任务的芯片组为例。 SoC内的管道带宽必须足够宽，以便在不利用大量资源的情况下将数据从处理器移动到存储器或其它系统组件。管道越细，可以添加的处理器和内存就越多。管道越粗，可用的处理和内存越少，这直接影响AI性能。这些权衡可以在仿真器、原型设计环境和架构探索工具中建模，从而为AI设计提供关键的市场优势。2cxednc

培育AI SoC设计

SoC的开发流程不断变化，但本质上包括各标准阶段，如：系统规范和架构设计；逻辑和功能电路设计；物理设计、验证和分析；制造、封装和测试；以及硅后（post silicon）验证。新的AI功能可在各阶段增加复杂性。集成的IP明确规定了某些理论上的最大能力，但设计是如何被支持的决定着实现能够在多大程度上逼近理论最大值。2cxednc

系统与架构设计

由于已经发现传统架构对于AI SoC来说效率低下，因此系统规范需要越来越多的架构探索来优化设计。因为认为传统架构效率不高，架构服务就更重要。2cxednc

2cxednc

此外，因利用经验丰富的设计团队进行优化和定制，AI SoC与“代”俱进，一代更比一代强。深度学习算法包括许多存储的权重，理想情况下它们存储在片上SRAM中以降低功耗和减少处理工作量，借助定制来优化SRAM编译器的功率和密度是个明显趋势。2cxednc

AI在安全漏洞方面提出了新的挑战。 AI的数据往往是私有的，所开发的算法非常昂贵，并且就最终结果的准确性而言，仅破坏一个比特的代价就可能是灾难性的。实施完整的可信根（ Root of Trust）子系统或安全区域可能很有价值，但会需要额外的沟通，以确保基于SoC流程早期开发的已定义威胁配置文件可保护特定的漏洞。2cxednc

2cxednc

电路设计

机器学习数学可要求标量、向量和大规模矩阵乘法，以及可以设计用于优化特定算法的专用处理器。定制处理器是新型AI SoC方案最受欢迎的IP成果之一。设计自定义处理器的工具对于确保——门级优化得到充分利用和重用以及跟上支持自定义处理器所需的生态系统的发展——这两者，都变得具有内在价值。例如，RISC-V已经普及；但它只定义了一个指令集，该指令集多次需要额外的特殊指令来处理机器学习，以及必要的编译器和用于优化的特定设计实例。设计、支持和软件实施的成本必须由内部设计团队长期规划和支持。拥有管理此要求的工具和支持可为成功实现带来巨大利益。2cxednc

开发AI SoC需要市场上一些最具创新性的IP。例子包括快速采用HBM2e、PCIe5、CCIX等新技术以及最新的MIPI技术。为培育这些标准技术的设计实现，设计师需要可支持早期软件开发和性能验证的先进的仿真和原型设计方案。同样由于设计的不成熟和复杂性，这些工具被频繁地多地用于AI。2cxednc

物理设计、验证和分析

预先构建的AI SoC验证环境只能由具有AI SoC开发经验的人员使用。因此，设计服务和设计第二代和后世代芯片组的公司在上市时间方面具有早于先行者的固有优势。设计师可以依靠服务作为有效的方式来利用AI SoC专业知识，加快产品上市速度，从而松绑内部设计团队，使其专注于设计的差异化特征。2cxednc

接口IP的硬化服务是另一种优化工具，可支持更低功耗和更小体积的实现。硬化的IP为SoC腾出了空间，以容纳更好的AI性能所需的宝贵的片上SRAM和处理器组件。2cxednc

最后，通过专业知识和已建立的工具链，可轻松快速地对不同的AI图进行基准测试。为基准测试活动手工编写这些图表可能是项艰巨的任务，但为了解SoC设计是否能提供所需的价值所必须。依靠具有可有效快速地对这些图表进行基准测试工具的处理器可加快系统设计，确保其满足要求。2cxednc

2cxednc

测试和封装

AI SoC正在使用一些最先进的FinFET工艺节点来提高性能、降低功耗、并增加片上存储器和计算能力。但从可测试性的角度看，最新的工艺节点会增加测试模式的数量，并增加了出现软缺陷的概率。测试集成、维修和诊断功能可帮助设计师克服可测试性障碍。 Synopsys的DesignWare STAR存储系统（DesignWare STAR Memory System）和STAR层级系统（STAR Hierarchical System）等工具可有效满足AI测试需求。2cxednc

HBM2和未来HBM2e等新技术需要特殊的封装专业知识和能力，因此需要特殊的凸点规划（bump planning）和与AI SoC开发相关的其它封装专业知识。2cxednc

结论

随着AI功能进入新市场，所选的用于集成的IP提供了AI SoC的关键组件。但除了IP外，设计师在利用AI专业知识、服务和工具方面找到了显著优势，以确保按时交付设计、为最终客户提供高水平的质量和价值，以满足新的创新应用需求。2cxednc

阅读全文，请先

人工智能 EDA/IP/IC设计技术实例

上一篇： 详解泛在电力物联网的两大本质 下一篇： 边充电边玩手机有害？手机充放电到底有哪些讲究？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。
增强自主移动机器人的安全性如何设计出能安全有效地与人类协作的 AMR 系统，需要考虑哪些关键要素？本文进行了探讨。
JEDEC最终确定HBM4标准，内存大厂的更新进度如何？近日，JEDEC宣布发布HBM4 DRAM标准，为AI和HPC提供更高的带宽、效率和容量···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

利用本性、借力培育打造令人惊叹的AI SoC

对AI SoC的培育已经不限于硅设计

AI设计的三大挑战

压缩在边缘应用中的作用

人工智能驱动协同设计

培育AI SoC设计

系统与架构设计

电路设计

物理设计、验证和分析

测试和封装

结论