你的AI芯片有自己的DNN吗？-EDN 电子技术设计

 为了让AI加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车中，TFLOP已经成为许多所谓大脑芯片的关键指针，然而，有专家认为这种野蛮处理方式并不可持续…

为了让人工智能(AI)加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车(AV)中，TFLOP(兆次浮点运算)已经成为许多所谓大脑芯片的关键指针。这场竞赛的选手包括Nvidia的Xavier、Mobileye的EyeQ5、特斯拉(Tesla)的全自动驾驶(FSD)计算机芯片，以及NXP-Kalray芯片。Y8eednc

然而，有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中，DeepScale执行长Forrest Iandola提出其不可持续的理由，是因为AI硬件设计师所持有的许多常见假设已经过时。随着AI应用日益增多，AI供货商从中积累更多的经验，这导致不同的AI任务开始需求不同的技术方法。如果事实的确如此，AI使用者购买AI技术的方式将会改变，供货商也必将做出回应。Y8eednc

20191008NT31P1 Y8eednc

DeepScale执行长Forrest IandolaY8eednc

Iandola表示，就拿神经网络架构搜寻(NAS)为例，其快速发展不仅加快优化深度神经网络(DNN)的搜寻过程，并降低这一过程的成本。他相信有一种方法可以“在目标任务和目标运算平台上建立最低延迟、最高精准度的DNN，”而不是依赖于更大的芯片来处理所有的AI任务。Y8eednc

Iandola设想未来AI芯片或传感器系统(如计算机视觉、雷达或光达)供货商不仅提供硬件，而且还会提供自己的高速、高效的DNN——为应用而设计的DNN架构。任何供货商都会为不同的运算平台匹配各自所需的DNN，如果事实真是如此，那AI竞赛中的所有赌注都将失效。Y8eednc

需要明确的是，目前无论是芯片公司还是传感器供货商都没有提出上述前景。甚至很少有人在特定硬件上运作有针对性AI任务的可能性。Y8eednc

Iandola及其DeepScale团队最近设计了一系列DNN模型，称为“SqueezeNAS”。在最近的一篇报告中，他们声称，当在目标平台上搜寻延迟时，SqueezeNAS“可以建立更快、更准确的模型”。这篇报告推翻了AI小区先前对NAS、乘积累加(MAC)运算和将ImageNet精确度应用于目标任务时所做的一些假设。Y8eednc

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立，是一家位于加州山景城的新创公司，致力于开发“微型DNN”。两位联合创始人曾在加州大学柏克莱大学分校共事，DeepScale因其快速高效的DNN研究而在科学界备受推崇。Y8eednc

手工设计(Manual designs)

要想真正理解机器学习在计算机视觉方面的最新进展的意义，需要了解其发展历史。Y8eednc

还记得AlexNet网络结构模型在2012年赢得ImageNet影像分类竞赛吗？这为研究人员打开了竞争的大门，让他们专注于ImageNet研究，并寻找能够在计算机视觉任务上达到最高精准度的DNN，以此开展竞争。Y8eednc

20191008NT31P2 Y8eednc

ImageNet分类错误统计。(数据源：ResearchGate)Y8eednc

通常，这些计算机视觉研究人员依靠专家工程师，他们会手工设计快速且高精准度的DNN架构。Y8eednc

从2012年到2016年，他们提高了计算机视觉的准确性，但都是透过大幅增加执行DNN所需资源来实现这一目标。Iandola解释，例如，赢得2014年ImageNet比赛冠军的VGGNet，其使用的运算量是AlexNet的10倍，参数是AlexNet的2倍。Y8eednc

到2016年，学术研究界发现利用增加DNN的资源需求来提高准确性“不可持续”。SqueezeNet便是研究人员寻找的众多替代方案之一，由Iandola及其同事在2016年发表，它展示出在微小预算(低于5MB)参数下ImageNet的“合理的准确性”。Y8eednc

Squeezenet引发了两个重大变化。相对于SqueezeNet和其他早期运算而言，MobileNetV1能够大幅度减少MAC的数量，Shufflenetv1是为行动端CPU实现低延迟而优化的DNN。Y8eednc

利用机器学习改善机器学习

如前所述，所有这些先进DNN都是透过手工设计和调整神经网络架构开发而成。由于手工流程需要专业的工程师大量的除错，这很快就成为一个成本太高、耗时太久的提议。Y8eednc

因而基于机器学习，实现人工神经网络设计自动化的理念，NAS应运而生。NAS是一种搜寻最佳神经网络架构的算法，并改变了AI格局。Iandola称，“到2018年，NAS已经开始构建能够以较低延迟运行的DNN，并且比以前手工设计的DNN产生更高的准确性。”Y8eednc

强化学习(Reinforcement Learning)

随后，计算机视觉界开始使用基于机器学习的强化方法——强化学习。换句话说，“机器学习得到回馈来改善机器学习，”Iandola解释。在基于强化学习的NAS下，未经训练的强化学习获得建议，指定层数和参数来训练DNN架构。一旦对DNN进行训练，训练运作的结果将作为回馈，从而推动强化学习执行更多DNN来展开训练。Y8eednc

经证明，基于强化学习的NAS是有效的。Google MnasNet就是一个很好的例子，它在ImageNet延迟和准确性方面都优于ShuffleNet。但它也有一个关键的弱点：成本太高。基于强化学习的搜寻通常需要数千个GPU天(GPU day)，以训练数百乃至数千个不同的DNN，才能生成理想的设计。“Google负担得起，”Iandola表示，但大多数其他公司负担不起。Y8eednc

现实地说，一个基于强化学习的NAS要训练一千个DNN，每个DNN通常需要一个GPU天。考虑到目前亚马逊(Amazon)云端服务平台的价格，Iandola估计，一个使用基于强化学习的NAS搜寻所花费的云端运算时间可能耗资高达7万美元。Y8eednc

超级网络(Supernetwork)

在这种情况下，去年底出现了一种新的NAS类型，称为基于“超级网络”的搜寻。它的典型代表包括FBNet(Facebook柏克莱网络)和SqueezNet。Y8eednc

20191008NT31P3 Y8eednc

搜寻时间减少100倍。(数据源：DeepScale)Y8eednc

Iandola解释：“超级网络采用一步到位的方法，而不是培训1,000个独立的DNN。”例如，一个DNN有20个模块，每个模块有13个选项。若为每个模块选择一个最喜欢的选项，“你正在以10个DNN训练运作花费为代价，一次性训练一个汇集了千兆种DNN设计的DNN，”Iandola解释。Y8eednc

结果显示，基于超级网络的NAS可以在10个GPU天的搜寻时间内建立DNN，其延迟和准确性优于MnasNet。“这让搜寻成本从7万多美元减少到大约700美元的亚马逊云端服务GPU时间，”Iandola说。Y8eednc

“10个GPU天”的搜寻时间相当于在一台如衣柜般大小的8 GPU机器上花费一天的时间，”Iandola解释。Y8eednc

20191008NT31P4 Y8eednc

基于强化学习与基于超级网络的NAS比较。(数据源：DeepScale)Y8eednc

过时的假设

机器学习的简短历史向我们展示神经结构搜寻的出现如何为计算机视觉研究奠定基础。但是在这个过程中，它也反驳了研究团体早期的一些假设，Iandola指出。Y8eednc

那么，哪些假设需要纠正呢？Y8eednc

Iandola称，大多数AI系统设计者认为，ImageNet分类中最精确的神经网络可以为目标任务提供最精确的骨干网络。但计算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标追踪、距离估计和自由空间等。“并非所有任务都是平等的，”Iandola强调。Y8eednc

ImageNet的准确性与目标任务的准确性没有太紧密的关联。“这没法保证。”他说。Y8eednc

来看由Iandola团队创建的SqueezeNet。Iandola解释，这是一个小型的神经网络，它的ImageNet分类精准度明显低于VGG，但在“用于辨识一组影像中相似斑块的任务”时，它比VGG更准确。Y8eednc

随着分类任务达到极限，Iandola坚信是时候为不同的任务设计不同的神经网络了。Y8eednc

另一个普遍的假设是“在目标运算平台上减少MAC将产生更低的延迟。”然而，最近的研究说明，减少MAC与减少延迟并无太大关联。“拥有较少MAC的神经网络并不总是能够实现较低的延迟，”Iandola指出。Y8eednc

在Iandola的SqueezeNAS报告中，他坚持认为，不仅仅是不同的AI任务需要不同的DNN。为目标运算平台(如CPU、GPU或TPU的特定版本)选择合适的DNN也非常重要。Y8eednc

例如，他引用了为不同智能型手机优化网络的FBNet作者的话。他们发现DNN在iPhonex上运作得很快，但在三星Galaxy S8上执行得很慢。在报告中，Iandola的团队总结，“即使MAC的数量保持不变，不同的卷积维数也会根据处理器和核心实现决定运作得更快或更慢。”Y8eednc

对自动驾驶的影响

今天，DeepScale已经与多家汽车供货商建立了合作关系，包括Visteon、Hella Aglaia Mobile Vision GmbH和其他未透露名称的公司。DeepScale一直在开发微型DNN，该公司声称，他们在保证最先进的性能的同时，它们需要的运算量更少。Y8eednc

在SqueezNas的报告中，Iandola和他的同事解释，其团队使用基于超级网络的NAS来设计一个用于语义分割的DNN，用于辨识道路、车道、车辆和其他物体的精确形状等具体任务。“我们对NAS系统进行配置，以优化Cityscapes语义分割数据集的高精准度，同时在小型车辆级运算平台上实现低延迟。”Y8eednc

随着SqueezNAS的发展，DeepScale对自己的定位是：在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。Y8eednc

随着AI芯片即将席卷市场，Iandola认为系统设计师必须明智地选择加速器。他们应该确切地考虑硬件应该执行哪种AI任务，以及硬件加速器应该在哪种神经网络上运作。Y8eednc

安全摄影机、自动驾驶车和智能型手机都将使用AI芯片。考虑到每个系统所需的速度、准确性、延迟和应用程序大不相同，确定合适的硬件和NAS就变得至关重要。Y8eednc

Iandola表示，对于OEM车厂来说，要把一个测试版自动驾驶车变成一个商业产品，必须把目前储存在自动驾驶车后行李箱中的刀锋服务器抽取出来。Iandola预测，汽车制造商可能会要求硬件芯片公司提供适合硬件平台的优化DNN。Y8eednc

对于Nvidia这样的公司来说，这可能不成问题，因为它的GPU得到了一个大型软件生态系统的支持。然而，大多数其他AI硬件供货商将会吓出一身冷汗。Y8eednc

此外，随着一系列新的传感器——摄影机、光达和雷达——被设计进自动驾驶车，汽车OEM将面临一些残酷的现实，例如，每个传感器可能使用不同类型的神经网络。另一个例子是，不同品牌设计的光达使用不同的AI硬件。Iandola指出，“今天，无论是传感器供货商还是AI处理器公司都没有提供针对其硬件进行优化推荐的神经网络。”Y8eednc

Iandola表示，OEM车厂和一级零组件供货商将开始要求优化DNN，以匹配特定硬件和AI任务，这将无法避免。“我们相信，使用NAS优化目标运算平台上的低延迟变得越来越重要。”Y8eednc

随着基于超级网络的NAS出现，NAS的成本已经在下降。因此，现在可能是时候让硬件供货商开始寻找自己的优化DNN。当被问及DeepScale是否计划透过合作、授权或为AI硬件公司开发优化DNN来填补这一缺口时，Iandola说，“我们还没有真正考虑过这个问题。”Y8eednc

(参考原文： Does Your AI Chip Have Its Own DNN?，本文同步刊登于EE Times Taiwan 杂志10月刊)Y8eednc

阅读全文，请先

Junko Yoshida

ASPENCORE全球联席总编辑，首席国际特派记者。曾任把口记者（beat reporter）和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业，尤其关注中国。她的关注重点一直是新兴技术和商业模式，新一代消费电子产品往往诞生于此。她现在正在增加对中国半导体制造商的报道，撰写关于晶圆厂和无晶圆厂制造商的规划。此外，她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。自1990年以来，她一直在为EE Times提供内容。

进入专栏

模拟/混合信号/RF

上一篇： 深入理解功率MOSFET数据表(下) 下一篇： 未来iphone镜头或不再凸起

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

你的AI芯片有自己的DNN吗？