运用可扩展多核处理器满足嵌入式应用日益增长的性能需求-EDN 电子技术设计

 下一代嵌入式应用需要对大型CPU集群和专用硬件加速器提供可扩展的支持，以实现所需的性能。大型多核处理器需要新的架构方法来提供更高的性能，并且不会给嵌入式设计者带来其他实现和时序收敛问题。

引言

由于工艺节点从云端拓展到互联网边缘与端点，高端嵌入式应用也随之发生转变。性能需求迅速演进，并改变了处理器架构及其在设计中的实现方式。这是增加多核处理器的应用以提供更高性能的背后原因。目前大多数高端处理器都支持双核和四核配置。有些处理器最多支持8个CPU核心，但即便如此无法满足存储、汽车、网络和5G等新兴应用的性能需求。下一代嵌入式应用需要对大型CPU集群和专用硬件加速器提供可扩展的支持，以实现所需的性能。大型多核处理器需要新的架构方法来提供更高的性能，并且不会给嵌入式设计者带来其他实现和时序收敛问题。dzMednc

嵌入式性能面临的挑战

毋庸讳言，先进工艺节点已无法像从前那样提供更高时钟频率和更低功耗。各代工艺节点的逻辑速度在持续增长，但内存访问时间却没有变化(图1)。处理器中的限速路径几乎总是经过内存。由于半导体物理学的真正局限性，这类情况在未来工艺节点上也不太可能发生转变。dzMednc

图1:嵌入式存储器性能差距dzMednc

同时，嵌入式应用的最高时钟频率已达到1GHz–2GHz范围（图2）。诚然，有些时钟频率高于2GHz，但这是例外。对于多数应用而言，这是无法实现的。功耗和面积都是有限的，这两者都会随着时钟频率迅速增加。大多数嵌入式设计的时钟频率都低于1GHz。未来这一趋势不会改变。就多数嵌入式设计而言，通过增加时钟频率来提高性能是不现实的。dzMednc

问题在于针对嵌入式应用的性能需求在不断增多。这是由竞争、新特性的添加和应用空间需求的变化所造成的。例如，更大容量和更高访问速度的需求使得SSD驱动器的尺寸迅速增大。此外，计算机储存和AI功能也被添加至嵌入式应用中，以延长驱动器寿命和提升数据访问性能。因此上述综合因素都对SSD控制器以及用于实现新功能的处理器提出了更高的性能需求。 dzMednc

dzMednc

图2:嵌入式处理器的最高速度为2GHzdzMednc

提高处理器性能

许多方法已经用于提高处理器性能。多年来，增加流水线级数一直被用于解决内存限速问题。例如，DesignWare® ARC® HS处理器具有10级流水线，两个周期的内存访问，能够在16FFC工艺中提供1.8GHz的时钟频率（最差情况下）。嵌入式设计的时钟频率是有限制的，因此在处理器的流水线上增加更多的处理级别并不会带来什么改善。今后这一情况可能会改变，但现如今10级流水线是嵌入式设计的最佳选择。 dzMednc

就性能增益与增加的面积和功耗对比而言，超标量实现是一个很好的折衷方案。从单一发射架构转变至双发射架构能够在面积和功耗有限增加的情况下将RISC性能提升40%。对于嵌入式处理器来说，这是一个很好的折衷方案。采用三发射或四发射架构将会进一步增加CPU面积与功耗，且性能提升幅度较小。以任何代价提高性能从来都不是嵌入式处理器的目标。dzMednc

添加乱序（OoO）执行可以提高嵌入式应用的性能，且不会增加时钟频率。通常，支持完整乱序的CPU会给嵌入式应用带来适得其反的效果。而采用有限乱序的方法可以在不增加处理器面积的情况下获得最佳性能提升。有限乱序通常用于高端嵌入式处理器。dzMednc

缓存的目的是为了让内存更加靠近处理器，从而提高性能。缓存支持处理器的单周期数据存取。将处理器所需信息存放于缓存中能够提升性能。经常使用的代码和数据保存在一级缓存中。使用较少的代码和数据保存在访问速度较慢的二级缓存或外部内存中，并在需要时进行读取。对于多核处理器来说，保持一级数据缓存之间的一致性也可以提高性能。一级缓存和一致性在嵌入式处理器中很常见，而二级缓存（和三级缓存）仅用于高端应用。dzMednc

在嵌入式设计中采用多个处理器的趋势正不断演进。几年前，一个典型的片上系统（SoC）只包含一到两个处理器。如今，即便是低端设计，处理器数量也超过5个，而且还在不断增加。为了支撑这一转变，中高端嵌入式应用的处理器提供了多核实现方式。支持两个、四个和八个CPU核心的处理器已经推出。程序员可以使用Linux或其他操作系统在CPU内核之间顺畅地进行操作，同时平衡执行以提高性能。dzMednc

硬件加速器正越来越多地应用于嵌入式设计。它们以最小的功耗和面积提供高性能，同时减轻处理器的负担。硬件加速器的主要缺点是它们的不可编程性。添加加速器使之与处理器并行工作可以缓解这种情况。然而，现有处理器只能有限度地支持硬件加速器，有的甚至无法提供支持。有些处理器（如ARC处理器）支持自定义指令，允许用户向处理器流水线添加硬件。尽管自定义指令很诱人，但硬件加速器也带来了其他好处，与处理器并行使用时，可以显著提高性能。dzMednc

嵌入式应用的处理器性能提升存在许多挑战。处理器已经支持更深层次的流水线技术，超标量实现和乱序功能能够有所帮助，但也只能到此为止。缓存技术已经非常丰富，一致性也是如此，因此不太可能取得进一步的进展。在设计中采用更多的CPU核心数与硬件加速器是嵌入式设计人员正采取的更高性能实现途径。dzMednc

下一代嵌入式处理器架构

下一代处理器将支持大型多核实现和硬件加速（图3）。处理器供应商要做的不仅仅是向现有处理器添加接口。支持4个或8个CPU内核的处理器已经达到了最大频率限制，并且在时序收敛方面可能会出现重大问题。增加更多的内核只会让这一问题变得更糟糕。下一代处理器必须从内部处理器互连的完全重构开始，改进时序收敛，解决速度限制，并增加内部带宽。外部接口的带宽也必须增加，以支持数据进出处理器。dzMednc

dzMednc

图3：下一代嵌入式处理器架构dzMednc

服务质量（QoS）技术在片上网络（NOC）中得到了广泛的应用，但在多核处理器中的应用却很有限。这种情况将在下一代处理器中发生改变，让程序员能够管理每个CPU核心和加速器的内部带宽，从而最大限度地提高性能。这取决于应用，虽然并非每个设计都需要服务质量技术，但在其他设计中，它对于确保可预测性能至关重要。dzMednc

大型处理器集群的优势

大型多核处理器比小型多核处理器具有优势。采用一个具有12个CPU核心的处理器，而不是使用具有4个CPU核心的三个处理器集群，将减少CPU核心之间的延迟，并支持对内核的直接窥探。大型处理器集群的另一个优势是能提供更优越的软件扩展性。具有12个CPU核心的处理器为程序员提供了更大的软件分区灵活性，用于处理任务的核心数量可以根据需要的性能动态进行分配。在多个处理器集群中，由于缺乏CPU内核之间的统一访问，因此很难获得这种级别的软件性能控制。dzMednc

大型多核处理器也将从与硬件加速器的紧密耦合中获得优势。将硬件加速器接口移动到处理器内部，而不是通过SoC总线连接它们，将减少SoC总线上的延迟和流量，同时提高数据共享和系统性能。采用共享用户寄存器也可以提高加速器上可编程控制的效率。dzMednc

ARC HS5x/HS6x

新思科技公司（Synopsys）下一代DesignWare ARC HS5x和ARC HS6x处理器IP利用前面描述的许多方法来提高处理器性能。这些处理器具有高速10级、双发射流水线，在功耗和面积有限的情况下提高了功能单元的利用率。ARC 64位 HS6x处理器具有完整的64位流水线和寄存器文件，支持64位虚拟地址空间和52位物理地址空间，可以直接寻址当前和未来的大内存，并支持128位加载和存储，以实现高效的数据移动。dzMednc

dzMednc

图4：DesignWare ARC HS5x/HS6x处理器IP框图dzMednc

dzMednc
32位ARC HS5x和64位HS6x处理器的多核版本都包含一个先进的高带宽内部处理器互连结构，其设计旨在通过异步时钟和高达800 GB/s的内部聚合带宽来简化时序收敛。新款ARC HS处理器的多核版本包括一个创新的互连结构，可连接多达12个核心，支持多达16个硬件加速器的接口。为了进一步简化时序收敛，每个核位于自己的功率域中，并且与其他核具有异步时钟关系。跟所有ARC处理器一样，HS5x和HS6x处理器都高度可配置，并采用ARC Processor Extension（APEX）技术，支持自定义指令，可满足每个嵌入式应用的独特性能、功耗和面积要求。dzMednc

为了加速软件开发，ARC HS5x和HS6x处理器由ARC MetaWare开发工具套件提供支持，可生成高效代码。处理器的开源软件支持包括Zephyr实时操作系统、优化的Linux内核、GNU编译器集合（GCC）、GNU调试器（GDB）和相关的GNU编程实用程序（二进制工具）。 dzMednc

总结

由于嵌入式应用的性能需求将日益增多，嵌入式应用中所采用的处理器也必须随之提高性能。鉴于面积与功耗的有限性，以及处理器性能简易提升已取得进展，这将面临挑战。先进工艺节点不再像以前那样带来性能提升，嵌入式处理器的速度也受到了限制。超标量和乱序功能在高端处理器中很常见，但64位(尽管必要)提供的性能提升有限。新一代多核处理器需要支持8个以上的CPU核心数，并需要采用硬件加速器内部互连结构。新处理器如DesignWare ARC HS5x和HS6x处理器IP将提供可扩展的性能和功能，并让设计师能够解决其嵌入式应用的功耗和面积需求。新款处理器采用先进的架构与高速内部互连结构，不仅满足了当今高端嵌入式应用的性能需求，同时也为未来设计留下了足够空间。 dzMednc

责编：Amy GuandzMednc

大型多核处理器也将从与硬件加速器的紧密耦合中获得优势。将硬件加速器接口移动到处理器内部，而不是通过SoC总线连接它们，将减少SoC总线上的延迟和流量，同时提高数据共享和系统性能。采用共享用户寄存器也可以提高加速器上可编程控制的效率。

阅读全文，请先

EDA/IP/IC设计自动驾驶汽车电子安全与可靠性

上一篇： 2021年室外无线网络的三大发展趋势 下一篇： 猎豹移动旗下猎户星空与南昌市、58集团签订家政机器人战略合作协议

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
客户的咖啡机卡住了：一个PUT拯救一条PCB产线的故事我曾担任工程师，在一家电子代工服务公司的工程部门工作，我们部门负责为生产线设计测试设备，同时也协助客户解决产品问题，当时生产的产品是一种咖啡机的PCB组件···
设计IP市场增幅创历史新高，谁才是最强王者？ 2024年，设计IP收入达到85亿美元，增长20%，创历史新高···
AI时代的氮化镓：市场与技术将走向何方？ AI时代，氮化镓、碳化硅这样类新兴技术也正与AI挂钩，因为AI基础设施的算力、电源需求都不同于往常。为此，我们采访了英飞凌高级副总裁、氮化镓业务负责人Johannes Schoiswohl，谈了谈氮化镓市场与技术的未来…
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版本 2 标准，可以为笔记本电脑、AI 视频设备和先进的图像信号处理器（ISP）系统提供前所未有的功能，改变了计算设备···
电力电子科学笔记：线性网络和Wolfram语言在本文中，我们将学习电子学中的两个基本电路：低通滤波器和高通滤波器，它们与输入信号无关···
台积电2nm工艺即将量产，苹果A20芯片可能才会上？去年12月，台积电在IEEE国际电子元件会议（IEDM）上正式推出了2nm工艺，如今有消息称，台积电已经顺利完成了2nm试产阶段，将在2025年下半年正式进入全面量产阶段···
DRAM基础知识：通过优化外围晶体管实现热稳定性 DRAM位单元具有一种非常基本的结构，由一个电容器(1C)和一个集成在电容器附近的晶体管(1T)组成···
物联网边缘传感器节点：超越单处理器嵌入式系统的演进嵌入式系统正以越来越快的速度继续其技术演进；我们家庭、车辆和工作场所中的设备功能正在突飞猛进地发展。这一进步的一个关键驱动因素是，即使是最小的电子设备也能够连接到我们的现代网络基础设施···
万亿储能赛道崛起：解码艾睿电子新型储能解决方案在2025 IIC Shanghai同期举办的《国际电子商情》创刊40周年领袖沙龙上，艾睿电子销售总经理杨思辉先生深入探讨了新型储能技术及其在实现永续未来中的重要作用，通过一系列前沿的技术方案和产品，展示了艾睿电子在储能领域的深厚积累···
新技术、新平台、新模式：揭秘腾讯的半导体全产业链解决 3月27日，在2025中国IC领袖峰会上，腾讯云半导体行业首席专家刘道龙先生发表了题为“《新技术、新平台、新模式》驱动先进集成电路高速发展”的主题演讲，深入探讨了腾讯如何利用自身技术优势，助力半导体行业实现数字化转型和智能化升级···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

运用可扩展多核处理器满足嵌入式应用日益增长的性能需求

引言

嵌入式性能面临的挑战

提高处理器性能

下一代嵌入式处理器架构

大型处理器集群的优势

ARC HS5x/HS6x

总结