广告

Arm以历史罕见阵容IP推进全面计算战略

2021-05-29 邵乐峰 阅读:
从全面升级到Armv9架构,到公布Neoverse V1和N2平台技术细节,再到推出三款基于Armv9架构的全新CPU内核,短短两个月时间里,Arm全面计算(Arm Total Compute)战略正在以令人难以置信的速度加速推进,密集,但有条不紊。

从全面升级到Armv9架构,到公布Neoverse V1和N2平台技术细节,再到推出三款基于Armv9架构的全新CPU内核,短短两个月时间里,Arm全面计算(Arm Total Compute)战略正在以令人难以置信的速度加速推进,密集,但有条不紊。oMXednc

何为“全面计算”

其实在2019年,Arm就提出要在共同架构下推动全面计算,旨在解决单个IP与碎片化解决方案优化问题时面临的重大挑战,并随后发布了Total Compute解决方案白皮书。这意味着,在解决系统创新设计的挑战时,Arm需要将关注焦点逐渐从单一的产品演进,转化为以应用场景与体验为导向的系统解决方案,要对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。oMXednc

oMXednc

这是在思考方式上做出的重大转变。oMXednc

Arm全新的IP设计思路可以归纳为两点:一是以应用场景、消费者体验与生态系统的需求为核心;二是深度聚焦在性能、安全性与开发人员介入权的优化,从而为未来的计算平台提供安全的基础,提升性能与效率,给予开发人员通过整个Arm生态系统获取更多性能的机会。oMXednc

Arm高级副总裁兼终端设备事业部总经理Paul Williamson表示,在全面计算的概念下,IP之间的PPA(性能、功率、面积)原则也许不再是最重要的,反而是系统级的性能更为重要。此外,要确保开发者拥有最佳的开发体验、并且对每一台设备的性能与安全功能都有更简易的取用途径。oMXednc

来自Arm的最新统计数据显示,仅在2020年Q4季度,Arm芯片合作伙伴就出货了73亿颗Arm架构芯片(年增22%),相当于每秒出货超过900颗芯片、每日出货7000万颗芯片,创下出货量历史新高。而2020年的总出货量更是高达250亿颗(年增13%)累计总数已超过1,900 亿。同时,Arm Mali GPU出货量累计超过80亿颗,其中2020年出货超过10亿,持续位居全球GPU出货量榜首。oMXednc

授权业务方面,2020财年,Arm与104家客户签署了162个授权协议,其中有超过一半的授权对象为首次与Arm合作的企业。Arm Flexible Access 目前已有 90 家合作伙伴,通过该计划,这些合作伙伴可以更容易地获取各项全球领先的 Arm IP、工具与支持。oMXednc

按照Paul Williamson的说法,Armv9带来了落实全面计算设计战略的三大关键原则:首先是安全性,主要是引入内存标签扩展(MTE)、指针验证(pointer authentication, PA)等新的安全技术;其次是开发者可及性,例如在机器学习方面,通过支持BFloat16格式更好地去支撑Int8计算和BFloat16 的Matmul;第三是计算性能,通过提升可伸缩矢量扩展能力,能够更好地帮助开发者对高阶的应用场景进行开发,比如图像信号处理。oMXednc

“Arm正致力于将Armv9技术引入包括笔记本电脑、台式机、云、5G网络、数据中心、更多终端与车载架构计算在内的各个领域,借助移动生态系统的规模优势,以系统级设计最大程度地提高性能。”Paul Williamson说,目前来看,全面计算在高性能应用场景(游戏生态、拥有丰富人工智能功能的应用)、涉及安全功能的应用场景(安全交易、银行类应用、设备端个人数据保护等)中将会拥有更高的接受度。 oMXednc

例如在游戏中,“我们测量了整个游戏内容中全面计算系统优化的结果,每个系统组件都有助于性能的提升。Cortex-A710 CPU在运行驱动工作负载时,带来了33%的性能提升;Mali-G710带来了20%的性能提升,我们的系统级IP提供了15%的效率提升。”oMXednc

再比如在AI中,“不同的Arm IP上运行多样的AI工作服在带来的巨大性能提升。这些性能提升各异,从Mali-G710平均35%的提升,到Cortex-M55的高达700%的提升,真是针对能耗有限制的工作负载,例如关键字侦测。”oMXednc

在多种不同应用场景之间进行设计权衡是比较困难的。因此,Arm全面计算框架的推出为生态系统合作伙伴提供了跨多种应用的可扩展性,也为具体的场景用例提供了特定的加速或增强功能,既能针对应用场景构建优化的解决方案,同时也能平衡解决方案的性能和成本,这是下游设计真正需要的,在真实的用例中也非常有价值。 oMXednc

高筑墙,广积粮

关于Armv9架构和Neoverse V1/N2平台技术的更多内容,本刊此前曾进行过持续追踪报道,有兴趣的读者可点击《Armv9细节公布,Arm迎来十年最大架构革新》、《性能如此强悍的服务器CPU对Arm意味着什么?》等文章进行了解,本文将更多介绍最新推出的IP套件,包括:首批Armv9 Cortex CPU、Mali GPU和全新的CoreLink系统 IP,共计10款产品。oMXednc

Arm Cortex CPU:全面计算解决方案的基石 

三款Armv9架构的CPU核包括:旗舰级Cortex-X2、大核CPU Cortex-A710、高效率小核Cortex-A510。oMXednc

oMXednc

其中,Cortex-X2主要面向智能手机市场,相比于Cortex-X1,性能提升16%,可将旗舰型安卓智能手机的性能在当前基础上再提升30%。除了峰值性能外,Cortex-X2还可在旗舰智能手机和笔记本电脑之间扩展,使合作伙伴可以根据市场需求来设计基于不同场景的计算能力。oMXednc

Cortex-A710是首款基于Armv9架构的大核CPU,与Cortex-A78相比,能效提升30%,性能提升10%。通过性能和效率的提升,当智能手机运行高要求的App时,用户将获得比以往更长的使用时间以及更优化的体验。oMXednc

Cortex-A510是Arm过去四年来推出的首款高效率小核,其性能提升35%,机器学习性能提升超过3倍。它所带来的性能水平已经接近几年前推出的上一代大核Cortex-A73,性能差距不到10%,但能效优化可达35%,适用于智能手机、家用设备和可穿戴设备。oMXednc

Armv9-A CPU集群的支柱是新款的动态共享单元(DynamIQ Shared Unit)DSU-110,该组件可为不同的细分市场提供各种解决方案。DSU-110具备可扩展性,可支持多达八个Cortex-X2内核配置,也难怪Williamson在介绍中说,“一台基于Cortex-X2的笔记本电脑比起2020年市场主流的笔记本,其单线程性能可领先40%。“oMXednc

oMXednc

如下图所示,在2021年消费设备中常见的“1超大核+3大核+4小核,4MB L3(DSU)” Tri-Cluster CPU架构中,如果将X1替换为X2,A78替换为A710,A55替换为A510,DSU替换为DSU-110,4MB L3(DSU)替换为8MB L3(DSU-110),预计2022年终端设备的峰值性能将会提升30%,持续性能将会提升30%,小核性能将会提升35%。oMXednc

oMXednc

面向细分市场的新款 Arm Mali GPU套件 

视觉体验仍然是消费者与设备交互、并享用设备的关键,Arm新推出面向广泛应用的多款GPU,搭配Armv9 CPU,继续提升用户体验。oMXednc

oMXednc

最新的Arm Mali-G710是针对旗舰智能手机和Chromebook笔记本市场的高性能 GPU,在计算密集型体验方面的性能提升20%(如AAA高保真游戏)。对于与机器学习有关的任务(如全新相机和视频模式的图像增强),Mali-G710也带来35%的机器学习性能提升。oMXednc

作为次旗舰GPU,Mali-G610继承了Mali-G710 的功能,但价格更低,可将高阶应用场景带给更多的开发者和消费者。oMXednc

Mali-G510实现了性能和效率的较好平衡,在中端智能手机、旗舰智能电视和机顶盒上,实现了100%的性能提升以及22%的节能优化,从而延长了电池续航时间,提升了100%的机器学习性能。oMXednc

Mali-G310是Arm目前最高效的GPU,以最小的面积成本提供了最高的性能。通过Mali-G310,Valhall架构和高质量图形技术将被引入到更低成本的设备中,例如入门级智能手机、AR设备和可穿戴设备。oMXednc

提升系统性能的互连技术

互连技术对于提高系统性能至关重要。最新的CoreLink CI-700一致性互连技术和CoreLink NI-700片上网络互连技术,可与Arm CPU、GPU和NPU IP无缝搭配,跨 SoC解决方案增强系统性能。CoreLink CI-700和CoreLink NI-700对新的Armv9-A功能提供硬件级支持,如内存标签扩展(Memory Tagging Extension),支持更高的安全性、改进的带宽和延迟。oMXednc

oMXednc

可以看出,全新的全面计算解决方案是系统范围内整体优化的思路,横跨硬件 IP、物理 IP、软件、工具和标准,能够为合作伙伴提供更为广泛的选择,以满足细分市场的应用场景和成本区间需求。同时,这也将解锁整个生态系统的新体验,例如,专为移动设备设计、支持 AI 功能的交互式应用场景,可以使用户身临其境观看电视8K内容等体验。oMXednc

2023年移动应用产品仅提供64位大、小核

随着IP战略的升级,Arm宣布,将在2023 年面向移动应用仅提供64位的大核和小核。为此,Arm全球合作伙伴正在努力确保所有App都将在今年年底前支持64位。oMXednc

据Paul Williamson介绍,Cortex-X2是完全面向智能手机市场的产品,预计在未来几代手机产品中就能看到Cortex-X2的身影。对智能手机和其他终端计算设备而言,64位将提供终极的性能表现。Arm目前正与中国应用商店生态合作伙伴进行密切协作,确保主要App都能在今年年底前支持 64 位,从而为中国消费者提供Cortex-X2所带来的性能提升体验。oMXednc

Arm方面透露,向64位过渡需要分阶段实现,目前,Cortex-X2、Cortex-A510已经是64位CPU,A710仍然支持32位。预计到2023年,Arm在移动应用的大核跟小核都将仅支持64位。oMXednc

结语:

Paul Williamson总结称,Arm合作伙伴希望能够将新品更快速地推向市场,而全面计算解决方案包含了SoC设计流程中所需要的一切组件:硬件 IP、软件、物理IP、工具和标准,将使合作伙伴在应对所有终端市场上SoC复杂性时受益,让他们能够满怀信心地通过最新的技术,将高性能的产品快速推向市场。oMXednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
暂无简介...
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 英飞凌推出业界首款支持更大功率的USB PD 3.1高压微 英飞凌推出业界首款支持USB PD 3.1的高压MCU。
  • 深度传感技术实现3D机器视觉 在传感技术最新发展的助力之下,越来越多的机器被赋予了传感、移动及与环境互动的能力;为此,《EE Times》欧洲版团队探索了当前3D视觉技术领域,以期更清晰地了解其市场驱动力以及零组件供应商面临的机遇和挑战...
  • 堵车路上听什么?新世代汽车的音频设计方案 作为驾驶过程中为数不多的放松方式,堵车途中听点什么是大多数人的选择。而随着网络应用的逐渐丰富,也随之伴生了更多的音频场景:除了音乐,还有知识付费App、PodCast、免提通话……这也使得汽车座舱的音频功能以及品质要求变得越来越高,座舱音频子系统已经是汽车中第二复杂的子系统。
  • VCSEL激光LiDAR成自动驾驶汽车必备,测试给未来更强保障 对于DTOF VCSEL激光LiDAR传感器,VCSEL在窄脉冲(通常是纳秒量级)情况下的峰值功率、工作电流、工作电压、转化效率、近远场光学特性等参数对于芯片供应商、封装服务商、模组集成商等都非常重要。
  • 首款采用自主指令系统 LoongArch 的龙芯3A5000处理器 据悉,龙芯 3A5000 处理器主频 2.3GHz-2.5GHz,包含 4 个处理器核心。每个处理器核心采用 64 位超标量 GS464V 自主微结构,包含 4 个定点单元、2 个 256 位向量运算单元和 2 个访存单元。龙芯 3A5000 集成了 2 个支持 ECC 校验的 64 位 DDR4-3200 控制器,4 个支持多处理器数据一致性的 HyperTransport 3.0 控制器。
  • 对Mali-G78 GPU逆向工程后,Valhall 指令集文档发布 在经过一个月的逆向工程后,Collabora日前发布了有关Valhall指令集的文档。逆向工程的其他结果包括可由程序解析的XML 架构描述,以及用作逆向工程辅助工具的 Valhall汇编器和反汇编器。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了