广告

三星为何放弃自研CPU?从Exynos 990与对手的差距说起……

2020-06-16 10:32:22 黄烨锋 阅读:
想必很多同学也已经听说了,这次 Exynos 990 相比竞争对手依然有差距的事实。这里我将 AnandTech 的一些评论和测试做了综合,分享给各位。

我一直都觉得三星 Exynos 还是挺有趣的 SoC:我记得之前翻译 AnandTech 的苹果 A12 和三星 Exynos 9810 评测文章的时候,有句话我印象特别深刻:“采用 M3 核心的三星 Exynos 9810,能耗达到苹果 A11 的两倍,性能却落后了 55%(注意,是 A11)!”dJXednc

尔后,AnandTech 通过魔改 Exynos 9810 系统层面调度机制的方案,达成了系统性能相较原版的一个显著提升。这些其实都表明,三星在移动 SoC 设计和制造上都可以认为是整体掉队的。所以也不难理解,三星为什么决定放弃自研 CPU 架构。Exynos 990 是三星最后一款采用自研架构的 SoC。dJXednc

想必很多同学也已经听说了,这次 Exynos 990 相比竞争对手依然有差距的事实。这里我将 AnandTech 的一些评论和测试做了综合,分享给各位。本文的绝大部分数据和内容均来自 AnandTech,若需查看英文原文,可拉至本文末尾。我觉得这篇文章能够非常到位地阐释,为什么三星放弃了自研架构,因为无论从哪个层面来看,其自研架构不仅问题极多,而且还远远及不上 Arm 的架构。dJXednc

请注意,注意区分本文的几个词汇:能耗 energy,是指跑测试消耗的能量,单位焦耳;功耗(或功率)power,是指单位时间内消耗的能量,单位瓦特;功效 power efficiency,一般是指每瓦性能;能效 energy efficiency,这里特别指每焦耳的性能——这个性能可以是跑的分值,也可以是游戏帧率。dJXednc

这里需要强调一点,我们日常所说的“能效比”,或者“效率”指的其实是这里的 power efficiency。本文的能效,严格意义上都不是用的这个通俗的意义。dJXednc

综述

三星 LSI 的这颗旗舰 SoC 是在去年 10 月份宣布推出的:它在 CPU 大核心上采用了三星新一代的 M5 架构;中型规模的核心则升级到了 Cortex-A76;采用新的 Mali-G77 GPU。Exynos 990 采用 7nm LPP 制造,即芯片的某些部分采用 EUV 光刻。dJXednc

dJXednc

Exynos 9820dJXednc

这里看一下上一代的 Exynos 9820,,也就是 Galaxy S10 采用的 SoC。以此可了解 Exynos 990 做了怎样的提升和变化。dJXednc

Exynos 9820 的大核心簇是三星定制的 M4 架构,它跟 Arm 公版架构的差异还是比较大的:从互联到缓存一致性,都采用三星的 Coherent Interconnect。Andrei Frumusanu(AnandTech 著名博士编辑)对这种结构有做核心到核心的延迟测试,起码它比 Arm 公版架构的延迟是要大出很多,当然也比骁龙 865 明显更糟糕。dJXednc

dJXednc

Exynos 990dJXednc

Exynos 990 相较 Exynos 9820 的改进其实还是比较多的。首先三星这次终于在小核心上,将 A55 的 L2 cache 推升到了 64KB。要知道 Exynos 9810 和 9820 在这方面就差一截,所以这两款 SoC 相比以前的骁龙 SoC,在效率上就有差距。不过 64KB L2 cache,这个容量仍然只有骁龙 865 的一半(128KB),三星在 Arm 核的 cache 配置上还是比较保守。dJXednc

中核心从先前的 Arm Cortex-A75 升级到了 A76,频率也有提升,从 2.3GHz 提到了 2.5GHz,基于负载不同性能提升可达 38%-50%,也是 Exynos 990 大部分工作的主要动力来源。中核心的 L2 cache 仍然是每个核心 256KB,共享的 L3 cache 也是比较保守的 1MB。dJXednc

大核心部分,早前代号为 Cheetah(猎豹)的 M4 这次升级到了代号为 Lion(狮子)的 M5——也就是三星的自研架构。其最高频率仍然是 2.73GHz,三星宣称会有 20% 的提升,应该主要是来自 IPC 提升。dJXednc

外部可以观察到的最大变化,在于 M5 大核心不再享有各自的 L2 cache,而是 2MB 的核心共享 L2 cache。现如今,这样的微架构设计变化还是比较少见的。这一变化,从核心到核心的延迟降低能看得出来,毕竟这次的缓存一致性是在更低的 cache 层级发生的,和 CPU 也靠的近。dJXednc

Exynos 990 采用三星 7LPP 工艺制造,部分采用了 EUV 光刻。TechInsights 提到,Exynos 990 是首个采用完整 7LPP PDK(Process Design Kit)设计的芯片,这一点和先前的 Exynos 9825 还是有不同的)。dJXednc

三星宣称,7LPP 工艺相比之前的 8LPP 有 7% 的性能提升,应该也意味着同频功耗的降低。实际是个什么情况呢?我把 AnandTech 的内容做个概括:dJXednc

Exynos 990 的 binning(可以理解为根据不同的芯片体质,对芯片进行等级分组)看起来是比较糟糕的,而且绝大部分芯片都位列相对较差的体质分组,甚至可能更糟,这表明这颗芯片的良率可能很不理想。dJXednc

M5 的核心电压不是很乐观,不仅在同频下相比上一代 M4(8LPP)没有提升,而且随频率升高还表现更差了。M5 需要更高的电压,才能达到先前相同的频率:同样 2.75GHz 最高频率,M5 的峰值电压为 1118mV,而先前的 M4 为 1068mV。dJXednc

从功耗与效率曲线来看,纵观性能变化周期内,M5 核心显然在效率上弱于 Cortex-A76(同一个 Exynos 990 SoC 上的);Exynos 990 A55 小核心的效率比先前的 Exynos 9820 要理想很多;dJXednc

dJXednc

Exynos 9820 时期,三星引入了一种更为复杂的 scheduler,基于应用跑的 ISA(指令集结构)选择不同的功耗模型。这种机制会分别追踪 32bit 和 64bit app,然后根据不同 CPU 在不同执行模式下的微架构性能和功耗特性,做出调度决策。三星宣称这种机制能够提升效率,更多的工作可能会分派给 Arm 中核心——因为 A76 在 32bit 执行效率上会更好。dJXednc

dJXednc

从 SPECint2006 的综合成绩来看,其实很难看出这种执行模式有什么大差别。但某些个别的测试子项,比如说 456.hmmer——这是个偏向执行能力的测试,就能看出 A76 核心的优势——A76 核在这个项目的成绩上的确领先于 M5 核。从这个角度来看,三星的调度策略是合理的。dJXednc

另一个例子是,400.perbench 在 32bit 模式下,A76 核心同样优于 M5 核心,所用功耗还低了超过一半。不过更偏存储性能的负载,M5 在跑分上还是有优势的,这可能与两者的 cache size 差异有关。dJXednc

AnandTech 在文章中提到,这是 AnandTech 首次针对 AArch32 和 AArch64 两种执行模式,分别公布跑分成绩。dJXednc

在存储延迟测试方面,Exynos 990 相比 Exynos 9820 还是有提升的,但和骁龙 865 比起来却有差距。dJXednc

下面这几张图是 Exynos 990 M5(大核心)、Exynos 990 A76(中核心)、Exynos 9820 M4,以及骁龙 865 A77(大核心)的存储子系统延迟对比。很显然,相比 Exynos 9820,可以看到 Exynos 990 的 L2 cache 在尺寸上变大。M5 核心当然还是会有一些优势,比如说 3 周期的 L1 延迟设计,Arm 核心都是 4 周期。dJXednc

dJXednc

去年的 M4 核心其实就存在 TLB 问题(Translation Lookaside Buffer,一种页表的 cache,是一个内存管理单元,用于提升虚拟地址到物理地址转换速度),今年的 M5 这个问题并未得到合理解决。dJXednc

这会导致一些比较无语的问题,比如说随机访问超过 2MB 的区块,可能还比 1MB 尺寸内的速度更快。相比 L2 cache 区域,L3 的 cache line 访问,TLB 未命中惩罚的访问延迟还更低…(这也可能是 16-64MB 区块内,Exynos 990 弱于 9820 的原因)。dJXednc

而 A76 核心部分显然就比较符合预期了。A76 的 prefetcher 原本就有比较大的提升,在 Exynos 990 之上也有体现,两个 A76 中核心在某些数据访问模式上是优于 M5 核心的。实际上,三星自 M3 设计以来,在存储子系统方面就有比较大的问题,到 M5 也依旧未能解决。dJXednc

从 SPECint2006 的测试结果来看,Galaxy S20 的两个不同 SoC 版本,骁龙 865 相比 Exynos 990,各方面都有优势。dJXednc

主要表现在骁龙 865 显然在能效/功效方面有着比较大的提升。dJXednc

早前 Arm 曾表示,A77 核心相比 A76 会在性能上有进步,但两者的功效(energy efficiency)其实是差不多的——也就意味着 A77 需要以功耗换性能。但骁龙 865 则显然超出了 Arm 的预期,不仅使用更少能耗(energy),而且功耗(power)也更低。dJXednc

这可能和骁龙 865 相比上一代改用台积电 N7P 工艺有关,这或许表明 N7P 工艺相比 N7 的确有显著提升。dJXednc

dJXednc

Exynos 990 相比上一代当然也有性能提升,但肯定比不上骁龙的步子。其中有一些成绩比较诡异,比如说 403.gcc 的成绩还不如上一代。更悲伤的是功耗(power)和能耗(energy)。Exynos 990 的能耗其实跟 Exynos 9820 很相近,有时略好,有时又略差。但在有性能提升的情况下,功耗却也明显发生了飙升。dJXednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 12月13日起通信行程卡服务正式下线 12月12日0时,“通信行程卡”微信公众号发布“关于下线‘通信行程卡’服务的公告”
  • 国产芯片 助力降本增效 国产芯片 助力降本增效
  • 4200VDC高隔离汽车级DC/DC电源模块——CFB0505XT-1WR3 金升阳汽车级DC/DC电源模块CFB0505XT-1WR3系列,满足汽车EMC标准,产品隔离耐压高达3000VAC/4200VDC,工作温度范围为-40 to +105°C,效率高达82%,且具有可持续短路保护(自恢复),产品整机符合AEC-Q100测试标准,满足汽车行业对高可靠小体积电源的要求。
  • SCT2432Q高效率同步降压型DCDC转换器 SCT2432Q通过AEC-Q100的车规级Grade1认证;输入电压可达40V,输出电流3.5A的高效率同步整流降压变换器芯片;高压侧 MOSFET的导通时间最小为100ns,支持高输入电压/输出电压的电压转比。采用固定频率峰值电流模式控制,工作频率高达2.2MHz。允许低至3.8V的宽范围输入电压以及高达100%的最大占空比支持。
  • CS32F036Q:高可靠车规MCU产品 芯海科技推出的高可靠车规MCU产品CS32F036Q,内置高性能的ARM®Cortex®M0 32位内核,工作频率48MHz,集成多达32K字节Flash和4K字节SRAM,以及广泛的外设和I/O。提供标准通信接口、专为电机控制设计的12位高速ADC和增强型定时器、最多支持17路PWM输出。
  • 芯海科技斩获ICDIA 2021 汽车芯片创新奖 中国集成电路设计创新联盟重磅发布了《2021汽车电子芯片创新产品目录》,为搭建产用对接合作平台,双向发力保障芯片产品供给,满足市场的需求将发挥重要作用。芯海科技CSA37F62-LQFP48、CS32F031、CS32G020、CSU3AF10、CS1239产品入选其中。
  • #芯洲科技 芯洲科技创立于2016年,是国内领先的中高压DCDC(直流到直流)功率转换芯片提供商。核心研发和管理团队来自业界顶级半导体设计公司,公司拥有独立自主知识产权和丰富的IP积累,在北京、深圳、成都、杭州设有办公地,业务遍及全国。芯洲科技践行围绕客户需求创新和质量第一的文化,致力于功率转换、功率控制和功率保护的核心技术,提供有商业竞争力的模拟电源芯片解决方案和服务,帮助客户解决功率密度、效率、电磁干扰、散热、产品体积、安全以及芯片设计易用性等系统应用方面的挑战和困难,保障客户电子电气产品高效节能安全运行,创造客户价值。芯洲科技和生态中的上下游合作伙伴共同打造可持续的核心竞争力和核心产业价值,为世界节能降耗,共创绿色低碳新生活。芯洲科技秉持着以价值为先,以贡献为本,诚信求真,在产品品质、服务、管理上不懈追求极致的核心价值观。
  • 意法半导体生物识别支付平台获EMVCo 认证,有助于机构 意法半导体完整的技术平台获得行业认证,整合嵌入式安全单元和超低功耗通用微控制器,具有经济、强大的安全保护功能
  • 自制回路增益测试变压器 我们可以购买测试设备,用它来检查在运行反馈回路的回路增益和回路相位属性,并且所购买的设备可以在非常宽的频率范围内提供有用的结果。然而,我所遇到的电源中的反馈回路,只需要在相当有限的频率范围内进行表征。在这种情况下,使用一些低成本元器件“自制”,效果就非常好。
  • 传感器和处理器如何打造更智能、更自主的机器人? 自主机器人是智能机器,无需人工控制或干预即可理解其环境并从中导航。尽管自主机器人技术相对较新,但已在工厂、仓库、城市和家庭等领域中广泛应用。例如,自主机器人可用于在仓库周围运输货物,或执行最后一英里配送,而其他类型的机器人可用于家庭吸尘清洁或修剪草坪。
  • 如何在大带宽应用中使用零漂移放大器 零漂移运算放大器使用斩波、自稳零或这两种技术的结合来消除不需要的低频误差源,例如失调和1/f噪声。传统上,此类放大器仅用于低带宽应用中,因为这些技术在较高频率时会产生伪像。只要系统设计时考虑了高频误差,例如纹波、毛刺和交调失真(IMD)等,较宽带宽的解决方案也可以受益于零漂移运算放大器的出色直流性能。
  • 基于热敏电阻的温度检测系统(下篇):系统优化与评估 如本系列文章上篇所讨论的,设计和优化基于热敏电阻的应用解决方案涉及到不同挑战。这些挑战包括上篇文中讨论过的传感器选择和电路配置。其他挑战有测量优化——包括ADC配置和选择外部元件,同时确保ADC在规格范围内运行以及系统优化,从而实现目标性能并确定与ADC和整个系统相关的误差源。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了