广告

都是拼AI性能,为何苹果/海思集成NPU,高通和联发科却选择优化?

2018-12-18 10:14:58 阅读:
手机SoC已经进入了比拼AI性能的时代。不过,苹果和海思集成了专为AI加速的硬件单元NPU,但高通和联发科却选择了优化的路线,这是为什么?

12月6日,高通在美国发布最新一代旗舰移动平台骁龙855,一周后的12月13日,联发科技在深圳发布了最新处理器Helio P90。加上此前亮相的三星Exynos 9820、苹果A12 Bionic以及华为海思麒麟980,可以说手机SoC已经进入了比拼AI性能的时代。不过,苹果和海思集成了专为AI加速的硬件单元NPU,但高通和联发科却选择了优化的路线,这是为什么?cDkednc

7nm不是唯一选择

苹果的A11 Bionic和华为海思麒麟970在去年发布的时候就已经集成了专为AI加速的NPU单元,但AI性能的提升离不开工艺制程、CPU、GPU等硬件以及软件的共同协作。我们知道,在很长一段时间内处理器性能的提升靠的是工艺制程的提升,到了AI时代,除了在设计上需要做进一步的优化,对先进制程的需求也更加强烈。因此为了继续提升处理器的AI性能,麒麟980和A12 Bionic都选择了台积电的7nm工艺,都集成了69亿个晶体管。同样选择台积电7nm工艺的还有本月发布的骁龙855,但这款SoC集成多少个晶体管暂不清楚。cDkednc

不过,7nm并非最新手机SoC的唯一选择,联发科Helio P90采用的是12nm制程,对于为何不采用7nm工艺的问题,联发科技无线通信事业部总经理李宗霖接受媒体采访时表示:“并不是有7nm就可以有很好的AI体验,还需要考虑系统架构、功耗以及与应用的结合。同时,还与我们要带给消费者什么样的体验有很大的关系。”雷锋网认为,Helio P90的定位并非旗舰级,因此必须更多的权衡7nm成本增加和性能提升之间的关系,显然12nm是联发科认为性价比最高的工艺。cDkednc

三星Exynos9820虽然定位是旗舰级,但却采用了8nm工艺。原因很简单,8nm LPP工艺是三星基于10nm LPP演进而来的工艺,可以使芯片能效提升10%,芯片面积降低10%。cDkednc

可以看到,虽然不是5款最新处理器并非全都采用7nm工艺,但可以明确的是在处理器性能的提升上,手机SoC设计厂商依旧期待制程提升带来的性能、功耗、芯片面积的提升,即便半导体制程的提升正变得越来越难。cDkednc

002ednc20181218cDkednc

CPU高性能核心集群再细分

选择了工艺节点之后,在设计不出大问题的情况下已经在很大程度上决定了这款处理器的性能。当然,为了满足AI的需求,上述5款处理器有3款处理器的CPU采用了大中小核的架构。麒麟980是率先采用了Big.middle.little新设计的SoC,也就是将高性能核心集群再细分为高、中两部分,包括2个Cortex A76@2.6GHz、2个Cortex A76@1.92GHz、4个Cortex A55@1.8GHz,三个集群将根据不同使用场景灵活调用,提升能耗比。cDkednc

三星同样采用Big.middle.little新设计,不同的是由于三星有自主研发的Mongoose架构CPU,因此Exynos9820的CPU是2个第四代Mongoose架构内核、2个Cortex-A75、4个Cortex-A55组合在一起,自研内核和Cortex-A75提供高处理性能,Cortex-A55提供更高效率。三星称,对比上代旗舰处理器Exynos9810,智能任务调度程序的新设计可将Exynos9820的多核性能提升15%。cDkednc

骁龙855采用基于Arm Cortex A76 打造的 Kryo 485 CPU,首次集成了一颗超级内核,主频高达2.84GHz,3颗主频2.42GHz的性能内核,4颗主频1.80GHz的效率内核。高通表示骁龙855芯片相比前代产品骁龙845,CPU性能提升 45%,是8系列处理器有始以来最大的一次提升。cDkednc

苹果和联发科则没有采用大中小核的设计。苹果A12 Bionic的CPU采用6核设计,2个性能核心承担高强度的计算任务,4个能效核心处理日常任务。苹果称最新的性能控制器可动态分配工作至不同核心,需要高速运行时可同时发挥全部六个核心的性能。相比A11 Bionic,A12 Bionic的2个大核速度提升最高达15%,4小核最高节能50%。cDkednc

联发科Helio P90也采用八核架构,包括2个Arm Corte A75处理器,工作主频率为2.2 GHz,与6个A55处理器,工作主频率为2.0 GHz。联发科表示,最新的CorePilot技术可以确保芯片能够以最高效的方式在八核之间实现运算资源的最优配置,充分发挥八核架构优势。至于为何没有采用大中小核的设计,联发科技资深副总经理暨技术长周渔君对雷锋网表示 :“我们希望每种核心之间的表现能有明显的差别,不然大中小核的架构可能意义不大。当然,架构的选择还需要关注SoC的制程、散热、用途等方面。”cDkednc

003ednc20181218cDkednc

GPU性能提升最高达50%

除了CPU,GPU也是移动SoC主要的关注点,A12 Bionic 4核GPU相比上代3核心的A11 Bionic GPU速度提升最高为50%。麒麟980首发Arm最新的GPU架构Mali G76 MP10,与麒麟970的Mali G72 MP12相比,性能提高46%,能效比提高178%。Exynos的GPU同样从Mali-G72升级为Mali-G76,三星称升级后GPU的性能提升40%或35%的功耗表现。cDkednc

骁龙855集成Adreno 640 GPU,高通表示新GPU能够带来20%的图形渲染速度提升,同时还能继续保持业界领先水平的每瓦特能效。Helio P90没有选择Arm Mali GPU而是集成了Imagination的PowerVR GM 9446,联发科表示对比Helio P70,Helio P90的GPU性能提升了50%。cDkednc

骁龙855和Helio P90为什么没有NPU?

了解完5款最新手机SoC的工艺制程、CPU和GPU的升级之后,接下来要谈的是这些最新SoC都强调的AI性能。苹果和华为在SoC中集成了专为处理AI设计的新的NPU,其中A12 Bionic的Neural Engine架构从A11 Bionic的双核增加到了八核,性能也从A11 Bionic每秒能完成6000亿次操作提高到A12 Bionic每秒能够完成5万亿次运算,并且Core ML运行速度最高可提升至9倍。cDkednc

麒麟980的NPU则是从单核升级为双核,使用了更高精度的深度网络,每分钟可识别4500张图像,具备更高的实时性,支持人脸识别、物体识别、物体检测等AI场景。余承东表示,新的 NPU 处理单元速度比麒麟 970 的NPU快 2.2 倍。cDkednc

相比苹果和华为海思集成NPU已经到了第二代产品,Exynos9820则是三星首次在SoC中集成专门处理人工智能任务的硬件单元NPU。三星方面称,在NPU的支持下,Exynos9820相比Exynos99810人工智能性能提升7倍,并可以增强从照片到AR的性能。cDkednc

004ednc20181218cDkednc

高通和联发科则没有集成专门处理人工智能任务的硬件单元,而是在已有的硬件单元上进行优化和改进。骁龙855选择在DSP中集成一个全新设计的Hexagon张量加速器(Hexagon Tensor Accelerator,HTA),另外,Hexagon 690处理器、Adreno 640 GPU、Kryo 485 CPU共同构组成了骁龙855支持的第四代多核人工智能引擎 AI Engine,可实现每秒超过7万亿次运算(7TOPs),AI性能较骁龙845提升3倍。cDkednc

Helio P90对AI性能的提升则是借助APU1.0到APU 2.0的升级,使AI算力提升4倍。据悉APU 2.0采用联发科技的融合AI(Fusion AI)架构,AI算力最高可达到1127 GMACs(2.25 TOPs),支持Int8和FP16。雷锋网此前报道过,APU是基于此前 Helio P30 内置的 VPU(图像处理单元)经过算法提升而推出。因此APU也是基于此前的硬件单元进行的升级和优化。cDkednc

005ednc20181218cDkednc

那么,高通和联发科为什么不像苹果、华为和三星一样在SoCial中集成专为AI加速设计的硬件单元?其实原因很简单,那就是AI相关的技术和算法都还不够成熟,高通和联发科作为手机SoC的提供方,在确定到底哪种算法以及数据类型最适合深度学习之前,押注其中一种不仅不是明智的选择,还可能因为硬件跟不上算法迭代而无法满足市场的需求缺乏竞争力,因此除了借助工艺制程、CPU、GPU的持续升级满足AI应用,高通和联发科还针对目前比较热门的AI图像应用在已有的硬件上进行优化来更好地适应不同手机厂商的需求。还有一点也非常关键,增加NPU带来的成本的增加手机厂商可能难以接受。cDkednc

相反,无论是苹果、华为还是三星,他们自主研发的SoC目前都只用于自家的手机中,因此在应用和需求相对明确的前提下去增加专用的AI加速单元不仅能获得更好的效果,还能借此打造更多吸引消费者的AI应用,增加手机的吸引力和竞争力。当然,作为全球手机销量前三的三星、华为和苹果,手机的销量也是支撑他们研发自主芯片和集成NPU的基础。cDkednc

小结

手机作为最普及的智能设备,对于AI的发展和普及有非常重要的作用,手机SoC除了比拼CPU和GPU性能,现在也开始比拼AI性能。不过在AI发展的初期,技术还有很多不确定的时候,手机SoC的提供方选择的是在已有的硬件上进行优化满足AI应用需求,而具备自主研发处理器能力的手机厂商在需求和出货量都更明朗的情况下用NPU来增加手机的竞争力。cDkednc

还有不可忽略的是,软件在AI性能的提升中发挥着非常重要的作用,越来越多的芯片厂商都在增加在软件方面的投入和优化,同时还在增强与软件公司的合作。cDkednc

到底谁的AI性能更高体验更好?光看跑分和性能的提升我们难以简单下结论,我们需要等待搭载骁龙855和Helio P90的手机发布后,再做一个对比。cDkednc

(来源:雷锋网;作者:包永刚;参考链接:leiphone.comcDkednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 12月13日起通信行程卡服务正式下线 12月12日0时,“通信行程卡”微信公众号发布“关于下线‘通信行程卡’服务的公告”
  • 国产芯片 助力降本增效 国产芯片 助力降本增效
  • 4200VDC高隔离汽车级DC/DC电源模块——CFB0505XT-1WR3 金升阳汽车级DC/DC电源模块CFB0505XT-1WR3系列,满足汽车EMC标准,产品隔离耐压高达3000VAC/4200VDC,工作温度范围为-40 to +105°C,效率高达82%,且具有可持续短路保护(自恢复),产品整机符合AEC-Q100测试标准,满足汽车行业对高可靠小体积电源的要求。
  • SCT2432Q高效率同步降压型DCDC转换器 SCT2432Q通过AEC-Q100的车规级Grade1认证;输入电压可达40V,输出电流3.5A的高效率同步整流降压变换器芯片;高压侧 MOSFET的导通时间最小为100ns,支持高输入电压/输出电压的电压转比。采用固定频率峰值电流模式控制,工作频率高达2.2MHz。允许低至3.8V的宽范围输入电压以及高达100%的最大占空比支持。
  • CS32F036Q:高可靠车规MCU产品 芯海科技推出的高可靠车规MCU产品CS32F036Q,内置高性能的ARM®Cortex®M0 32位内核,工作频率48MHz,集成多达32K字节Flash和4K字节SRAM,以及广泛的外设和I/O。提供标准通信接口、专为电机控制设计的12位高速ADC和增强型定时器、最多支持17路PWM输出。
  • 芯海科技斩获ICDIA 2021 汽车芯片创新奖 中国集成电路设计创新联盟重磅发布了《2021汽车电子芯片创新产品目录》,为搭建产用对接合作平台,双向发力保障芯片产品供给,满足市场的需求将发挥重要作用。芯海科技CSA37F62-LQFP48、CS32F031、CS32G020、CSU3AF10、CS1239产品入选其中。
  • #芯洲科技 芯洲科技创立于2016年,是国内领先的中高压DCDC(直流到直流)功率转换芯片提供商。核心研发和管理团队来自业界顶级半导体设计公司,公司拥有独立自主知识产权和丰富的IP积累,在北京、深圳、成都、杭州设有办公地,业务遍及全国。芯洲科技践行围绕客户需求创新和质量第一的文化,致力于功率转换、功率控制和功率保护的核心技术,提供有商业竞争力的模拟电源芯片解决方案和服务,帮助客户解决功率密度、效率、电磁干扰、散热、产品体积、安全以及芯片设计易用性等系统应用方面的挑战和困难,保障客户电子电气产品高效节能安全运行,创造客户价值。芯洲科技和生态中的上下游合作伙伴共同打造可持续的核心竞争力和核心产业价值,为世界节能降耗,共创绿色低碳新生活。芯洲科技秉持着以价值为先,以贡献为本,诚信求真,在产品品质、服务、管理上不懈追求极致的核心价值观。
  • 意法半导体发布车规音频功放芯片,为紧急救援、远程信 FDA803S和FDA903S是意法半导体FDA(纯数字放大器)系列中最新的单通道全差分10W D类音频功率放大器。目标应用包括紧急道路救援、远程信息处理等需要音频通道产生最高10W标准输出功率的语音、音乐或提示消息的任何汽车系统。
  • 意法半导体生物识别支付平台获EMVCo 认证,有助于机构 意法半导体完整的技术平台获得行业认证,整合嵌入式安全单元和超低功耗通用微控制器,具有经济、强大的安全保护功能
  • 自制回路增益测试变压器 我们可以购买测试设备,用它来检查在运行反馈回路的回路增益和回路相位属性,并且所购买的设备可以在非常宽的频率范围内提供有用的结果。然而,我所遇到的电源中的反馈回路,只需要在相当有限的频率范围内进行表征。在这种情况下,使用一些低成本元器件“自制”,效果就非常好。
  • 传感器和处理器如何打造更智能、更自主的机器人? 自主机器人是智能机器,无需人工控制或干预即可理解其环境并从中导航。尽管自主机器人技术相对较新,但已在工厂、仓库、城市和家庭等领域中广泛应用。例如,自主机器人可用于在仓库周围运输货物,或执行最后一英里配送,而其他类型的机器人可用于家庭吸尘清洁或修剪草坪。
  • 如何在大带宽应用中使用零漂移放大器 零漂移运算放大器使用斩波、自稳零或这两种技术的结合来消除不需要的低频误差源,例如失调和1/f噪声。传统上,此类放大器仅用于低带宽应用中,因为这些技术在较高频率时会产生伪像。只要系统设计时考虑了高频误差,例如纹波、毛刺和交调失真(IMD)等,较宽带宽的解决方案也可以受益于零漂移运算放大器的出色直流性能。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了