华为“吓人技术”只是花钱买了优化？-EDN 电子技术设计

 今天本文与大家一起，辨析两条在玩家中传的似模似样的流言。

GPU Turbo自6月份荣耀Play和荣耀9i发布会上以“吓死人不偿命”的姿态问世后，不怕死的吃瓜群众们纷纷带着瓜子饮料矿泉水小板凳围了个里三层外三层，一时间流言四起。这之中，有些低级流言我们一眼就能看出真假，而有些流言却要么利用人的心理，要么故作高深让人一些不懂，因而倒也传的似模似样。NTUednc

但这些终究不可尽信，甚至可信者百里无一。今天本文便与大家一起，辨析两条在玩家中传的似模似样的流言。NTUednc

GPU Turbo只是华为花钱买优化？

在GPU Turbo发布伊始，余承东便曾表示，GPU Turbo技术在令GPU处理性能提高60%的同时（注意，是“同时”），还可以将GPU功耗降低30%。NTUednc

Really？性能提高60%，功耗降低30%，多么惊人的提升啊！笔者表示，手里的荣耀9都快握不住了啊~NTUednc

为了验证官宣的真伪，我们以Anandtech的测试来作参考，简单粗暴的判断一下。测试中搭在了麒麟970的华为Mate10跑出了37.66fps的成绩，在此基础上提升60%应该是60.26fps；而功耗是6.33W，在此基础上降低30%应该是4.43W。NTUednc

NTUednc

因此，按照官方宣传的数据，麒麟970在GPU Turbo加持后，GPU性能应该几乎持平骁龙845，而GPU功耗则要低于骁龙845，对应的能耗比则为13.60fps/W，成功反超使用骁龙845的三星S9+，仅略低于高通QRD（Qualcomm Reference Design）参考设计平台。NTUednc

这样的计算结果虽然很美好，但若以性能来看，不过只是勉强追平骁龙845而已，根本达不到“秒杀”或“完胜”的地步。而功耗若仅降至4.43W，也不足以完全避免降频（毕竟比4.43W更低的骁龙821、820、835也都降频）。NTUednc

那这事情就有意思了，根据发布会上的现场演示，以及此后一票媒体铺天盖地的实测，GPU Turbo确实显著改善了麒麟970的游戏性能及功耗发热表现，事实胜于雄辩啊，测试结果比理论推算的成绩还要更好呢。NTUednc

这时有人提出，华为官方公开的GPU Turbo支援游戏列表，首批优化的游戏有6款，分别是《王者荣耀》《QQ飞车》《穿越火线》《刺激战场》《全军出击》《荒野行动》。明眼人一看便知，这6款游戏里，有5个是腾讯系产品，剩下一个是网易的。要知道，腾讯系的游戏可是典型的“付费优化”，只要肯花钱，蓝绿厂的骁龙660都能秒杀其他品牌的骁龙845。NTUednc

怕不是华为终于想开了，肯给腾讯塞钱了？NTUednc

实际上，对游戏行业与公司稍有了解的朋友，很容易看出这种说法基本上相当于“出租车司机讲内参消息”，听着很带劲，但不符合常识和逻辑。NTUednc

华为与腾讯的合作，要远比外界想象的更紧密。从2017年12月2日开始，华为和腾讯就成立了一个联合实验室，用来沟通与同步日常技术之间的升级以及优化。像是《刺激战场》这类头部产品的更新，华为还会派工程师驻场，以保障手机与游戏之间更加适配，优化双方用户业务上线后的体验。NTUednc

因此，GPU Turbo只是华为花钱买优化这种流言，只需稍作了解，便可直接打上fake的标签扔进垃圾堆了。不过这也带来了新的问题，既然GPU Turbo并不是花钱买优化这么简单，那华为到底是怎么做到的？NTUednc

这就要深入了解下麒麟970的硬件设计了。NTUednc

华为对GPU做了什么？

根据国外网站techinsights对三星Exynos 9810处理器核心的X光透视照片，我们已经可以清楚的知道，Exynos 9810的芯片面积为10.37mm*11.47mm=118.94mm²，其中三星自主设计的猫鼬M3大核心集群面积为20.23mm²，Cortex A55小核心集群面积为1.87mm²，Mali G72 MP18 GPU集群面积为24.53mm²。NTUednc

NTUednc

Exynos 9810的X光透视图NTUednc

根据透视图上标出的核心内模块的比例，我们可以大致测算出，Exynos 9810中单个Mali G72的面积大约为1.072mm²。NTUednc

而根据techinsights的研究数据，我们知道麒麟970的芯片面积为9.75mm*9.92mm=96.72mm²，其中Cortex A73大核集群面积为5.66mm²，Cortex A53小核集群面积为2.45mm²，Mali G72 MP12 GPU集群面积为18.04mm²。NTUednc

NTUednc

麒麟970的X光透视图NTUednc

同样，我们可以根据透视图上标出的核心内模块的比例大致测算出，麒麟970中单个Mali G72的面积大约为1.344mm²，比Exynos 9810中的大了0.272mm²，此外麒麟970中Mali G72核心的形状也与Exynos 9810中的有很大不同。NTUednc

而根据数据显示，Exynos 9810所使用的三星10nm LPP制程与麒麟970所使用的台积电10nm FF制程，在特征尺寸和晶体管密度等指标上几乎是相同的。NTUednc

NTUednc

因此，Exynos 9810和麒麟970中单个Mali G72核心形状和面积的差异，代表着二者虽然均为Mali G72架构，但在GPU内部电路设计及投放的晶体管规模上有很大不同。NTUednc

更进一步的，我们可以得出一个基本结论：华为在设计麒麟970的时候，并不只是拿Arm的公版Mali G72进行了简单的堆砌，而是进行了大刀阔斧的改良。NTUednc

增加的面积，是缓存？

在GPU Turbo公布后不久，网上便有人爆料，在中国专利公布公告网上挖出了一篇名为《一种优化核函数的方法和装置》专利（授权公告号CN104866297B），并围绕这篇专利大开脑洞。NTUednc

这些分析者认为，“华为在15年以后设计的麒麟芯片GPU里都设计了用于全局变量寄存器，同时为了保持专利申请到位前的应用，保留了GPU大外寄存格局”。简单来说就是，华为没有改动Mali G72核心，也没有提高Mali G72的实际性能，但是在GPU区域加了寄存，同时修改了数据总线，提高了Mali G72的函数数据读存速度和效率。（此为分析者的说法，并非笔者观点）NTUednc

为此，这些分析者笑称“GPU里你也加Cache？华而有钱，为所欲为”，甚至还认为华为在GPU技术上已经吊打NVIDIA。NTUednc

“吓人技术”到底是个啥？华为GPU Turbo两大流言深度辨析 NTUednc

那么，麒麟970的Mali G72之所以变大这么多，就是因为华为在GPU里增加了高速缓存咯？NTUednc

笔者个人认为，这种可能性不能说没有，但真的很小。NTUednc

首先不得不纠正这些分析者的是，寄存器（Register）和Cache（高速缓存）并不是同一种东西。在存储体系中，Register的位置要比高速缓存更靠前，它的速度比高速缓存更快而容量极小，为运算单元提供着指令寄存空间（IR）、程序计数缓冲（PC）以及累加器（ACC）等多方面的服务。NTUednc

高速缓存在存储体系中位于Register之后。它有两大特点：第一是快，速度仅次于Register；第二就是极其消耗晶体管，每bit（不是byte）就要消耗多达6个晶体管。NTUednc

然而根据已知的消息，世界上第一颗集成高速缓存的民用级GPU是NVIDIA在2001年推出的NV20，也就是Geforce 3系列显卡，其在GPU内集成了128KB Cache用于纹理缓冲。2004年，NVIDIA又在Geforce 6800Ultra的NV40核心中增设了大小为128KB的L2 Texture Cache，之后Geforce 7800GTX的G70核心又将之增加至288K。NTUednc

ATI这边则是在Radeon 1800XT的R520核心中加入了完整的L2 Texture Cache，并在Radeon 2900XT的R600核心中将其扩充至256KB。而Mali系列GPU自2008年的Mali 400开始，也早已全线加入了Cache设计。根据Arm的官方设计参数，Mali G72可以根据不同需求，自行配置128KB~2MB不等的L2 Cache。NTUednc

NTUednc

可见，在GPU中设置高速缓存并不是什么新技术，更谈不上什么黑科技，NVIDIA、ATI和Arm等GPU设计公司早在十年甚至二十年前就已经这样做了。NTUednc

缓存对GPU性能提升有多大？

上面我们已经知道了，麒麟970中单个Mali G72的面积大约为1.344mm²，Exynos 9810中单个Mali G72的面积大约为1.072mm²，而根据semiwiki的资料，三星和台积电10nm制程的晶体管密度均约为55MTr/mm²（百万晶体管每平方毫米）。NTUednc

我们可以反推得知，麒麟970的Mali G72多出来的这部分面积，可容下约1500万晶体管，即便全部用来做Cache也只有300KB。相较于Arm官方设计参数中128KB~2MB可自由裁量的L2 Cache配置范围，这300KB说是无足轻重也不为过吧。NTUednc

OK，关于缓存的信息推导到这里，基本可以说已经被颠覆了一半，而剩下的问题则是，万一麒麟970真的是扩充了缓存规模，对GPU的性能提升能有多大？NTUednc

为了验证这一问题，我们要请出两位已经捉对厮杀了四年半之久的老冤家：索尼PlayStaion4和微软XBOXONE。NTUednc

也许有的读者看到这已经明白了，没错，说的就是微软为XBOXONE处理器设计的那32MB ESRAM。NTUednc

关于这两台机器的配置这里就不在赘述了，简单来说，PS4的GPU规模更大，有1152个流处理器；XBOXONE的GPU则只有768个流处理器，不过微软为其设计了一块32MB的ESRAM作为高速缓存。NTUednc

“吓人技术”到底是个啥？华为GPU Turbo两大流言深度辨析 NTUednc

XBOXONE中Jaguar APU的X光透视图NTUednc

从透视图中可以看出，右侧的SRAM区域占据了整块芯片相当大的空间，比位于中部的GPU部分还要大。这32MB ESRAM可谓是吞晶巨兽，消耗了多达16亿晶体管，要知道XBOXONE的整块APU也不过50亿晶体管而已，单单ESRAM就吃掉了几乎三分之一。NTUednc

而和PS4对比的结果也无需多言， XBOXONE相对PS4仍存在普遍接近30%的性能差异，与二者的GPU基础规模差距基本相当，足以证明这32MB ESRAM对GPU性能的弥补微乎其微。NTUednc

实际上，从技术角度来说，Cache在整个GPU运算体系中多用作应对寄存器缓冲溢出使用。它的速度和延迟相对于寄存器来说差了不少，但可以在编程环境处理得当的前提下发挥很好的延迟掩盖作用。除此之外，Cache便只用作衔接GPU和显存的作用了。NTUednc

Mali G72，扶不起的阿斗

据了解，Mali G71/G72的Bifrost架构采用了4宽度线程粒度，相比竞争对手架构的线程粒度（16~32宽度）要小很多。通常来讲，线程粒度反映了架构在资源/面积密度和性能之间的平衡点，较大的线程粒度可节省控制逻辑单元数量（单个32宽度线程粒度只需1个控制逻辑单元，而8个4宽度线程粒度需要8个控制逻辑单元）。NTUednc

Mali G72 4宽度线程粒度的设计，控制逻辑单元与ALU的比率太高了，浪费了大量硬件规模，实际游戏中几乎用不到这么小的尺寸。随着技术和应用的发展以及移动GPU在VR和高画质游戏领域的压力不断增加，Quad结构的运算效率已无法满足需求。NTUednc

从Anandtech的测试中可以看出，Exynos 9810的GPU虽然能耗比表现不错，但却是以巨大的芯片面积换来的。那18核Mali G72的面积比高通Adreno 630大130%（Adreno 630面积为10.69mm²），性能却还不如Adreno 630。NTUednc

NTUednc

与三星的狂堆核心数相比，麒麟970只使用了中等数量的核心，然后通过拉高核心频率来榨取性能。不过每种核心架构在某一工艺下，都有一个能耗比最佳的频率区间，越过这个区间后，继续拉高频需要付出极大的功耗代价。麒麟970的Mali G72 MP12频率为746MHz，功耗上升非常明显，能耗比仅略高于使用Mali G71的Exynos 8895。NTUednc

说到底，性能不济这口黑锅还是得甩给Arm的Mali G72架构设计不行，从根本上便无法与高通Adreno这样的高效架构抗衡。这不是简单的往GPU里多塞几百KB高速缓存就能解决的问题。NTUednc

而微软为XBOXONE增加ESRAM的本意也不是为了弥补与PS4之间巨大的GPU规模差距，而是在设计之初由于GDDR5颗粒价格居高不下，微软只能使用DDR3搭建存储系统，其68GB/s带宽相对于PS4的 176GB/s相去甚远，因而不得已才为其增设了一块带宽高达216GB/s的ESRAM用作衔接。在GDDR5的价格下降后，微软在去年发售的增强版XBOXONE X主机上，已将ESRAM请出了寸土寸金的芯片。NTUednc

因此，GPU Turbo是依靠在GPU中增设高速缓存来提升性能的说法，到此可以彻底宣告终结了。NTUednc

一切还需华为亲自公开

遗憾的是，我们凭着数码爱好者仅有的浅薄知识分析了这么久，也只能攻破以上两个流言，依然没能石锤GPU Turbo到底是什么。毕竟这是华为的独门黑科技，就连一向不服同行的罗永浩也交口称赞，其技术水平和难度可见一斑，真能被我们五六千字就扒个干净才是怪事了。NTUednc

不过在华为此前的一次EMUI公开课上，华为消费者业务软件工程部总裁王成录博士亲自出面解答了GPU Turbo技术的一些信息，为大家揭开了GPU Turbo神秘面纱的一角。NTUednc

大家都知道游戏画面是一帧一帧渲染出来的，相邻的两帧往往有很多相同的地方，而GPU Turbo技术将会只渲染画面出现变化的地方。也就是说，如果两帧之间可能有80%的画面是一致的，GPU Turbo就会让芯片只渲染变化的20%，从而减少GPU 80%工作量。NTUednc

渲染工作量的减少大幅提升了下一帧的帧数延迟，用户眼球感受到画面掉帧需要16.7毫秒的时间，华为GPU Turbo可以把下一帧的渲染时间控制在7毫秒以内，最快可以在短短3毫秒以内就完成下一帧的渲染工作。NTUednc

合理调度GPU资源，节省GPU性能到游戏最需要的地方，这才是GPU Turbo让游戏满帧运行的秘密所在。NTUednc

“吓人技术”到底是个啥？华为GPU Turbo两大流言深度辨析 NTUednc

当然王成录博士只是对于GPU Turbo技术工作原理做了一个简要解答，至于GPU Turbo是如何判定并计算两帧画面之间的差别，王成录博士并未做解答，或许这就是隐藏在Mali G72多出来那0.272mm²中的商业机密吧。NTUednc

GPU Turbo从立项到研发成功耗费了5年多的时间，王成录博士表示华为对此项技术非常自信，它的技术门槛非常高，其他家不太可能在短时间内跟进。此前国外XDA论坛上出现的GPU Turbo破解包也很快被证明是一场恶作剧而已，被国内数码爱好者戏称为“装X不讲基本法”。NTUednc

看来，GPU Turbo的一切，还需华为亲自公开。NTUednc

（来源：雷锋网）NTUednc

这么说没错，华为的吓人技术确实是花了很多钱，如果想成消费“买”的话，确实是花了钱之后才有优化，只不过很多人是买都买不到的

阅读全文，请先

处理器/DSP 消费电子手机设计制造/工艺/封装产业前沿

上一篇： IoT技术最有发展前景的商业应用 下一篇： 无线智能探测系统，帕金森患者的新曙光！

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

瑞萨电子广受欢迎的RA0系列推出新产品，卓越的功耗、更低成本RA0E2适用于消费电子、小家电、工业系统控制与楼宇自动化等领域···
Cadence 利用 NVIDIA Grace Blackwell 加速 AI 融合设计专业知识与加速计算，推动科技创新、实现能效和工程生产力方面的突破性进展，引领全球生活新范式···
Microchip 推出集成高性能模拟外设的32位PIC32A单片机采用200 MHz CPU集成业界领先的模拟外设，提供高性价比系统级解决方案···
康佳特发布领先的AI边缘计算模块搭载英特尔酷睿Ultra处理器解锁工业嵌入式新效能···
AMD 推出第五代 AMD EPYC 嵌入式处理器，为网络、存储与高性能“Zen 5”架构可提供服务器级性能与效率，并结合专属打造的功能，以优化产品寿命和系统弹性，思科和 IBM 是首批采用第五代 AMD EPYC 嵌入式 CPU 为下一代平台提供支持的技术合作伙伴···
瑞萨推出集成DRP-AI加速器的RZ/V2N，扩展中端AI处理器阵无需冷却风扇的高能效MPU实现先进的边缘视觉AI，缩小系统尺寸并降低成本···
飞凌微推出AIoT应用系列高性能端侧视觉AI SoC芯片A1 飞凌微电子近日宣布，正式推出AIoT应用系列首款高性能端侧视觉AI SoC芯片 —— A1···
瑞萨推出RA4L1 MCU，超低功耗、集成电容式触控、段码L 全新产品成为计量、物联网传感、智能锁和HMI应用的理想之选···
毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
兆易创新推出EtherCAT®从站控制芯片，工业自动化的卓越业界领先的半导体器件供应商兆易创新GigaDevice（股票代码 603986）宣布，正式推出EtherCAT®从站控制芯片···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

华为“吓人技术”只是花钱买了优化？

GPU Turbo只是华为花钱买优化？

华为对GPU做了什么？

增加的面积，是缓存？

缓存对GPU性能提升有多大？

Mali G72，扶不起的阿斗

一切还需华为亲自公开