6月21日凌晨,在京东预约量已超过60万台的一加5正式在海外发布,骁龙835,5.5寸1080P AMOLED显示屏,6+64G或8+128G存储组合,1600万+2000万双摄,美版479美元的起售价,国行版2999元的起售价。

除了售价比小米6高之外,相比三星、HTC等品牌,一加5依然具备不错的性价比。然而,一直以来在国外颇有口碑的一加这次却遭遇诸多争议。除了外形被认为“借鉴”iPhone 7P之外,一加又一次被安卓开发者论坛XDA“挂了”。而这一次,依然是跑分作弊。

今年早些时候,XDA曾发布了一份报告,谴责一加有着针对特定跑分应用临时拔高处理器频率的“恶习”,在一加为大陆用户准备的氢OS中,这已经是一项标配的系统特性,而在为海外用户而设的氧OS 里,跑分作弊的情况目前还只是在社群测试的版本中出现。而这种行为在当时同样采用骁龙821的手机小米Note 2和谷歌Pixel上并未得到重现。

一加当时火速回应称,未来不会在手机系统中再加入这样的“功能”,而这么做的初衷也只是为了让使用者在某些特定应用(尤其是游戏)中获得“更加出色的体验”。

如今,一加5再次被抓包,XDA表示,“骗我一次,算我傻;骗我两次,算你狠。”

那么XDA到底有哪些证据呢?笔者编译了XDA的文章,读者可以自行判断。

早些时候,我们就发布过一个报告,谴责了一加(以及一些其他公司)对氧OS系统跑分这一块动手脚的行为。今天,我们又要很遗憾地表示,一加5手机的跑分数据,又掺水分了。

在一加5正式发布的十天前,我们就收到了来自一加的样机。在测评时,我们发现这款产品在跑分环节造假的问题。这简直不可原谅,因为这不仅仅是在误导消费者,更是对手机测评和媒体工作者的愚弄和亵渎。如果一个产品的好评基于一份被操纵的评分,又有什么意义呢?更糟糕的是,起码上次他们只是调整了波动和温控,并没有过分地拔高评分;而这次的跑分作弊就有点明目张胆,甚至无所不用其极了。

在介绍具体的细节之前,我想要严肃表达对一加公司一再采用这种低劣手段的失望之情。因为那些欺诈手段影响了我们的所有测试,我们暂时也不打算给出一份产品表现的全面分析。我们也会把这份报告和最后对产品本身的综合评判区别开来,我们相信,通过此份报告以及与一加公司方面的沟通,那些造假的代码不会出现在消费者收到的量产机上。当然,我们不确定这篇文章会不会影响您对机器本身的看法,我们只是提醒您关于这家公司再次的越界行为。

一加是如何操纵跑分的?

一月,在氧OS的测试版本和零售版一加3T的软件中,我们就“挖”出了一个造假机制。当时我们认为这是氧OS和氢OS的开发团队合并造成的,虽然有待证实,我们猜测氧OS应该已经与氢OS共享底层代码库了。而一些来自一加方面的评论则在一定程度上证实了我们的猜想。至于一加5,我们发现了一个不同的造假机制。

下面谈谈它是如何运作的?它的造假方式明显又蓄意,一如我们在早期的安卓旗舰机看到过的那样——以极具误导性的方式,最大化跑分得分。当用户启动一个跑分应用时,调节开关却像不存在一样(至少我们看不到这种情况),小集群的最小频率总会跳到性能监控所见的最大频率。所有的小核心都会“被”保持在1.9GHZ。通过这样的造假, 一加5得到了至今为止骁龙835机器在GeekBench 4上一些最高的跑分成绩,考虑到它的配置以及这样的设置,这很有可能是可达到的最高得分。这个得分可比类似的设备和高通自己的MSM8998测试设备的得分要高得多。以下是一些受影响的跑分软件:

AnTuTu (com.antutu.benchmark.full)

Androbench (com.andromeda.androbench2)

Geekbench 4 (com.primatelabs.geekbench)

GFXBench (com.glbenchmark.glbenchmark27)

Quadrant (com.aurorasoftworks.quadrant.ui.standard)

Nenamark 2 (se.nena.nenamark2)

Vellamo (com.quicinc.vellamo)

毫无意外,受到影响的应用和上次的应用是相同的,显然一加公司针对的是相同的程序包。分数差异也完全在预期之内。不过我们也有手段通过GeekBench 4来“调戏”这个造假系统。类似于我们在上次报告中提到的,我们发现,当我们运行从Play Store下载的GeekBench 4的时候,该设备多核运行的得分突破了6700,而一旦我们运行隐藏式的GeekBench版本的话,得分就如所料的那样,从未超过6500。在下图中你可以看到运行从应用商店下载GeekBench 4时,一加5的小核心的频率随时间的变化,以及对比同配置下运行去除了标识符码的GeekBench 4版本的结果。

061ednc20170621

每隔100毫秒,我们会读取一次的CPU频率。总的来说,如果不造假,实际上,只有24.4%的读数反馈的最大频率为1.9GHZ。与此同时,在不绕开造假系统的情况下,这个比率高达95%。这就很明显了,一加让CPU频率在跑分时的频率虚高,不仅拔高了多核测试下的跑分得分,也使得在其他CPU相关的分解测试中得到的数据不再可靠(特别对于整数和浮点运算)。这个差异在多核心测分时最为明显,当然,也最有利。但是,单核心测分的结果则出乎意料的相似,实际上,如果不在跑分过程中作弊的话,得分反而比均值要高。

尽管如此,大多数人在讨论设备跑分的时候,多核得分依然是最被考虑和关注的数字。毕竟安卓是一个高度并行的操作系统,在多年来支持多核之后,现在安卓上已经满是支持多线程的应用,即使说只有多线程下的跑分的增分才有实际意义,这也不是跑分造假的借口,因为这对于其他没有作弊的设备不公平。这些被操纵的跑分结果并不代表一加5的现实世界中的表现,它们仅仅反映了在没有约束的人为条件设备所能达到的一个峰值,或者说,一个实际上达不到的表现。

062ednc20170621

在运行GeekBench 4的时候,绕过与不绕过造假系统,多核心测分的差距可以高达6.5%,尽管平均水平为5%左右。它可能看起来有点微不足道,但这种差距足以推动一加5“看起来”领先于其他搭载骁龙835的设备。在上面你可以看到一个点图,多个独立运行的GeekBench 4,有没有绕过造假系统,差别很明显。简单来说,人为提高CPU频率无疑能在跑分时拿到更好的结果。下面你还可以看到一个随着时间推移,设备表现和温度变化的图表,我们试图确定是否会有放松温控的情况,或者在持续的跑分过程中分数是否会出现差异。

063ednc20170621

064ednc20170621

我们设置了一个GeekBench 4对比组,在结果反馈在屏幕上和开启下一次跑分中间设置了两秒间隔,然后用FLIR热感摄像机来测量外部设备温度(不是根据安卓的电池温度),在两秒间隔内快速进行三次测量取均值。总的来说,我挺惊讶的,这两种设备以相同的速度升温,并都没有测分的下降,每项结果都在预期的波动内,说明运行中并没有温度控制。经过进一步观察,这倒算不上惊讶,因为持续性是Cortex-A73的固有优势之一,而骁龙835的Kryo核心正是基于此的。当然,我们在John Poole的采访中也了解到,受影响的核心常常是高效能的核心,GeekBench 4有特别采取措施来防止热调节对各项测分的影响。

有趣的是,并不是所有的流行的测评应用都被一加的作弊机制所锁定。例如,在运行3DMark的时候,并没有看到这些问题。但是,其他的像GFXBench这样测评软件还是被“盯着”的,我们在打开和运行它的时候看到了相同的CPU行为。事实上,在持续运行GFXBench的Manhattan电池性能测试的时候,一加5的外部温度超过了50摄氏度,这在我以往测评过的设备中相当罕见,一般都会采取一定程度的温度控制来防止过热。

骗我一次,算我傻;骗我两次,算你狠

这就有点让人尴尬了,因为我们不得不因为厂商操纵测评的原因挂同一家公司两次。所有一切都发生在工程机的测评环节,这严格来说更糟了,因为这种造假旨在过度表现自家设备的性能,让它显得更好或者更快。这些准备好的把戏被在投入销售前送到媒体面前,他们要根据从一加公司拿到的设备说结论,而许多媒体又不太愿意在测评环节指出这种造假。我们XDA一直密切注意着操纵测评的行为,因为以前就发现过一次,我们只是觉得最好把它告诉我们的读者和潜在的手机购买者。

我们希望这篇文章能够重新点燃关于测评软件、它们的角色以及它们在当今智能手机评论中的效用的更为广泛的讨论。毫无疑问,像高通和三星这样的公司确实关心跑分,即使在开发处理器时他们有更复杂的工具来判断他们设备的性能,他们依然认为跑分软件不特别完整但是有效的方式。总的说,只要一个人能够理解测评的数据反映了什么结果,跑分软件就相当有意义。我认为当下我们应该把关注放在在实际表现和功效的问题上,而不是原始的计算或处理能力上。当然,关于实际表现的瓶颈终究来源于安卓和实现它的OEM厂商。

话题回到一加手机,我真的不知道为什么公司的软件团队,在已经被叫停过之后重新引入了操纵跑分的机制。这次更糟,它明显地是为了蓄意拔高分数。一加5本身是个非常优秀的设备,真的不需要用跑分作弊来做声明。认真地说,一加5的流畅性和反应速度一直让我很惊讶,在花了很多时间测试他们的设备,和他们管理层打交道之后,我清楚地知道他们的手机是多么的强大。但是,操纵跑分成绩是一个蓄意的行为,很有可能的是,他们宁愿去惹怒一个小部分人,也要在互联网上为它们的设备粉饰出一个虚高的评分。无论如何,我真诚地希望一加公司能改正,我对他们的硬件有很多话想说,可他们在我眼中已然走上了歧路。

来自一加的回应

我们之前联系过一加公司希望他们对这篇文章表达看法,他们是这样回应的:

人们使用跑分应用来确定他们设备的性能,而我们则希望用户能看一加5的真实性能。所以我们让跑分应用在接近日常使用的状态下运行,比如资源密集型的应用和游戏。此外,当启动应用时,一加5会运行在一个类似的状态下,以增加应用的打开速度。我们没有过度锁定设备,而是在充分展示一加5的性能潜力。

这份早上刚接到的声明让我颇为震惊。跑分造假机制让设备进入的状态显然不是什么“日常使用的状态”,这种惊人的表现可不会在其他没有刻意提高性能的应用运行时出现。

请记住,与竞争意义下的过度锁定不同,大多数手机跑分应用只是用来显示手机在日常使用中表现得如何。它不只是尽可能要去尝试达到一个最高的分数,而是手机在常规发热和电池用量的情况下如何表现的一个试验,这是代表手机如何日常运行的试验。这些跑分测试并不是为了测量在现实世界中无法实现的某些“性能潜力”。

在GeekBench 4的对比测试中,一加5的表现还都相对正常。因为虽然造假系统带来了增加的用电,但基于ARM Cortex-A73的Kryo 280核心稳住了温度。我们在GPU密集型的应用上就看到了一个完全不同的故事。就像前面说到的,在GFXBench的Manhattan电池测试中,一加5达到了大约五十摄氏度。手机是滚烫的,拿在手里也非常不舒服。想玩视频游戏或者使用类似的GPU密集型应用,50摄氏度外壳温度是一个灾难性的用户体验。

(原文链接:XDA;雷锋网Tinpo翻译)

20160630000123