Xiaomi Black Shark
128 GB, Black, 5.99", Dual SIM, 20 Mpx, 4G
Der Standard ist Schrott. Antutu Benchmark hat mehr Fehler als irgendwem lieb ist. Eine Analyse und ein Beispiel mit einem Kühlschrank.
Die App Antutu Benchmark und ihre Schwester Antutu 3D Bench gelten als de facto Standard der Leistungstests für Smartphones. Antutu belastet dein Smartphone in allerlei Arten, testet unter anderem die Grafikleistung, die Scrollgeschwindigkeit und die Intelligenz in der Bildanalyse. Am Ende kommt dann eine sechsstellige Zahl heraus, die dir dann sagt «Dein Smartphone ist 265 852 gut».
Das Problem: Die Scores lassen sich extrem einfach manipulieren.
Daher habe ich beschlossen, das mal kurz zu testen und dir einen Weg zu zeigen, wie du Antutu so manipulieren kannst, dass die App signifikant höhere Zahlen ausspuckt. Ich vergleiche das Gamer Phone Xiaomi Black Shark mit sich selbst. Dazu ein paar Referenzzahlen des Huawei Mate 20 Pro, denn die Unterschiede sagen viel aus.
Es macht einen Unterschied im Scoring, ob dein Phone viele Apps laufen lassen muss, WLAN ein oder aus hat oder, oder, oder… kurz: Je mehr dein Phone zu tun hat im Hintergrund, desto schlechter wird es im Antutu Benchmark abschliessen. Oder halt auch nicht. Denn da kommt ein weiteres Problem hinzu. Die offizielle Website Antutus gibt keine Auskunft darüber, wie genau unter welchen Faktoren getestet wird. Einfach «the most professional benchmark» und das soll dann auch reichen.
Die Test Phones sind daher mit möglichst grossen Unterschieden versehen.
Das Xiaomi Black Shark ist frisch formatiert. Es ist das Smartphone, auf dem ich die Scores mit einfachen Mitteln manipulieren werde. Auf Antutus Bestenliste steht es aktuell auf Rang 7 mit einem globalen Score von 291 099, denn Antutu loggt all die Resultate und rechnet dann – wieder ohne Angabe von Details oder Methodologie – eine Gesamtpunktzahl für die globale Referenz aus.
Das Mate 20 Pro aus dem Hause Huawei ist aktuell der Spitzenreiter bei Antutu mit einem globalen Score von 305 437. Die ersten drei Ränge werden vom Mate 20 Pro, dem Mate 20 und dem Mate 20 X – also von Smartphones mit dem Kirin 980 System-on-a-Chip (SoC) – belegt. Das ist dahingehend interessant, als das SoC mit zwei Neural Processing Units (NPU) kommt. Diese zwei NPUs tun im Alltag nichts anderes, als mehr Systemressourcen für Apps aufzuwenden, die du oft brauchst. In der Theorie sieht das dann so aus: Je öfter ich Antutu anschmeisse, desto höher der Score. Das funktioniert aber erfahrungsgemäss erst über längere Zeit und nicht nach drei Tests an einem Freitagmorgen.
Das Mate 20 Pro ist bereits in Gebrauch. Im Hintergrund synchronisieren Apps wie Instagram, E-Mail oder WhatsApp. WLAN ist aus, die mobilen Daten an.
Bevor ich mit der Manipulation beginne, muss ich wissen, was das Black Shark einfach so drauf hat. Ich lasse Antutu dreimal hintereinander an meinem Arbeitsplatz und in einem Meeting-Zimmer laufen. Die Scores:
In der Grafik sehe ich eine lineare Abnahme. Achtung: Die Grafik ist im Stile der Schweizer nationalistisch-konservativen Partei SVP gehalten: Ich habe den Bereich von 0 bis 220 000 ausgeblendet, damit die Fluktuationen visuell möglichst stark ausgeprägt sind. Das betrifft auch die anderen Grafiken in diesem Artikel. Am Ende zeichne ich ein Bild, in dem das Mate 20 Pro mit grossem und peinlich wirkendem Abstand verliert.
Der Test wird von der Temperatur des Geräts ausgebremst, denn je heisser dein Smartphone läuft, desto eher kicken Kühlsysteme ein. Ihr Job ist es, sicherzustellen, dass dein Smartphone nicht in Flammen aufgeht, wenn du es anstrengst. Da Leistung zu Temperaturanstieg führt, wird ebendiese Leistung gedrosselt bis das Gerät wieder eine akzeptable Temperatur erreicht hat.
Die am einfachsten durchzuführende Manipulation ist die der Temperatur. Wenn ich ein Smartphone kühle, kann es länger unter Volldampf arbeiten, bevor das Kühlsystem die Leistung drosselt. Also packe ich das Black Shark in ein Grip, auch Znünisäckli genannt, und dann ab in den Kühlschrank damit. Nach 30 Minuten lasse ich Antutu nochmal laufen.
Der Score: 284 089
Dank der externen Kühlung durch den Kühlschrank ist das Phone laut Antutu um 24 Prozent schneller oder besser geworden.
Schauen wir mal, ob ich das auf die Spitze treiben kann. Black Shark zurück ins Grip und dann ins Tiefkühlfach. 30 Minuten später: 285 853. Es scheint also so, als ob die Systemleistung ab einer gewissen Temperatur gleich gehalten wird, oder die Hardware-Leistung Mitte der 280 000er ihren Zenit erreicht.
Natürlich hat die Extremkühlung Auswirkungen auf die Batterielaufzeit des Black Shark. Aber dass ich innerhalb einer Stunde 60% des Akkus verbrauche, berücksichtigt Antutu nicht.
Mit steigender Temperatur, also drei Tests gleich nach dem Gefrierfach bei Raumtemperatur, normalisiert sich der Score aber wieder.
Die Werte im Detail:
Das Huawei Mate 20 Pro hat es nicht leicht. Ich teste es nur bei Raumtemperatur, drücke auf «Test Again» sobald der vorherige Test durch ist. Das Huawei Smartphone wird heisser und heisser und fünf Tests später fällt es unter die 220 000er-Marke.
Der Score: 199 911.
Die Testergebnisse im Detail:
Es ist offensichtlich, dass Antutu als Benchmark Tool nur wenig taugt. Das schwerwiegendste Problem mit der App ist, dass die Methodologie der Bestimmung des Global Score nicht transparent ist. Wenn das ein Durchschnittswert ist, dann müssen Tests anderer schier astronomische Werte liefern. Ein Beispiel: Das Mate 20 Pro hat seine 199 911 an Antutu übermittelt. Damit gibst du dich einverstanden, wenn du die App herunterlädst. Der Global Score liegt bei 305 437. Das heisst, dass mindestens ein Test den Schnitt mit einem Wert von 410 963 hat abschliessen müssen. Oder eine Million Tests mit etwa 306 000. Wenn Antutu aber so niedrige Scores eliminiert oder doch die Systemtemperatur irgendwie mathematisch normalisiert, dann kommuniziert der App Developer das nicht.
Es ist viel zu einfach, die Scores zu manipulieren. Wenn ich auf meinem Weg zur Kaffeemaschine 24 Prozent mehr Leistung vorgaukeln kann, dann stimmt mit dem Benchmark etwas nicht. Wenn ich einen Score künstlich niederdrücken kann, indem ich einfach wiederholt einen Test ausführe, dann ist der Test nicht viel wert.
Weiter kann ich mit einfachsten grafischen Mitteln ein Bild eines Phones zeichnen, das mehr Zerrbild als realistisches Abbild ist. Ich habe oben nicht nur einfach einen Bereich ausgeschnitten, sondern auch noch Farben verwendet, die gewisse Suggestionen enthalten. Rot, vor allem, wird mit Warnung und Gefahr assoziiert. Meine Ausrede für die Farbwahl: Ist CDCI-konform mit den digitec-Farben. Genau wie die politische Partei kann ich sagen: «Wenn du da etwas reininterpretierst, dann ist das deine Sache».
Dann ist da noch die Sache mit den Global Scores. Auch mit meiner Kühlschrank-Methodik, die ich schon für exzessiv halte, habe ich nicht einen Wert erreicht, der über dem Global Score von 291 099 liegt oder dem auch nur nahe kommt. Wie haben die das errechnet? Unter welchen Umständen kommen Werte zusammen, die meine lahmen 284 Tausend rausreissen?
Der Test bringt die ernüchternde Erkenntnis, dass Benchmarks nicht ganz so einfach sind, wie sie es vorgeben zu sein und dass eine bequem lesbare Zahl nicht zwingend Aussagekraft haben muss. Doch wir haben aktuell keine bessere Alternative.
So. Fertig. Bleib aufmerksam und hinterfrage alles.
Journalist. Autor. Hacker. Ich bin Geschichtenerzähler und suche Grenzen, Geheimnisse und Tabus. Ich dokumentiere die Welt, schwarz auf weiss. Nicht, weil ich kann, sondern weil ich nicht anders kann.