Plötzlich schwarzen Bildschirm mit neuem Spielerechner
Bei meinem neuen Spielerechner stellte sich schnell Frust ein, weil der einfach mitten im Spiel die Grafikkarte deaktiviert hatte. Einfache Treiberupdates haben nichts gebracht, es musste der Händler ran.
Der Rechner besteht aus einem Mainboard von Gigabyte, dem B550M DS3H. Dazu als CPU der AMD Ryzen 7 5700X, 32 GB DDR4-RAM sowie eine AMD RX 7700 XT (12 GB) von Sapphire. Betrieben wird das ganze von einem 600 W Netzteil von BoostBoxx. Gekühlt mit einem besseren CPU-Kühler und zwei 120 mm Gehäuselüfter.
Symptomatik
In mehreren Spielen, sowohl »Saints Row (2022)« und »Enshrouded« wird nach einiger Spielzeit einfach der Bildschirm in den Energiesparmodus versetzt. Die Spielmusik geht noch einige Sekunden weiter, stoppt dann aber auch. Nach einem Neustart ist die Grafikkarte dann deaktiviert. Ich muss sie aktivieren, den Rechner erneut starten und dann kann man wieder einige Minuten spielen.
Was ich ebenfalls beobachten konnte sind Fehlstarts. Der Rechner startet und zeigt den Splash-Screen vom Mainboard-Hersteller Gigabyte an (der BIOS/UEFI Bildschirm). Danach wird der Bildschirm aber einfach schwarz. Die Lüfter gehen kurz aus und gehen dann wieder an. Der Rechner scheint nicht ganz hochzukommen. Das spricht für mich nach einem Hardwaredefekt, der grundlegender ist als etwas mit Windows, Spielen oder den Treibern.
Deaktivierte Grafikkarte
Nach einem Neustart ist dann die Grafikkarte deaktiviert. Im Task Manager taucht sie nicht mehr auf:
Im Gerätemanager findet man sie hier als »deaktiviert (Code 22)«:
Ich kann sie dann wieder aktivieren, muss den Rechner allerdings neu starten, damit sie wieder funktioniert. Es gibt so einen Assistenten, allerdings macht der nichts:
Die AMD Software bekommt nach Aktivierung der GPU mit, dass etwas nicht stimmt und fragt, ob ich einen Fehlerbericht abschicken mag:
In der Windows Ereignisanzeige findet man einen entsprechenden Eintrag:
Das Ereignis ist auch 6 Sekunden nachdem Bildschirm deaktiviert wird eingetragen.
Der Anzeigetreiber "amduw23g" reagiert nicht mehr und wurde wiederhergestellt.
Nach beiden Dingen kann man im Internet suchen. Unter »amduw23g stopped responding« findet man ganz viele Foreneinträge von Leuten, die eine AMD Radeon RX 7900 XTX haben und das gleiche Problem haben: Sie spielen ein Spiel, der Bildschirm wird schwarz/deaktiviert. Es gibt diverse Standardvorschläge wie Treiber neu installieren. So richtig eine Lösung hat niemand. Es gibt auch viel Häme, dass man doch von Nvidia kaufen sollte, aber bei allen Herstellern gibt es immer wieder Probleme.
Fehlersuche
Beruflich habe ich immer wieder mit defekten Grafikkarten zu tun. Mein Jobtitel ist auf Deutsch wohl »Software-Ingenieur für Hochleistungscomputer« und ich entwickele Software direkt für Grafikkarten. Dadurch habe ich ein ganz gutes Verständnis davon, was da so alles schiefgehen kann. Allerdings beschränkt sich meine Expertise auf wissenschaftliche Anwendungen auf Rechenzentrums-Grafikkarten. Mit Gaming-Grafikkarten kenne ich mich deutlich weniger aus. Merkwürdige Abstürze sind aber meist ein Hardwareproblem. Und die können eben immer mal wieder auftreten.
Jedenfalls habe ich dann mit der Fehlersuche angefangen, auch wenn sich das so sehr nach Arbeit anfühlt. Das sollte helfen herauszufinden, was ich mit dem Rechner machen kann. Und es auch dem Händler helfen, den Fehler dann zu beheben.
Update der Grafikkartentreiber
Ich habe dann einmal geschaut, welche Version vom Grafikkartentreiber installiert ist. Ich hatte Version 24.1.1 installiert, es gab Version 24.3.1:
Die habe ich dann installiert:
Danach den Rechner neu gestartet, das Problem besteht weiterhin. Es ließ sich also nicht durch den Grafikkartentreiber lösen.
Update der Mainboard-Firmware
Wegen diesen merkwürdigen Fehlstarts habe ich noch die Version von der Mainboard-Firmware versucht zu aktualisieren. Das war nicht so ganz einfach. Zuerst habe ich die installierte Version versucht herauszufinden.
Man sieht hier, dass der Rechner mit Version FCd vom 25. Dezember 2023 ausgeliefert worden ist:
Dann habe ich versucht über die Webseite von Gigabyte eine neue Version zu finden, für dieses Mainboard finden sich allerdings nur ältere Versionen online:
Es gibt noch eine zweite Version dieses Mainboards mit einem Zusatz:
Aber dafür gibt es auch keine neuere Version:
Ich habe dann diese Version »F17« heruntergeladen und versucht auf das Mainboard zu installieren. Das ging aber nicht:
Ich habe dann noch eine Version »FA« vom 26. April 2023 irgendwo aufgetrieben, ich kann gar nicht mehr rekonstruieren, auf welcher Unterseite die war. Mit dieser Version habe ich das Mainboard aktualisiert:
Damit trat der Fehler aber auch direkt wieder auf.
Ich habe noch deren Windows-Tool genutzt. Da kann man auch ein BIOS-Update mit machen:
Dort haben sie die Version »FC«:
Dann wurde das auch installiert, die Version »FC« ist vom 15. Februar 2024, also nochmals aktueller als das, was ausgeliefert worden ist.
Nach dem Neustart wollte das Gigabyte-Tool noch die Lüfter neu kalibrieren:
Die Rechtschreib- und Grammatikfehler in der Nachricht erinnern mich immer wieder daran, dass Hardwarehersteller gruselige Software machen.
Danach trat der Fehler direkt wieder auf, die Mainboard-Softwareversion hat es also auch nicht verändert.
Thermisches Problem?
Die nächste mögliche Fehlerquelle ist ein thermisches Problem. Vielleicht wird die Grafikkarte zu heiß? Das exakte Modell der GPU ist Sapphire Pulse Radeon RX 7700 XT 12 GB GDDR6. Bei Techpowerup habe ich Temperaturen gefunden. Da haben sie verschiedene Lasttests gemacht. Bei genau dieser Karte pendelt sich unter Maximallast bei der Karte 61 °C und im Hotspot 85 °C. Nehmen wir das mal als Referenzwerte dafür, was die Karte aushält. Beim Safe Temp Blog habe ich als Höchsttemperatur 97 °C gefunden. Das ist ähnlich hoch wie bei CPUs und dürfte der Punkt sein, ab dem heftig gedrosselt oder gar notabgeschaltet wird.
Ich habe den Open Hardware Monitor genommen und die Sensoren in eine Datei schreiben lassen. Dann habe ich Python, Pandas und Vega-Altair genutzt um daraus hübsche Grafiken zu machen.
Der Zeitverlauf:
- 07:07:16: Ich habe das Spiel gestartet.
- 07:08:05: Die Lüfter wurden spürbar lauter.
- 07:08:10: Das Spiel ist fertig geladen, die Welt ist sichtbar. Große Last auf der GPU.
- 07:08:29: Der GPU-Lüfter startet laut AMD Overlay.
- 07:11:10: Der Rechner wird nochmal besonders laut.
- 07:16:07: Der Bildschirm deaktiviert sich.
- 07:16:37: Es gibt einen Windows-Benachrichtungston.
- 07:18:00: Ich drücke den Reset-Taster.
In diesem Ausschnitt der Grafik kann man den Start des Spiels, den deaktivierten Bildschirm und den Reset gut sehen.
Der Benachrichtigungston kommt deutlich nachdem schon keine Sensordaten mehr gesammelt werden. Das ist finde ich interessant, der Absturz scheint das komplette System lahmzulegen. Der Nachrichtenton kommt vielleicht von tieferen Systemebenen.
Vom CPU-Lüfter kann ich gar keine Daten auslesen. Der GPU-Lüfter wird angezeigt, aber nur bis er auch anfängt sich zu drehen. Anscheinend laufen hier die AMD-Treiber und Open Hardware Monitor nicht ganz perfekt zusammen. Aber immerhin sind sich beide einig, dass der Lüfter nicht mehr stillsteht.
Die Temperatur sieht auch eingependelt aus, da steigt nichts mehr an. Es wirkt, als träte das Problem einfach bei der normalen Betriebstemperatur auf.
Schaut man sich das ganze am Ende etwas genauer an, so liefert die GPU Auslastung und GPU Temperatur einige Sekunden früher keine Daten mehr. Die CPU-Sensoren werden noch einige Sekunden länger aufgezeichnet.
Besonders interessant ist hier, dass die GPU-Speicherauslastung aber noch weiter aufgenommen wird, die GPU-Temperatur aber nicht.
Die CPU-Temperatur und -Auslastung steigt in den letzten Sekunden an. Das ist auch normal, wenn es einen Absturz gibt und das System festhängt.
Schaut man sich nun die zwei Minuten vor dem Problem an, so ist dort nichts offensichtlich merkwürdiges zu finden. Die GPU-Auslastung ist sogar ein bisschen heruntergegangen, möglicherweise weil ich in ein Gebäude gegangen bin und daher weniger Objekte dargestellt werden mussten.
Die Temperaturen scheinen da ziemlich normal zu sein. Der Kern war so bei 62 °C (Referenz 61 °C), im Hotspot 70 bis 80 °C (Referenz 85 °C). Das ist also noch ganz im Rahmen und weit von der kritischen Temperatur von 97 °C entfernt. Ich kann mir anhand dieser Daten also nicht vorstellen, dass das ein thermisches Problem ist.
Hier ist noch der Plot in interaktiver Form, man kann mit dem Mausrad vergrößern und durch klicken und ziehen in der Zeit navigieren.
Zu wenig elektrische Leistung?
Beim Zusammenstellen des Rechners habe ich die CPU von einem AMD Ryzen 5 5600 auf einen Ryzen 7 5700X erweitert und den RAM von 2× 8 GB auf 2× 16 GB vergrößert. Beide CPUs haben eine Thermal Design Power (TDP) von 65 W, sollten also nicht unterschiedlich viel Strom brauchen. Das bisschen mehr RAM sollte auch kein Problem sein.
Im Rechner verbaut ist ein Netzteil mit 600 W. Ich habe einmal den Rechner von Be Quiet genutzt um auszurechnen, welches Netzteil man nehmen sollte:
Da werden 415 W ausgerechnet. Man muss natürlich für Lastspitzen etwas Reserve lassen. Sie empfehlen dann ein Netzteil mit 550 W:
Von daher sollten 600 W durchaus ausreichen.
Ein weiterer Aspekt könnte sein, dass das Netzteil zwar insgesamt genug Leistung liefert, aber nicht genug auf der 12 V Schiene, die die Grafikkarte braucht. Auf der Seite des Herstellers findet sich keine Auflistung nach Schienen, in einem Test von Computerbase findet man allerdings etwas. Da sind wohl 49 A auf der 12 V Schiene verfügbar. Das sind 588 W, das sollte also locker für eine GPU mit 245 W TDP ausreichen.
Es muss einen anderen Grund haben, warum dieses Problem auftritt.
Verschiedene Spiele
Es ist auch nicht nur mit einem Spiel aufgetreten. Es tritt bei Enshrouded1 auf, das deren eigene »Holistic« Engine nutzt. Es tritt aber auch bei Saints Row (2022)2 auf, die deren eigene »Agents of Mayhem« Engine nutzt. Und dann habe ich noch Cyberpunk 20773 gespielt, da ist der Rechner ebenfalls abgestürzt. Bei Cyberpunk zieht die GPU sogar 220 W, das Spiel ist besonders fordernd.
Damit ist auch ausgeschlossen, dass es nur ein einzelnes Spiel ist.
Grafikeinstellungen senken
Vielleicht tritt das Problem auch erst ab einer gewissen Last auf. Ich habe bei Enshrouded die Grafik von sehr hoch einmal auf mittel gestellt. Dann lief es stabil. Auch mit hoch lief es stabil. Die GPU brauchte dann nur gut 100 W elektrischen Strom anstelle der 200 W bei sehr hoch. Die Karte ist mit 245 W Abwärme spezifiziert, entsprechend wir sie auch die Leistung aufnehmen können.
Da es mit weniger Auslastung stabil läuft, deutet das wirklich auf ein Hardwareproblem hin. Vielleicht sind da irgendwelche elektronischen Bauteile kaputt und vertragen die Last nicht. Reine Wärme wird es wohl nicht sein. Das passiert schon mal.
Lockere Stecker?
Könnte es möglich sein, dass irgendwo Stecker locker sind? Diese Frage haben mir einige gestellt. Ich habe dann nochmal im Detail nachgeschaut. Am Netzteil kann kein Kabel locker sein, weil das ein nicht-modulares Netzteil ist und dort alle Kabel fest drin sind.
Die anderen Seiten der Kabel sind alle fest drin. Die haben auch alle Haken, damit sie sich nicht lösen. Das scheint also auch nicht das Problem zu sein.
Kontakt zum Händler
An diesem Punkt hatte ich dann auch keine Ideen mehr und habe mich an den Händler gewandt. Dem habe ich zusammengefasst, was ich hier auch alles ausgeführt habe. Er hat mir direkt am nächsten Werktag geantwortet, der Rechner müsse eingeschickt und untersucht werden. Bei der E-Mail war direkt ein DHL-Retourenetikett dabei. Also habe ich den wieder eingepackt und am 02. April 2024 zur Packstation gebracht.
In der E-Mail stand auch, dass sie das Windows-Passwort bräuchten. Ich kann das nachvollziehen, dann kann man sich einfach in dem Rechner einloggen und versuchen genau das Problem nachzustellen. Und dem Händler muss ich eh vertrauen, schließlich hätte er auch direkt Spionagesoftware auf dem vorinstallierten Windows ausliefern können. So gesehen ist das jetzt auch nicht weiter schlimm. Und da es nur mein Spielerechner ist, habe ich mich Google Drive ausgeloggt, das Firefox-Profil gelöscht und dann passt das für mich. Selbst ohne Passwort könnten sie ja die SSD ausbauen und an die Daten kommen. Von daher braucht es da einfach Vertrauen.
Aber meinen privaten Hauptrechner würde ich in dieser Form nicht einschicken. Da habe ich das Laufwerk auch komplett verschlüsselt. Falls da etwas ist, müsste ich mit Lenovo schauen, welchen Modus wir da fänden. Da mein Rechner aber eh mit Linux läuft, können die da wohl eher wenig mit der Software diagnostizieren.
In der E-Mail haben sie 12 Werktage nach Wareneingang als Bearbeitungszeit angesetzt. Angenommen, DHL braucht einen Tag für das Paket, dann wäre das der 19. April 2024. Und tatsächlich, genau an dem Freitag schrieben sie mir, dass sie den Rechner wieder in den Versand gegeben haben.
Einen Fehler hätten sie auch mit 24-Stunden-Lasttest nicht feststellen können. Allerdings hätten sie vorsichtshalber die Grafikkarte ausgetauscht. Immerhin. Ich hatte schon befürchtet, dass sich das nicht reproduzieren lässt und ich daher den Rechner unverändert wieder zugeschickt bekommen hätte.
Rechner zurück
Ich bekam den Rechner dann am 23. April 2024 geliefert. Und seitdem lief er einwandfrei. Es schien also wirklich ein Problem mit der Grafikkarte zu sein.
Von daher hat CSL-Computer hier den Fehler behoben. Dass sie ihn nicht reproduzieren konnten, finde ich merkwürdig, aber soll mir egal sein.