Beispiel für KI-Künstler auf Spotify

Neulich wurde mir merkwürdige Musik auf Spotify vorgeschlagen. Ich habe mir das einmal genauer angeschaut und habe wohl das erste Mal bewusst KI-Musik wahrgenommen.

Spotify kennt meinen Musikgeschmack inzwischen ganz gut. Der besteht hauptsächlich aus elektronischer Musik. In der Ecke höre ich das ruhigere Synth Wave und das härtere Cyberpunk, je nach Laune. Und bei der elektronischen Tanzmusik dann Trance. Ansonsten noch Film- und Spielmusik, weil mich die richtig in etwas anderes eintauchen lässt.

Da immer wieder neue Musik kommt, schlägt Spotify mir dann auch entsprechend was davon vor.

Manchmal sind a nette Dinge dabei. Aber manchmal auch komischer Kram. An einem Tag war das hier vorgeschlagen:

Das sieht schon ein bisschen unseriös aus, weil da so offensiv mit femininer Ästhetik geworben wird. Von der Aufmachung her könnte das auch so ein düsteres Computerspiel sein, wo sie dann die Assassine oder Zauberin spielt (wie bei Diablo 2).

Ich habe kurz reingehört und fand es ganz merkwürdig. Es klingt so total seelenlos. Der Gesang ergibt keinen Sinn. Es klingt so, als hätte man Klänge zusammengesetzt, aber Musik würde ich das nicht nennen. Ist das also von KI erzeugte Musik?

Ich habe mir mal das Profil genauer angeschaut. Da gibt es ein paar Fotos. Und die sind alle eher so Instagram-Niveau als das, was ich auf Spotify erwarten würde. Außerdem ist der Blick so unheimlich leer. Und dann ist da noch dieser Biographie-Text:

Dieser Text ist wirklich der Knaller. Da steht nichts konkretes. Es klingt genauso seelenlos, wie sich die Musik anhört. Es wirkt wie mit ChatGPT erzeugt.

Unter den Fotos findet man noch das hier:

Das sieht natürlich auf den ersten Blick ganz ansprechend aus, weil die Frau sehr feminin gekleidet ist und der Rock doch eher zu kurz für den Ort ist. Es provoziert.

Und vielleicht bemerkt man dann nicht mehr die Unstimmigkeiten. Sie hat nämlich an ihrer linken Hand einen Handschuh, der die Finger bedeckt. An ihrer rechten Hand ist zwar das Handgelenk schwarz bedeckt, die Finger sind aber frei. Zudem ist ihr Handy entweder sehr hoch, oder sie hält es komisch. Fingerlose Handschuhe gibt es ja, aber das sieht nicht so aus. Und man würde die nicht so kombinieren, wie auf dem Foto.

Die fehlende Kohärenz des Fotos ist ein typisches Problem der Diffusionsnetze, mit denen diese Art Bilder künstlich erzeugt werden. Das Netzwerk fängt mit Rauschen an und versucht dann das im Prompt beschriebene Bild herauszuarbeiten, indem es immer mehr Klarheit erfindet. Stellt es euch wie Verpixeln in rückwärts vor. So wie bei CSI aus dem Bild einer schlechten Überwachungskamera plötzlich ganz tolle Bilder erzeugt werden. So läuft das. Nur dass das Modell eben Details erfindet. Und so steht im Prompt nichts konkretes zu den Handschuhen. Der Teil vom Netzwerk, der gerade unten an der linken Hand dran ist, erfindet einen Handschuh. Der Teil, der oben am Handy ist, weiß aber nichts davon. Der erfindet nur eine Stulpe. Und somit entsteht der Widerspruch.

Ansonsten soll sie laut Spotify-Profiltext in Berlin-Tempelhof sein. Und damit gelten deutsche Regeln im Straßenverkehr. Am Rand der Straße ist eine gestrichelte Linie mit Breitstrich. Diese wird nur als Begrenzung einer Fahrradstraße oder einer Autobahnausfahrt genommen. Das ist da aber offensichtlich nicht der Fall. Somit ergibt das auch keinen Sinn, was aber wohl nur mit als Verkehrs-Nerd auffällt.

Plattenlabel

Sehr witzig finde ich noch das Plattenlabel, das sie veröffentlicht. Das heißt »Nine of Eleven Music«. Das erinnert mich einerseits an ElevenLabs, einer KI-Firma im Bereich Audio. Zum anderen erinnert mich das an »Seven of Nine« von Star Trek Voyager, einer Borg-Figur. Beides empfinde ich als nette Anspielung auf die KI-Natur dieses Labels.

So ein Bild selbst machen

Es ist inzwischen gar nicht mehr schwer, solche Bilder selbst zu erzeugen. Das geht mit einem kostenlosen Google Account und mit Gemini 3/Nano Banana 2. Da habe ich nach ungefähr fünf Versuchen diesen Prompt gehabt:

Erstelle mir ein Bild einer Sängerin, wie es auf einem Albumcover für Dark Synth passen würde.

Die Sängerin ist eine zierliche Frau, blond (gefärbt, natürlich braun) und hat ein markant geformtes Gesicht. Sie hat ein ausgeprägtes Kinngrübchen. Ihre Haare sind glatt und schulterlang.

Sie trägt feminine und freizügige Outfits aus schwarzem Leder, aber ohne Nieten. Die Jacke ist gut gepflegt, kein Used-Look. Ihr Make-Up ist im Goth-Stil. Sie trägt verspielte Ohrringe. Zu vielen Outfits trägt sie auch einen Choker (auch Leder).

Der Hintergrund ist eine Großstadt, wahrscheinlich eine Hauptstadt eines europäischen Landes. Es ist tagsüber. Sie ist ausgeleuchtet wie ein Modell.

Und dann bekam ich dieses Cover präsentiert:

Ist jetzt nicht exakt sie geworden, aber es wirkt auf mich ähnlich glaubhaft.

Man kann sich jetzt überlegen, wie »Kaya Astarov« entstanden ist.

Gedanken zu Spotify

Was am Ende aber bleibt ist: Spotify empfiehlt mir mit KI erzeugte Musik, die dann auch noch schlecht klingt. Das geht mir schon auf den Geist.

KI in der Musik möchte ich nicht pauschal verteufeln. Der Synthesizer hat auch den Bedarf an echten Instrumenten reduziert. Tonträger wie Band, Schallplatte, CD und MP3 haben den Bedarf für Live-Musik ebenfalls reduziert. Trotzdem war die Musik an sich nicht bedroht, auch wenn natürlich manche Dinge zu Trends werden und bei anderem die Nachfrage sinkt. Ich kann mir auch gut vorstellen, dass man mit KI durchaus lustige Beat-Loops erzeugen lassen kann. Aber ganze Stücke inklusive Gesang von einer KI erzeugen lassen? Das überzeugt mich aktuell gar nicht.