GPT ist nur ein Sprachmodell – aber ein gutes

Es gibt schon viele Artikel über GPT und ChatGPT im besonderen; nur noch keinen von mir. Mein persönlicher Blickwinkel auf Large Language Models (LLM) und Generative Pretrained Transformers (GPT)

Das Produkt ChatGPT von OpenAI wurde ziemlich stark diskutiert. Es wurde als »künstliche Intelligenz« bezeichnet und ihm wurden diverse Fähigkeiten angedichtet, als wäre es schon fast eine künstliche Intelligenz mit Bewusstsein.

Ich beschäftige mich beruflich mit Maschinenübersetzung und habe daher einen eher nüchternen Blick auf diese Sprachmodelle. In diesem Artikel möchte ich versuchen die Funktionsweise einmal möglist anschaulich aber korrekt darzustellen. Die zugrundeliegenden Paper verlinke ich in den Fußnoten.

GPT steht für Generative Pretrained Transformer. Das ist ein Transformer-Modell, das Text erzeugen kann (generative) und vortrainiert worden ist (pretrained). Also müssen wir uns erstmal anschauen, was ein Transformer ist.

2017 wurde der Transformer1 veröffentlicht. Es ist eine Architektur von neuronalen Netzwerken, mit der man Sequenzen auf andere Sequenzen abbilden kann. Das ganze bassiert auf dem Attention-Layer, das ist aber für diesen Artikel hier nur ein Implementierungsdetail.

Was so ein Modell abbildet ist folgende Frage: Wenn ich eine Eingabesequenz habe und einen Teil einer Ausgabesequenz, was ist dann die Wahrscheinlichkeitsverteilung für das nächste Symbol in der Ausgabesequenz? Angenommen wir wollen den Satz »My name is Martin.« übersetzen, dann würden wir eine eine Sequenz die Sequenz »(1) My (2) name (3) is (4) Martin (5) .« reinstecken. Für das erste Zeichen würde uns das Modell gewisse Wahrscheinlichkeiten für »Mein« und »Ich« ausgeben. Wir stecken als nächstes dann das ganze nochmal rein, diesmal mit »(1) Mein« als partielle Ausgabesequenz. Das Netzwerk würde uns jetzt als nächsten Vorschlag hoffentlich »Name« machen. Stecken wir dann »(1) Mein (2) Name« rein, so erhalten wir wohl »ist«. Auf diese Weise kann man mit einem austrainierten Übersetzungsmodell dann Dinge übersetzen.

Nun gab es aber auch die Idee, die Hälfte einfach wegzulassen. So gab es dann BERT2, das die eine Hälfte des Transformers hat. Das Trainingsziel ist Lücken zu füllen. So hat man dann reingegeben »Mein Name … Martin.« und das Netzwerk trainiert, dass es die Lücke mit »ist« auffüllt. Nun kann man so ein fertiges Modell nutzen um Lücken zu füllen, aber auch noch für einige andere Aufgaben wie Textklassifizierung.

Dann hat OpenAI das erste GPT-Modell3 rausgebracht. Das hat die andere Seite des Transformers genutzt. Somit ging es darum Texte fortzusetzen. Die Frage, die GPT beantwortet ist diese: Gegeben eine Sequenz von Wörtern, wie ist die Wahrscheinlichkeit für das nächste Wort? Es ist also eigentlich nur eine Art Autovervollständigung für Text. Es ist das, was die Google-Tastatur unter Android macht, wenn sie oben Wortvorschläge anzeigt. Sie schlägt jene Wörter vor, die die wahrscheinlichste Fortsetzungen sind.

Das Training dieser Modelle ist erschreckend einfach: Man lädt sich unvorstellbare Mengen Text aus dem Internet herunter. Und dann kann man aus diesen Texte Aufgaben erstellen. Wenn wir einen Satz haben wie »Und dann haben die damit gearbeitet, indem sie Zellen farblich hinterlegt haben und dutzende Spalten anlegten.« Daraus können wir nun ganz viele Aufgaben erstellen:

Textanfang Lösung für nächstes Wort
Und dann
Und dann haben
Und dann haben die
Und dann haben die damit
Und dann haben die damit gearbeitet

Jede Zeile in der Tabelle ist dann ein Trainingsbeispiel, das man dem neuronalen Netzwerk zeigt. Es lernt dann, Sätze zu vervollständigen. Man nimmt nicht nur einen Satz, sondern auch längere Dokumente.

Danach kommt noch ein »Fine Tuning«, bei dem man dieses vortrainierte Modell noch auf bestimmte Aufgaben wie Textklassifizierung, Zusammenfassung oder das Beantworten von Fragen weitertrainiert.

Man hat dann festgestellt, dass das Konzept wirklich mächtig ist. Vor allem aber, dass diese Modelle nicht erst im Nachtraining verstehen, was die Aufgaben sind. In den Texten waren schon genug Aufgaben enthalten. Stellt euch Texte aus Schulbüchern vor, oder so Tutorials in Dialogform. Hinter einigen Artikeln steht mit »tl;dr« gekennzeichnet eine Zusammenfassung. Und entsprechend kann man dann einen Text reingeben, »tl;dr« anhängen und das Netzwerk bitten den Text zu vervollständigen. Das Sprachmodell hat gelernt, das nach diesem Stichwort eine Zusammenfassung kommt und versucht das wahrscheinlichste zu erzeugen.

Mit diesen Erkenntnissen hat man dann GPT-24 gebaut und später das noch größere GPT-35. Das GPT-2 konnte man noch herunterladen, das GPT-3 nicht mehr. Hugging Face hat einen Online-Editor für GPT-2 gebaut, den man ausprobieren kann. Einfach einen Text schreiben, Tab drücken und sich die Vorschläge anschauen. Um die Lücke der Verfügbarkeit zu schließen, hat Meta dann die Open Pre-trained Transformer6 veröffentlicht.

ChatGPT ist letztlich wie GPT-3, nur dass man da noch mehr Arbeit in das Nachtraining gesteckt hat. Man hat explizit noch die Trainingsdaten so erweitert, dass es dieses Frage-Antwort-Format kann. Letztlich hat das Netzwerk schon diverse Dialoge gesehen, aber meist eben nur Texte aus einer Perspektive. Von daher musste das noch erweitert werden. GPT-4 hat dann auch noch Bilddaten mit als Eingang, aber vom Konzept her ändert das nichts.

Das sind also letztlich nur Sprachmodelle, die nur für das nächste Wort im Text eine Wahrscheinlichkeitsverteilung geben. Nimmt man das, so kann man danach das nächste Wort ausrechnen lassen. Mehr ist das also nicht. Aber diese Modelle sind gigantisch groß und nutzen viel Rechenleistung. Daher ist es nicht verwunderlich, dass sie viel können.

Mit diesem Hintergrund kann man sich das Bewusstsein nochmal anschauen. Ist GPT bewusst? Definitiv nicht. Es ist einfach nur ein sehr komplexes Sprachmodell. Damit ist das Thema eigentlich durch, wir müssen uns noch keine Sorgen machen.

Interessant ist aber die Frage, wie wir eigentlich Bewusstsein bei anderen Personen feststellen. Ich weiß für mich selbst natürlich, dass ich bewusst bin. Und bei den anderen Menschen gehe ich davon aus, dass sie Bewusstsein haben, weil sie sich so verhalten, als hätten sie Bewusstsein. Ich kann denen nicht in den Kopf schauen. Aber da sie in Gesprächen ja Selbstbewusstsein und -reflexion zeigen, halte ich sie für bewusst. Ähnlich bei Tieren, die wirken auch bewusst auf mich. Viren und Bakterien tun das nicht. Pflanzen und Pilze auch nicht, obwohl die schon ziemlich komplex sind. Aber die haben einfach kein Gesicht, mit dem ich kommunizieren könnte.

Nun gibt es den klassischen Turing-Test, bei dem ein Mensch durch ein Computerterminal mit einer Maschine chattet und dann feststellen soll, ob er mit einem Mensch oder einer Maschine gesprochen hat. Als Alan Turing 1950 die Idee formulierte, so waren Computer noch nicht leistungsfähig genug, um das zu schaffen. Aber heutzutage kann ChatGPT das schon ziemlich gut. Je nach Thema fällt mir das sehr schwer. Es gibt heute das Spiel Human or Not, das genau das macht. Man erkennt die Menschan allerdings an der schlechten Rechtschreibung und dem Fäkalhumor, daher ist das ganz einfach.

Wenn wir jetzt herausfinden wollen, ob ChatGPT oder der Bing Chatbot Bewusstsein hat, so versuchen wir uns mit diesem zu unterhalten. Und das Problem dabei ist jetzt, dass wir mit einem Sprachmodell sprechen, das aufgrund von Unmengen Text gelernt hat so zu antworten, wie es in einem stringenten Text sinnvoll wäre. So wird es vielleicht aus Filmuntertiteln diverse Unterhaltungen kennen. Fragt man also existenzielle Fragen, ähnelt das irgendeinem Film und das Sprachmodell antwortet mit einer Antwort, die ein Charakter im Film gegeben hatte. Damit kann das auf uns authentisch wirken, obwohl es nur ein Sprachmodell ist.

Die interessante Fragen ist nicht mehr, ob es eigentlich bewusst ist (ist es nicht), sondern ob wir es von Bewusstsein unterscheiden können. Und dann wird es schwer psychologisch und philosphisch, womit ich meine Expertise komplett verlasse.


  1. Vaswani, A. et al. Attention Is All You Need. (2017) doi:10.48550/ARXIV.1706.03762. 

  2. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018) doi:10.48550/ARXIV.1810.04805. 

  3. Radford, A., Narasimhan, K., Salimans, T. & Sutskever, I. Improving Language Understanding by Generative Pre-Training. Preprint at (2018). 

  4. Radford, A. et al. Language Models are Unsupervised Multitask Learners. Preprint at (2019). 

  5. Brown, T. B. et al. Language Models are Few-Shot Learners. (2020) doi:10.48550/ARXIV.2005.14165. 

  6. Zhang, S. et al. OPT: Open Pre-trained Transformer Language Models. Preprint at https://doi.org/10.48550/arXiv.2205.01068 (2022).