Was erwarten wir von einem Sprachmodell? #
Wir wünschen uns, dass es:
- Fragen beantwortet
- beim Schreiben unterstützt
- E-Mails formuliert
- Texte zusammenfasst
Kurz: dass es Text produziert.
Und genau das ist auch seine Aufgabe:
Ein Sprachmodell wurde entwickelt und trainiert, um Texte zu generieren.
Es ist kein Nachschlagewerk, kein Bewusstsein – sondern ein statistischer Textgenerator.
Dabei ist es keine Wissensdatenbank, hat kein Bewusstsein, und es versteht Sprache nicht im menschlichen Sinne.
Aber es erzeugt Text – unaufhörlich und zuverlässig.
Das ist seine Funktion. Das ist sein „Antrieb“.
Wie generiert denn ein Sprachmodell Texte? #
Es erzeugt Texte rein statistisch – Token für Token.
Nicht seitenweise, nicht satzweise – nicht einmal wortweise.
Sondern ein sprachlicher Baustein nach dem anderen – technisch: ein Token.
Was das genau ist, vertiefen wir später – aber vorerst bleiben wir einfach bei Wort.
Jedes neue Wort wird einzeln berechnet und an den bisherigen Text angefügt –
dieses Prinzip nennt man autoregressiv.
Mathematisch, statistisch, scheinbar banal – aber aus Milliarden Wahrscheinlichkeiten entsteht flüssiger, zusammenhängender Text.
Sprachmodelle gibt es nicht erst seit ChatGPT – sie werden seit vielen Jahren z. B. in Sprachassistenten wie Siri oder Alexa eingesetzt.
Die Funktionsweise ist dabei grundsätzlich gleich:
Ein Sprachmodell wird mit riesigen Textmengen trainiert, um bestehende Sätze zu vervollständigen – Wort für Wort.
Die Aufgabe ist immer dieselbe: Aus den bisherigen Wörtern das wahrscheinlichste nächste Wort berechnen – und anfügen.
Ein rein statistischer Prozess: Das semantisch wahrscheinlichste Wort gewinnt – und erweitert den Text.
Klassische Sprachmodelle #
Früher basierten viele Sprachmodelle auf rekurrenten neuronalen Netzen (RNNs) oder Varianten davon.
RNNs verarbeiten Text Schritt für Schritt: Sie lesen ein Wort nach dem anderen, merken sich den Kontext in einem versteckten Zustand (Hidden State) und nutzen diese Kontext-Zusammenfassung, um das nächste Wort statistisch vorherzusagen.
Der Text wird also nicht als Ganzes, sondern immer sequentiell verarbeitet.
Das Modell wandert von Wort zu Wort – und berechnet bei jedem einzelnen Schritt, welches Wort am wahrscheinlichsten als Nächstes folgt, basierend auf dem bisherigen Kontext.
Doch diese Technik hat gravierende Nachteile: #
- Begrenzter Kontext: Selbst mit erweiterten Varianten ist bei ca. 100–200 Wörtern (technisch: Tokens) Schluss – oft sogar früher.
- Kein Textverständnis: RNNs erfassen lokale Wort-Sequenzen, aber keine globalen Zusammenhänge zwischen Begriffen.
- Langsame Verarbeitung: Da RNNs nicht parallelisiert werden können, erfolgt die Verarbeitung seriell – und ist dadurch ineffizient und langsam.
Sie sind langsam, nicht parallelisierbar und bei längeren Texten nur bedingt geeignet.
Für längere Texte oder komplexe Aufgaben sind RNNs daher kaum praktikabel.
Der Durchbruch: Große Sprachmodelle (LLMs) mit Transformer-Technologie #
Das änderte sich grundlegend im Jahr 2017 – mit der Veröffentlichung der bahnbrechenden Arbeit
„Attention Is All You Need“ von Ashish Vaswani und dem Team bei Google Brain.
Die Publikation „Attention Is All You Need“ von Ashish Vaswani und seinem Team war revolutionär – für mich persönlich: das achte Weltwunder.
Diese Publikation stellte eine revolutionäre neue Architektur vor: den Transformer.
Was war so besonders? #
- Transformer-Modelle verarbeiten alle Wörter gleichzeitig (parallel)
- Sie können sehr viel längere Kontexte verarbeiten
- Die Architektur erlaubt ein tieferes, semantisches Verständnis der Sprache
Die Einführung des Transformers gilt als Revolution in der Sprachverarbeitung (NLP).
Erste Transformer Modelle #
OpenAI veröffentlichte 2018 mit GPT (Generative Pretrained Transformer) das erste große autoregressive Sprachmodell – also ein Modell, das Texte Schritt für Schritt vorhersagt, jeweils ein Wort nach dem anderen.
Ein Jahr später, 2019, erschien mit GPT-2 die nächste Generation – erstmals frei verfügbar und open source.
Jeder konnte das Modell herunterladen, testen und selbst nachvollziehen, wie ein LLM funktioniert.
2020 folgte GPT-3 – mit 175 Milliarden Parametern deutlich leistungsfähiger, aber nicht mehr quelloffen. Stattdessen wurde nur das wissenschaftliche Paper veröffentlicht.
Mit GPT-4 änderte OpenAI seine Strategie grundlegend:
Ab diesem Modell wurden leider keine Details zur Architektur, Parameteranzahl oder Trainingsdaten mehr veröffentlicht.
Bis heute basieren alle großen Sprachmodelle auf dieser Technologie: #
- ChatGPT (OpenAI)
- Gemini (Google DeepMind)
- Claude (Anthropic)
- LLaMA (Meta)
- … und viele mehr.
Jetzt wird’s magisch: Wie Transformer wirklich funktionieren #
können lange Kontexte berücksichtigen und erfassen semantische Beziehungen deutlich präziser.
In den nächsten Abschnitten zeige ich dir Schritt für Schritt,
wie dieses sprachliche Wunderwerk funktioniert – verständlich und anschaulich erklärt.
© 2025 Oskar Kohler. Alle Rechte vorbehalten. Hinweis: Der Text wurde manuell vom Autor verfasst. Stilistische Optimierungen, Übersetzungen sowie einzelne Tabellen, Diagramme und Abbildungen wurden mit Unterstützung von KI-Tools vorgenommen.