Zum Hauptinhalt springen

So lernt KI, Worte zu deuten

Wie versteht ein Sprachmodell einzelne Wörter?
#

Dank des Tokenizers lässt sich ein ursprünglich für den Computer völlig unverständlicher Text in eine Liste von Token-IDs umwandeln – also in Zahlen, die das Sprachmodell intern digital weiterverarbeiten kann.

💡
Ein Token kann ein ganzes Wort sein – aber auch ein Wortbestandteil oder ein Satzzeichen.
Sprachmodelle (LLMs) verarbeiten Texte intern ausschließlich auf Basis solcher Tokens.

Hinweis:
Zur besseren Lesbarkeit verwende ich im Folgenden meist den Begriff „Wort“, obwohl technisch stets Tokens gemeint sind.

Doch wie gelingt es einem Sprachmodell (LLM), aus diesen nackten Zahlen die Bedeutung einzelner Wörter zu erkennen – und letztlich den Sinn ganzer Texte zu erfassen?

Wie machen wir Menschen das?
#

Stellen wir uns das Wort „Katze“ vor. Für uns ist es weit mehr als eine Reihe von Buchstaben: Wir verbinden damit sofort Vorstellungen wie weiches Fell, flauschige Ohren, große Augen und schnurrende Laute. Zudem wissen wir aus eigener Erfahrung oder Geschichten, dass Katzen gerne Mäuse jagen, viel schlafen – und mit Hunden nicht immer gut auskommen.

Vorstellung einer Katze

Ein LLM wie ChatGPT versucht genau diese Zusammenhänge ebenfalls abzubilden – aber auf statistische Weise.

Lernen aus Texten: Merkmale ohne Etikett
#

Sprachmodelle können die Welt noch nicht selbst beobachten. Sie haben keine Sinne und können daher keine eigenen Erfahrungen sammeln. Stattdessen lernen sie ausschließlich aus Texten – aus zig Milliarden Wörtern, gesammelt aus Wikipedia-Artikeln, Büchern, Foren, Webseiten und vielen anderen Quellen.

Wir haben bereits gesehen, dass neuronale Netze wahre Meister darin sind, komplexe Muster zu erkennen. Beim Training erkennt das Modell typische Muster und Zusammenhänge: dass „Katze“ häufig gemeinsam mit Begriffen wie „schnurrt“, „flauschig“, „Maus“ oder „Tier“ vorkommt.

Aus dieser statistischen Häufigkeit leitet es typische Eigenschaften ab – etwa dass eine Katze oft als weich, klein, Haustier oder verspielt beschrieben wird.

Diese Eigenschaften nennt man latente Merkmale (engl. latent Features) – weil sie nicht direkt benannt oder beschriftet sind. Das Modell vergibt keine festen Etiketten wie „hat Fell“ oder „jagt Mäuse“, sondern entdeckt solche Muster eigenständig auf Basis der Häufigkeit und des Kontexts im Text.

Ähnlich wie bei neuronalen Netzen zur Bilderkennung, bei denen man nicht exakt sagen kann, welche Kante oder welcher Bogen eine „6“ erkennen lässt, lassen sich auch diese Merkmale im Sprachmodell nicht direkt ablesen. Wir wissen nicht, welche intern erkannten Eigenschaften genau für eine „Katze“ stehen – aber das Modell lernt sie aus dem statistischen Zusammenhang der Sprache.

💡
Ein latentes Merkmal (engl. latent Feature) ist eine vom Sprachmodell gelernte, unbenannte Eigenschaft eines Wortes – nicht vorgegeben, sondern aus den Trainingsdaten abgeleitet.

LLMs erkennen eine Vielzahl an Merkmalen – bei GPT-3.5 sind es 12.288 latente Merkmale, auch Dimensionen genannt.
Jedes Wort wird durch diese 12.288 Merkmale beschrieben – das bildet die Grundlage für seine semantische Bedeutung im Modell.

💡
Der Begriff „semantisch“ bezieht sich auf die Bedeutung von Wörtern und ihre inhaltlichen Beziehungen zueinander.

Noch einmal zur Erinnerung: Die Merkmale (Dimensionen) sind abstrakt und für uns nicht direkt interpretierbar.
Vielleicht steht eines davon für etwas wie „flauschig“ – doch diese Bedeutungen sind nicht benannt, sondern entstehen automatisch beim Training des Modells.
Wir Menschen können nur mit bestimmten Analyseverfahren vermuten, welche Eigenschaften sie repräsentieren.

Illustrativ – reale Merkmale sind abstrakt und unbenannt

Dimension Merkmal Beschreibung
1 flauschig / weich Typisches Gefühl des Fells
2 Haustier Wird oft in Haushalten gehalten
12.287 schnurrt Lautäußerung bei Wohlbefinden
12.288 Konflikt mit Hunden Typisches Feindbild in Erzählungen

Jedes einzelne Wort wird als eine Liste von Zahlen dargestellt, zum Beispiel: [0.12, -0.98, 1.57, 0.03, ..., -0.44]

Jede dieser Zahlen steht für den Wert eines Merkmals (einer Dimension).
Diese Liste von Zahlen nennt man in der Mathematik einen Vektor – in der KI meist ein Embedding, also ein Vektor, der die Bedeutung eines Wortes beschreibt.

💡
Ein Embedding ist eine Liste von Zahlen, die die Merkmale eines Wortes zusammenfasst – also ein Merkmalsvektor, der dessen Bedeutung im Modell repräsentiert.

Der Merkmalsraum – Bedeutung in Zahlen
#

Jedes einzelne Wort im Text wird geometrisch in einen Merkmalsraum (engl. Embedding Space) eingetragen, der seine semantische Bedeutung repräsentiert.
Dieser Vektor, der die Position im Merkmalsraum festlegt und damit die Bedeutung des Worts beschreibt, wird Embedding genannt.

💡
Der Merkmalsraum (engl. Embedding Space) ist ein hochdimensionaler Raum, in dem sich die Embeddings der Wörter befinden.
Wörter mit ähnlicher Bedeutung liegen in diesem Raum näher beieinander.
Raum in 3D

Wir Menschen kennen Räume typischerweise in drei Dimensionen – mit den Achsen Breite, Länge und Höhe.
Der Merkmalsraum in einem Sprachmodell wie GPT-3.5 hat jedoch 12.288 Dimensionen. Jede dieser Achsen repräsentiert ein latentes Merkmal, das die Bedeutung des Wortes mitbestimmt.

Die Illustration zeigt eine vereinfachte Darstellung von acht Dimensionen eines Embeddings.

Raum in 8D

Das ist nicht nur eine Metapher zur besseren visuellen Vorstellung – der Merkmalsraum wird mathematisch tatsächlich als geometrischer Raum abgebildet.

Worte mit ähnlichen Merkmalen – etwa Katze, Hund oder Haustier – gruppieren sich in einer Region des Merkmalsraums, während Begriffe wie Auto, Fahrrad oder Lkw sich in einer anderen Region konzentrieren.

Im geometrischen Vektorraum bilden sich solche semantisch verwandten Begriffe typischerweise zu Clustern (Gruppen).

Je näher zwei Wörter im Raum beieinander liegen, desto ähnlicher sind sie sich inhaltlich bzw. semantisch.

Die Abbildung zeigt eine dreidimensionale Darstellung semantischer Wortbeziehungen.
Ähnliche Begriffe gruppieren sich zu erkennbaren Clustern:

Links sammeln sich typische Haustiere wie Hund, Kaninchen und Meerschweinchen in enger Nachbarschaft.
Etwas abseits thront die Katze auf ihrem eigenen Platz: selbstständig, aber thematisch verwandt.
In der Mitte befindet sich die Transportbox – eine neutrale Verbindung zwischen Tier- und Fahrzeugwelt.

Rechts davon formieren sich zwei weitere Cluster:
Leichte Fahrzeuge wie Fahrrad und Motorrad – und weiter außen schwere Fahrzeuge wie Auto und LKW.

Die räumliche Anordnung ist – wie wir bereits wissen – kein Zufall:
Sie ergibt sich aus den statistischen Mustern, die Sprachmodelle aus Milliarden Wörtern erkennen
Je näher sich Begriffe im Raum befinden, desto stärker ähneln sie sich in Bedeutung und Verwendung.

Ein bekanntes Beispiel veranschaulicht dies: Der Vektorunterschied zwischen „Frau“ und „Mann“ ist ähnlich dem zwischen „Königin“ und „König“, was auf das Merkmal Geschlecht hinweist. Ebenso ist der Unterschied zwischen „car“ und „cars“ vergleichbar mit dem zwischen „dog“ und „dogs“ – das zeigt, dass auch der Unterschied zwischen Einzahl und Mehrzahl im Vektorraum abgebildet wird.

So entsteht aus Sprache ein intuitives, visuell greifbares Landschaftsbild – mit Clustern und Untergruppen.

Wie ähnlich sind zwei Wörter?
#

Klassische Embedding-Modelle wie Word2Vec, GloVe oder FastText messen semantische Ähnlichkeit anhand der räumlichen Nähe von Wort-Vektoren im Embedding-Space. Wörter mit ähnlichem Kontext liegen dichter beieinander – unabhängig von Grammatik oder Satzstruktur.

Kosinus-Ähnlichkeit

Die Ähnlichkeit wird über den Winkel zwischen den Vektoren bestimmt – typischerweise mithilfe der Kosinus-Ähnlichkeit:
Dabei werden bei jedem Wort die Winkel in allen Dimensionen berücksichtigt und anschließend mit anderen Wörtern verglichen.

$$ \cos(\theta) = \frac{ \vec{A} \cdot \vec{B} }{ | \vec{A} | \cdot | \vec{B} | } $$

Die Formel misst, wie ähnlich zwei Wort-Vektoren im semantischen Raum ausgerichtet sind.
Im Zähler steht ihr Dot-Produkt – also wie stark sie in die gleiche Richtung zeigen.
Im Nenner das Produkt ihrer Längen.
Das Ergebnis liegt zwischen –1 und 1: Je näher an 1, desto ähnlicher sind die Wörter.

💡
Die semantische Ähnlichkeit zwischen Wörtern wird im Merkmalsraum häufig über den Winkel zwischen ihren Vektoren berechnet – typischerweise mithilfe der Kosinus-Ähnlichkeit.

Das Prinzip der Vektorähnlichkeit wird auch in modernen KI-Anwendungen genutzt – etwa bei der semantischen Suche, bei der Begriffe nicht nur wörtlich, sondern über ihre Bedeutung verglichen werden.
Auch Sprachmodelle verwenden es, um aus großen Textmengen passende Inhalte zu finden und weiterzuverarbeiten.

Moderne LLMs wie ChatGPT gehen allerdings deutlich weiter: Sie vergleichen nicht nur die semantische Nähe von Wörtern, sondern berücksichtigen zusätzlich auch Grammatik, Satzstruktur und Kontext.

Wie das genau funktioniert, schauen wir uns in den nächsten Abschnitten an.


© 2025 Oskar Kohler. Alle Rechte vorbehalten.
Hinweis: Der Text wurde manuell vom Autor verfasst. Stilistische Optimierungen, Übersetzungen sowie einzelne Tabellen, Diagramme und Abbildungen wurden mit Unterstützung von KI-Tools vorgenommen.