Self-Attention – das Herzstück moderner KI

Bedeutung durch Kontext
#

Transformer haben den großen Durchbruch erzielt, weil sie die Bedeutung von Wörtern nicht isoliert, sondern im gesamten Kontext erfassen.

Ich verwende hier den technisch korrekten Begriff „Token“. Ein Token kann ein Wort, ein Wortteil oder auch ein Sonderzeichen sein.
Der Einfachheit halber kannst du dir darunter einfach „Wörter“ vorstellen.

Im Unterschied zu früheren Modellen analysieren Transformer alle Tokens parallel und setzen sie dabei in Beziehung zueinander. So erkennen sie semantische Zusammenhänge und können Sprache auf einer tieferen Ebene verarbeiten.

Was wir bisher schon wissen:

Die Bedeutung einzelner Tokens wird durch Embeddings dargestellt – also durch ihre Lage im Merkmalsraum.
Die Position im Satz wird zusätzlich durch ein Position Encoding berücksichtigt.

Aber - reicht das aus, um den Sinn eines ganzen Satzes zu verstehen?
#

Sehen wir uns ein Beispiel an:

Das Wort „Schloss“ kann vieles bedeuten:
ein Vorhängeschloss, ein Türschloss – oder ein adeliges Schloss auf einem Hügel.
Ohne weiteren Kontext bleibt die Bedeutung mehrdeutig. In der Fachsprache nennt man das: Ambiguität

Betrachten wir nun einen ganzen Satz:

Klingt poetisch – aber auch hier bleibt offen, was gemeint ist.
Das Adjektiv „alt“ hilft uns zwar weiter, grenzt die Bedeutung aber noch nicht eindeutig ein.

Erweitern wir den Satz um ein weiteres Adjektiv:

Beziehung im Satz: verrostetes → Schloss

Nun wird klar: Ein adeliges Schloss rostet nicht - wahrscheinlich ist ein Sicherheitsschloss gemeint.

Präzisieren wir den Satz noch einmal:

Jetzt besteht kein Zweifel mehr: Es handelt sich eindeutig um ein Fahrradschloss.

Dieses Beispiel zeigt: Wörter werden erst durch den Kontext eindeutig verständlich.

💡

Genau das ist das Grundprinzip von Transformern:
Sie analysieren alle Tokens parallel und berechnen ihre wechselseitige Bedeutung, um die semantische Struktur eines Satzes zu erfassen.

Encoder und Decoder im ursprünglichen Transformer
#

Das Paper von Vaswani et al. „Attention Is All You Need“ stellte ursprünglich ein Modell für maschinelle Übersetzung vor.
Dafür gab es zwei zentrale Bausteine:

Encoder: Erfasst den gesamten Eingabetext (z. B. einen deutschen Satz) und erzeugt eine kontextabhängige Darstellung jedes Tokens – also eine Folge von Vektoren, die die Bedeutung im Satzzusammenhang darstellen.
Decoder: Nutzt diese Abbildung plus die bisher generierten Tokens, um Schritt für Schritt die Übersetzung in der Zielsprache zu erzeugen.

Moderne Sprachmodelle wie GPT vereinfachen diese Architektur: Sie bestehen nur aus Decoder-Stacks.

Das wirkt wie eine Reduktion – ist aber für die Sprachgenerierung eine geniale Spezialisierung. Denn ein Decoder kann beides:

Den bisherigen Kontext „verstehen“ (durch Self-Attention)
Und ihn gleichzeitig „weitererzählen“ (durch die Ausgabe des nächsten Tokens).

Darum verwendet GPT nur den Decoder-Teil und verzichtet auf den Encoder:
Es übersetzt nicht von einer Sprache in eine andere, sondern setzt einfach die eigene Geschichte fort.

Roh Embedding
#

Zu Beginn erhält jedes Token ein Roh-Embedding – also eine Vektorrepräsentation im Merkmalsraum, die während des Trainings gelernt wurde. Dieses Embedding ist zunächst kontextunabhängig: Es berücksichtigt noch nicht die anderen Tokens im Kontextfenster. Das gleiche Token – etwa ‚Bank‘ – wird immer gleich eingebettet, unabhängig vom Kontext.

Bei mehrdeutigen Tokens – wie Schloss – hat das Modell gelernt, dass sie in verschiedenen Bedeutungsbereichen im Merkmalsraum auftreten können. So wird Schloss anfänglich irgendwo zwischen den semantischen Clustern von adeligem Gebäude und Sicherheitsschlösser (z. B. Vorhängeschlössern) positioniert.

💡

Roh-Embeddings sind kontextunabhängig: Gleiches Wort, gleicher Vektor – egal ob „Schloss“ ein Gebäude oder ein Türschloss meint. Erst durch Self-Attention wird Bedeutung aus dem Kontext heraus klar.

Erst durch den Kontext der umliegenden Tokens entsteht aus dem ursprünglichen Embedding von Schloss eine kontextabhängige Bedeutung – seine Position im Merkmalsraum verschiebt sich entsprechend.

Im nächsten Beispiel kannst du das selbst beobachten:
Je nachdem, welchen Satz du auswählst, bewegt sich das Embedding von Schloss näher an den Cluster repräsentativer Gebäude oder an den Cluster Sicherheitsschlösser.

Wie der Transformer Zusammenhänge zwischen Tokens erkennt
#

Der Self-Attention-Mechanismus
#

Komplexe neuronale Verfahren wie der Self-Attention-Mechanismus lassen sich für Menschen oft nur schwer intuitiv erfassen. Häufig hilft eine passende Analogie, um ein Gefühl für das zugrunde liegende Prinzip zu bekommen.

Es gibt viele solcher Analogien, die versuchen, das Konzept von Attention verständlich zu machen. Aus meiner Sicht greifen viele davon jedoch zu kurz: Sie vereinfachen den Mechanismus so stark, dass man glaubt, ihn verstanden zu haben – in Wirklichkeit hat man aber nur das Bild verstanden, nicht die dahinterliegende Technik.

Deshalb habe ich mir eine eigene Analogie überlegt – eine, die anschaulich ist, aber dennoch relativ nah an der tatsächlichen Funktionsweise bleibt.

Eine Analogie: Tokens als beratende Experten
#

Du kannst dir den Self-Attention-Mechanismus als eine Art Expertenplattform vorstellen.

Jedes Token in der Sequenz ist ein Experte, der zwei Dinge bereitstellt:
ein Beratungsprofil (Key) – also worin es sich auskennt –
und konkretes Wissen (Value), das es teilen kann.

Ein anderes Token stellt eine Anfrage (Query) – es sucht gezielt nach Expertise, die ihm im aktuellen Kontext weiterhilft.

Der Self-Attention-Mechanismus übernimmt die Vermittlung:
Er vergleicht die Frage mit allen Profilen und berechnet, wer wie gut passt.
Je besser ein Experte zur Frage passt, desto mehr Wissen bringt er ein.

So entsteht eine neue Repräsentation - eine neue kontextabhängige Bedeutung - des fragenden Tokens:
angereichert mit genau den Informationen, die im Moment relevant sind – gezielt, gewichtet und kontextabhängig.

Jedes Token im Kontextfenster stellt seine Anfrage an alle anderen Tokens, um sich besser in den Gesamtkontext einzuordnen.

Gleichzeitig tritt jedes Token auch als Berater auf, indem es Informationen bereitstellt, auf die andere Tokens zugreifen können.

Dieser Austausch erfolgt nicht aktiv, sondern wird parallel und automatisch durch den Self-Attention-Mechanismus berechnet.

Query, Key und Value
#

Jedes Token wird im Self-Attention-Mechanismus aus drei verschiedenen Perspektiven betrachtet:

als ❓Query: eine gezielte Anfrage, um relevante Informationen aus dem Kontext zu erhalten,
als 🔐Key: ein Profil, das beschreibt, welche Informationen dieses Token anbietet,
als 📦Value: der eigentliche Informationsinhalt, den es weitergeben kann.

Der Self-Attention-Mechanismus vergleicht die ❓Query eines Tokens mit den 🔐Keys aller anderen Tokens.
Je besser ein 🔐Key zur ❓Query passt, desto stärker wird das zugehörige 📦Value in die Berechnung einbezogen.

💡

Ein ❓Query wird mit allen 🔐Keys im Kontext verglichen – und die passenden 📦Values fließen gewichtet in die Bedeutung des Tokens im aktuellen Kontext ein.

So entsteht für jedes Token eine neue Repräsentation – angereichert mit den Informationen derjenigen Tokens, die im aktuellen Kontext am relevantesten sind.

Wir haben jetzt das Grundprinzip des Self-Attention-Mechanismus verstanden – Zeit, einen Blick unter die Haube zu werfen.
Dafür brauchen wir etwas Mathematik, aber keine Sorge: Es bleibt gut nachvollziehbar.

Solche multidimensionalen Zusammenhänge sind oft schwer vorstellbar.
Doch schon mit ein wenig Mathematik lassen sie sich erstaunlich gut nachvollziehen.
Mein Tipp: dranbleiben – es lohnt sich!

← Zurück Weiter →

© 2025 Oskar Kohler. Alle Rechte vorbehalten.
Hinweis: Der Text wurde manuell vom Autor verfasst. Stilistische Optimierungen, Übersetzungen sowie einzelne Tabellen, Diagramme und Abbildungen wurden mit Unterstützung von KI-Tools vorgenommen.

Bedeutung durch Kontext#

Aber - reicht das aus, um den Sinn eines ganzen Satzes zu verstehen?#

Encoder und Decoder im ursprünglichen Transformer#

Roh Embedding#

Wie der Transformer Zusammenhänge zwischen Tokens erkennt#

Der Self-Attention-Mechanismus#

Eine Analogie: Tokens als beratende Experten#

Query, Key und Value#

Teile diesen Beitrag – so hilfst du auch anderen.