AI Hosting verstehen (1): Wie arbeitet ein LLM?

|
Large Language Modelle (LLMs) schreiben Texte, beantworten Fragen, schreiben Code, automatisieren Workflows oder treffen sogar Entscheidungen – und trotzdem liefern sie manchmal überraschend schlechte Ergebnisse.  Wenn du verstehst, was im Hintergrund passiert, kannst du sie intuitiver verwenden und dadurch Fehler vermeiden. Genau deshalb starten wir mit diesem Artikel eine Blogreihe, in der wir in den KI-Maschinenraum schauen. 

Wir gehen Schritt für Schritt die wichtigsten Konzepte rund um LLMs durch. Von den technischen Grundlagen über Parameter wie Temperature oder Top-P bis hin zu Themen wie Halluzinationen, RAG und Prompt-Techniken. Den Anfang machen wir mit der Basis: Wie arbeitet ein LLM und warum liefert es manchmal überraschend gute oder komplett falsche Ergebnisse?  

Wie lange gibt es schon LLMs? 

Textgenerierung gab es natürlich schon lange vor der LLM-Ära. Sogenannte N-Gramm-Modelle kennst Du wahrscheinlich von der Autovervollständigung auf Deinem Smartphone. Es gibt sie schon seit den 1980er-Jahren – und sie sagen voraus, welche Wörter typischerweise auf eine Folge von N Wörtern folgen. Über diese Wahrscheinlichkeiten werden anschließend die nächsten Wörter vorgeschlagen. 2010 folgten dann die Verwendung größerer neuronaler Netze (RNN, LSTM, etc.), die jedoch noch einige Schwachstellen hatten.  Die Modelle haben die Eingabe sequenziell verarbeitet – also immer ein Wort nach dem anderen. Daher waren die Berechnungen schwer parallelisierbar, was sie langsam macht. Außerdem sind Zusammenhänge zwischen Wörtern über lange Distanzen im Text schnell verloren gegangen. 

Wie erkennt ein LLM Text? 

In der Zwischenzeit hat Forschung in dem Bereich viele neue Erkenntnisse gebracht. Die wichtigsten sind:  

  • Ein besserer Aufbau des Modells: Transformer Architektur erlaubt parallele Rechenoperationen, was schnellere und größere Modelle ermöglicht  
  • Self-Attention Mechanismus: anhand eines Worts aus dem Text lernt das Modell, welche anderen Wörter für das Verständnis dieses Wortes wichtig sind und welche nicht 
  • Erkenntnis: Mehr Daten + Mehr Parameter = bessere Ergebnisse  

Transformer Architektur

Die Transformer Architektur wurde ursprünglich dafür entwickelt, Texte in eine andere Sprache zu übersetzen. Man stellte aber fest, dass sie auch für Textgenerierung verwendet werden kann und dabei sehr gute Ergebnisse liefert. Heute sind sie nicht mehr wegzudenken. Um das Grundkonzept zu verstehen, behandeln wir hier eine vereinfachte Darstellung. 

Kontextfenster 

Alles, was du deinem Modell übergibst und es in einem Moment „sehen“ kann - deine Frage oder der Chatverlauf − landet im Kontextfenster. Es ist der Arbeitsspeicher des Modells und entscheidet, wie viel Text ein Modell verarbeiten kann. Die Größe wird in Token gemessen und ist je nach Modell unterschiedlich groß.  

Token 

Ein Token ist eine Zeichengruppe, die mit einer ID beschriftet wird (bspw. "Was" => 2610). Mit den Tokens kann man jede beliebige Eingabe darstellen. Dafür stellt man ein Wörterbuch auf, in dem man jede mögliche Zeichenkombination als Token zusammen mit einer ID speichert. Der Tokenizer ist dafür da, den Text im Kontextfenster in Token-IDs (encoding) zu übersetzen und nach der Berechnung das neue Token zurück in Text (decoding) umzuwandeln. Dies geschieht über das Wörterbuch. 

Je nach AI Modell können sich die Tokenizer können unterscheiden und die Wörter anders trennen. Es gibt je nach Modell und Tokenizer auch spezielle Tokens wie (<|endoftext|>, <|user|>, ...) um den Textfluss zu trennen, zu steuern oder eine modellspezifische Aufgabe zu übernehmen.  

Embedding 

Der Computer kann jetzt mit Zeichengruppen, den Token, arbeiten. Allerdings soll auch erfasst werden, was die Token semantisch bedeuten und wie ihre Beziehung zu anderen Token ist. Ein Embedding ist ein Vektor, genauer eine Liste von hunderten oder tausenden Zahlen, die die Koordinaten des Tokens in einem multidimensionalen Raum beschreibt. Im folgenden Beispiel sind die Token vom Zeichenumfang größer gewählt als üblich. In der Realität umfasst ein Token oft 3-4 Zeichen. Im Beispiel habe ich mehr Zeichen verwendet, um ganze Wörter als Token abzubilden für ein besseres Verständnis. Beim Einlesen von großen Textmengen passt ein Algorithmus die Positionen der Token mehrfach an, bis Token aus ähnlichen Kontexten auch ähnliche Vektoren besitzen. Über die Anordnung der Token im Raum und den Distanzen untereinander, werden die Beziehungen zwischen den Token erfasst. 

Self-Attention Mechanismus 

Liest das Modell das Wort „Bank“ ist der Kontext entscheidend. Geht es um die Bank im Park oder doch um Geld? 

Hier steckt die Besonderheit. Das Modell schaut sich ein Wort aus dem Text an und lernt, welche anderen Wörter für das Verständnis dieses Wortes wichtig sind und welche nicht. Das ist der Self-Attention Mechanismus. Ein Attention-Head ist dabei eine einzelne Instanz dieses Mechanismus. Es lernt ein eigenes „Regelset“, um zu bestimmen, welche Tokens zueinander wichtig sind. In der Realität werden mehrere Self-Attention Instanzen verwendet, was man auch Multi-Head-Attention nennt. Dadurch lassen verschiedene Regelsets für die Beziehungen zwischen Token erlernen (Bezüge, Grammatik, Bedeutung, ...), wodurch bessere Ergebnisse erzielt werden. Welche Regeln die Attention-Heads lernen, ist zufällig und entspricht in der Realität nicht zwingend dem Beispiel. Ursache dafür ist ein zufälliger Startpunkt für jeden Head beim Training. Es kann aber auch passieren, dass ein paar Heads sehr ähnliche Regeln abbilden, sodass es beispielsweise zwei Heads für die Grammatik gibt. Kleinere Modelle haben in der Regel 4-16 Heads, während GPT-3 von OpenAI als großes Modell mit 96 Heads trainiert wurde. 

Was bringt uns das?

Bisher hatten Modelle Probleme Zusammenhänge zwischen Wörtern über lange Distanzen zu behalten. Der Attention-Mechanismus betrachtet jedes Token im gesamten Kontextfenster. Diese Analyse passiert parallel in einem Schritt. Die Verarbeitung kann daher massiv parallelisiert werden, was auch größere Modelle erlaubt. Das macht die Transformer mächtiger als ihre Vorgänger. 

Wie funktioniert die Berechnung?

Beispiel: Du bist ein Attention-Head für die Bedeutung. Deine Aufgabe ist es, ein Wort zu lesen und dem Modell dann zu sagen, welche Wörter in einem Text wichtig sind, um die Bedeutung des Wortes zu verstehen. Du siehst das Wort "Bank" und möchtest wissen, um was für eine Bank es sich handelt? Wörter wie „Die, am, war, hat, Apfel“ sind dafür unwichtig. Für diese gibst du einen niedrigen Aufmerksamkeits-Wert aus. Wörter wie „Fluss, Park, Geld, Kredit“ sind hingegen klare Hinweisgeber und daher sehr wichtig für deine Aufgabe. Du gibst einen hohen Aufmerksamkeits-Wert aus. Diesen Bewertungsprozess versucht man mathematisch über Query und Key Vektoren abzubilden.  

In den Attention-Head kommt für jedes Token eine Mischung aus seinem Embedding und seiner Position im Text. Das Modell besitzt drei Schablonen – die sogenannten Gewichtsmatrizen – und berechnet daraus für jedes Token einen Query-, Key- und Value-Vektor. Diese Schablonen werden zu Beginn zufällig initialisiert und im Training so angepasst, dass sinnvolle Bewertungen entstehen, die dem Modell helfen, das nächste Wort vorherzusagen. Der Query-Vektor steht für die Frage des Tokens: „Welche Wörter sind für mich relevant? Was suche ich?". Der Key-Vektor steht für die Antwort: „Das bin ich.". Multipliziert man beide miteinander, erhält man den Attention-Wert – ein Maß dafür, wie relevant ein Token für ein anderes ist. 

Für unser Beispiel: Q_Bank · K_war = 0.07 → unwichtig. Q_Bank · K_Fluss = 0.67 → wichtig. Der Value-Vektor enthält die eigentliche Information des Tokens – das, was es inhaltlich beisteuert. Er wird nun mit dem Attention-Wert multipliziert: Ein hoher Wert lässt viel Information durch, ein niedriger wenig. Das Ergebnis für „Bank“ ist eine gewichtete Summe aller Value-Vektoren im Satz – stark geprägt von „Fluss“, kaum von „war“. Das Modell weiß jetzt: es geht um ein Gewässer, nicht um Geld. Bei Multi-Head Attention laufen mehrere solcher Heads parallel. Ihre Outputs werden aneinandergehängt und nochmal durch eine Gewichtsmatrix projiziert – so bleibt die Information aller Heads erhalten und das Modell hat im Training die Möglichkeit zu entscheiden, welcher Attention-Head hilfreich ist und stärker Einfluss nehmen darf. Dieser angereicherte Vektor wandert dann weiter ins Feed Forward Network. 

Feed Forward

Der Attention-Mechanismus hat die Embeddings der Token kontextualisiert. In dem Vektor für „alt“ steckt jetzt schon die Information, dass das Wort „Bank“ wichtig war. Das Feed Forward Netz ist ein neuronales Netz, das den letzten kontextualisierten Vektor nimmt und diesen mit Informationen aus dem Modellwissen anreichert. Am Ende wird der Ausgabevektor verwendet, um die Wahrscheinlichkeiten für das nächste Token zu bestimmen. Die Forschung zeigt, dass die Gewichte im Neuronalen Netz wie eine Art Wissensspeicher fungieren. Für „Bank“ hat das Modell an dieser Stelle Assoziationen gelernt, dass Banken Kredite ausgeben. Abschließend wird das nächste Token wahrscheinlich ein Satzzeichen sein. 

Wie bekomme ich bessere Ergebnisse von meinem LLM?

Du solltest jetzt verstanden haben, dass der Attention-Mechanismus die Textgenerierung wesentlich beeinflusst. Der Inhalt im Kontextfenster entscheidet, wie gut dein Ergebnis sein wird. Berücksichtige immer, was dort drinstehen wird. Ähnlich wie beim Menschen kann auch das Modell seine Aufmerksamkeit nur begrenzt verteilen. Je klarer und relevanter die Informationen im Kontext sind, desto besser kann der Attention-Mechanismus die wirklich wichtigen Zusammenhänge erkennen. Das hängt einerseits davon ab, wie gut das Modell trainiert wurde – andererseits aber auch davon, wie sinnvoll du den Kontext befüllst. 

Irrelevante oder widersprüchliche Inhalte im Kontext können das Modell buchstäblich ablenken. Wenn viel „Rauschen“ im Kontext steckt, verteilt sich die Aufmerksamkeit auf unwichtige Stellen – und die Qualität leidet. Ähnliches gilt für einen sehr langen Kontext: Je mehr Text vorhanden ist, desto schwieriger wird es für das Modell, die wirklich relevanten Stellen zu gewichten. Wichtige Informationen können dabei in der Masse untergehen. Daraus folgen ein paar praktische Faustregeln:  

  • Kontext so präzise wie möglich halten – nur relevante Informationen rein
  • Irrelevantes entfernen, sofern möglich – Rauschen lenkt die Aufmerksamkeit auf unwichtige Stellen
  • Keine widersprüchlichen Informationen oder Anweisungen
  • Wichtiges an den Anfang oder ans Ende des Kontexts – nicht in die Mitte („Lost in the Middle“, aus Trainingsdaten versteht die KI, dass das, was in der Mitte steht, statistisch gesehen eher unwichtig ist)
  • Verwende Prompt-Techniken

Der nächste Schritt: selbst ausprobieren

Wenn du diese Prinzipien verstanden hast, bist du bereits einen großen Schritt weiter als die meisten LLM-Nutzer. Der nächste Schritt ist deshalb simpel: selbst ausprobieren. Denn erst in der Praxis merkt man wirklich, wie stark sich kleine Änderungen im Kontext auf die Ergebnisse eines Modells auswirken. Genau dafür kannst du das mittwald AI Hosting nutzen. Hier kannst du LLMs direkt in eigene Projekte, Workflows oder CMS-Systeme einbinden oder in einer Chatoberfläche ausprobieren. Mit OpenAI-kompatible API, auf eigener Infrastruktur in Deutschland, ohne dass deine Daten das Land verlassen. 

Im nächsten Teil gehen wir einen Schritt weiter – und schauen uns an, wie du mit Parametern das Verhalten eines Modells gezielt steuerst. Stichwort: Temperature, Top-K, Top-P und Co. 

Denn kleine Parameteränderungen können einen großen Unterschied machen. 

Ähnliche Artikel:

Porträt von Dennis und der Schriftzug "AI digital souverän im Vertrieb nutzen"
Porträt von Dennis und der Schriftzug "AI digital souverän im Vertrieb nutzen"

AI digital souverän im Vertrieb – Use Cases für Agenturen und ihre Kunden

Kundendaten haben in US-Tools nichts verloren. Wie du digital souverän AI im Vertrieb einsetzen kannst, liest du hier.

Foto von Martin Helmich. Dazu der Text: Load Testing on Scale mit Grafana
Foto von Martin Helmich. Dazu der Text: Load Testing on Scale mit Grafana

Load Testing on Scale mit Grafana k6

Hält deine Website einem Besucheransturm stand? Lasttests bringen Klarheit. Wie Load Testing funktioniert, liest du hier.

Weißer Text auf blauem Hintergrund: Auf Phishing geklickt - was jetzt zu tun ist
Weißer Text auf blauem Hintergrund: Auf Phishing geklickt - was jetzt zu tun ist

Was tun, wenn du auf Phishing hereingefallen bist?

Schnelles Handeln zählt. Du kannst den Schaden begrenzen und dich künftig besser absichern. Wir zeigen dir, was zu tun ist.

Maik spricht über AI Hosting
Maik spricht über AI Hosting

Vom Zettel zur KI: Wie ein Bioladen mit AI Hosting die Organisation smarter macht

Ein Bioladen. Zettel und Stift. Ein Teil der Kollegschaft steht kurz vor der Rente. Der andere besteht aus Studierenden im Nebenjob. Das digitale Knowhow könnte nicht unterschiedlicher...

SSL-Zertifikate: Neue Laufzeiten & Wildcard Let’s Encrypt

SSL-Zertifikate laufen bald kürzer. Erfahre, was sich 2026–2029 ändert und wie du mit Let’s Encrypt & Wildcard im mStudio entspannt bleibst.