AI Hosting verstehen (2): Die wichtigsten Parameter für bessere KI-Ergebnisse
- Mehr Kontrolle über KI: Diese Parameter machen den Unterschied
- Logits: Wie entstehen Wahrscheinlichkeiten?
- Good to know: Wie lernt ein Transformer?
- Warum werden die Wahrscheinlichkeiten angepasst?
- Parameter
- Wiederholungskontrolle
- Frequency Penalty
- Presence Penalty
- Der nächste Schritt: selbst ausprobieren
- Das erwartet dich im nächsten Teil
Mehr Kontrolle über KI: Diese Parameter machen den Unterschied
Parameter wie temperature, top-p oder max_tokens entscheiden darüber, ob ein Modell eher präzise, kreativ oder völlig unvorhersehbar reagiert. Sie sind die Stellschrauben, mit denen du das Verhalten eines LLMs gezielt beeinflussen kannst.
In diesem Beitrag schauen wir uns genau an, was hinter diesen Parametern steckt – und wie du sie so einsetzt, dass du bessere Ergebnisse bekommst. Gerade wenn du ein Modell selbst betreibst, zum Beispiel im mittwald AI Hosting, erhältst du Zugriff auf genau diese Stellschrauben. Wir wollen dir als Hoster alle Freiheiten geben, die perfekte Antwort für dich zu generieren. Ab Auslieferung der Modelle werden diese mit mehr oder weniger sinnvollen Voreinstellungen für diese Parametern versehen. Diese Einstellungen kannst du selbstständig pro Nachricht an das Modell ändern, um für dein KI-Anwendungsszenario die besten Resultate zu generieren.
Logits: Wie entstehen Wahrscheinlichkeiten?
Das Modell bekommt eine Eingabe übergeben. Im Beispiel (siehe Grafik) soll der Satzbeginn „Wie kann “ vervollständigt werden. Das LLM soll das nächste Token (steht hier für Wort, Wortbeginn oder Zeichen) vorhersagen.
Die Eingabe durchläuft den Transformerprozess, wie wir ihn im ersten Beitrag der Reihe kennengelernt haben − Embedding, Self-Attention, Feed Forward. Das Ergebnis ist eine Liste an Rohwerten, den Logits. Logits sind dabei noch keine Wahrscheinlichkeiten, sondern eine Art interne Punktzahl, mit der das Modell bewertet, wie gut ein Token als nächstes passen könnte.
Good to know: Wie lernt ein Transformer?
Um einen Transformer zu trainieren, wird ihm eine große Menge an Texten zur Verfügung gestellt. Stell dir vor, du hast einen riesigen Stapel Bücher vor dir. Bei jedem Leseschritt verdeckst du den Rest des Textes und versuchst, das nächste Wort vorherzusagen. Anschließend prüfst du, ob du beim nächsten Wort richtig lagst. Genau das macht ein Transformer. Lag er falsch, passt er seine Stellschrauben an, um es beim nächsten Mal hoffentlich besser zu machen.
Je nach Architektur lernen manche Transformer auch, indem sie zufällig Wörter mitten im Text entfernen und versuchen, diese wieder vorherzusagen.
Warum werden die Wahrscheinlichkeiten angepasst?
Zurück zu unserem Beispiel. Wir haben aus den Logits nun die Wahrscheinlichkeiten abgeleitet.
Wenn wir diese nicht verändern, wählen wir das nächste Token mithilfe der gesamten Wahrscheinlichkeitsverteilung aus. Darin sind auch unwahrscheinliche Token enthalten und können ausgewählt werden, obwohl sie eventuell nicht in den Kontext passen.
Um solche Ausreißer zu vermeiden und die Ergebnisse auf den Anwendungsfall anzupassen, gibt es die Parameter, die wir oben kurz genannt haben.
Wichtig: Neben dem Prompt sind die Parameter je nach Anwendungsfall entscheidend für gute Ergebnisse. Diese können sich zwischen den Modellen unterscheiden.
Parameter
Ausgabelänge
Um die Anwendung planbarer zu machen und unerwünschte Kosten zu minimieren, kann die Ausgabelänge des LLMs beeinflusst werden.
max_tokens
Der Parameter max_tokens beschränkt die Länge des zu generierenden Textes − der KI-Antwort. Aber Achtung: ist das Limit überschritten, stoppt die Generierung abrupt, egal ob der Satz fertig formuliert wurde oder nicht.
Wenn du Modelle selbst betreibst (z. B. im mittwald AI Hosting), kannst du so Kosten und Ressourcen gezielt steuern.
Sampling
Damit ein sinnvoller Text möglichst ohne Ausreißer generiert wird, gibt es verschiedene Sampling Parameter. Für jedes Token wurde nun die Wahrscheinlichkeit von den Logits abgeleitet.
Top-K
Top-K behält nur die besten k Token mit der höchsten Wahrscheinlichkeit. Alle anderen Token werden rausgefiltert und stehen nicht mehr zur Auswahl.
Setzen wir als Wert top_k=5, wird also aus den wahrscheinlichsten 5 Tokens ein Token gezogen und ausgegeben.
Diese Sampling-Methode lässt sich sehr einfach berechnen und implementieren.
Top-P
Top-P macht dasselbe wie Top-K nur anhand der prozentualen Wahrscheinlichkeit. Er wählt aus einer Menge die besten Token aus, bis die summierte Wahrscheinlichkeit den Grenzwert von Top-P überschreitet.
Für top_p=0.8 werden so lange die wahrscheinlichsten Token ausgewählt und zusammengerechnet, bis ihre summierte Wahrscheinlichkeit den Grenzwert von 0.8, also 80 %, erreicht hat.
Wenn sich der Algorithmus bei bestimmten Tokens also sehr sicher ist, kommen die vielen anderen Token gar nicht zur Auswahl. Gibt es jedoch größere Unsicherheiten, werden auch viel mehr andere Token mit einbezogen.
Top-P ist aufgrund seiner Dynamik für kreatives Schreiben empfehlenswert. Es liefert ein besseres Gleichgewicht zwischen Vielfalt und Qualität, ist in der Implementierung und Berechnung aber nicht so simpel wie Top-K.
Temperatur
Dieser Parameter verändert die Form der Wahrscheinlichkeitsverteilung. Mit ihm lässt sich einstellen, ob das Modell mehr deterministisch antworten soll, oder unkonventionelle, kreativere Wege gehen darf.
temp=1 entspricht der originalen Wahrscheinlichkeitsverteilung des Modells.
Wird die Temperatur verringert (siehe temp=0.2), verstärken sich die Unterschiede bei den Wahrscheinlichkeiten. Die Anzahl an wahrscheinlichen Tokens reduziert sich. Daher werden die Ergebnisse deterministischer. temp=0 entspricht einem (ggf. nahezu) absoluten Determinismus (Greedy Decoding). Das heißt egal wie oft man die Generierung mit derselben Eingabe anfragt, erhält man immer dieselbe Ausgabe.
Erhöhen wir die Temperatur (siehe temp=2), flachen die Unterschiede zwischen den Wahrscheinlichkeiten ab. Eine höhere Temperatur birgt aber auch Risiken: Werden weniger wahrscheinliche Tokens mit einbezogen, können Halluzinationen verstärkt werden.
Außerdem sinkt die Wahrscheinlichkeit, dass das Modell ein Stopp-Token generiert. Das Ende der Generierungsphase wird dann nicht richtig signalisiert und das Modell droht im Schreibfluss stecken zu bleiben.
Eine zu hohe Temperatur kann auch dazu führen, dass die generierte Ausgabe gar keinen Sinn mehr macht und auch nicht in der Sprache konstant ist. Also wird die Sinnhaftigkeit aus der Verteilung zu weit rausgeglättet. Herauskommen kann dann sowas:
“Wie kann Change ever услуiança_tile ine”
Die Temperatur sollte zusammen mit den anderen Sampling-Parametern auf den Anwendungsfall angepasst werden:
- geringer: für deterministische Aufgaben wie Code, Mathematik, Faktenabfragen
- höher: für kreative Aufgaben wie Brainstorming, Storytelling, Marketing
Genaue Werte können aber nicht empfohlen werden, da sich jedes Modell anders verhält. Bei manchen Modellen lassen sich empfohlene Werte für verschiedene Anwendungsfälle finden. Andernfalls muss man diese systemisch testen. Dafür eignen sich Evaluation-Frameworks wie promptfoo oder langchain.
Wiederholungskontrolle
LLMs können dazu neigen, sich zu wiederholen. Ohne Gegenmaßnahmen kann ein Modell in Schleifen geraten und dieselben Wörter oder Phrasen immer wieder ausgeben. Die folgenden zwei Parameter steuern dagegen.
Frequency Penalty
Der frequency_penalty Parameter bestraft Token proportional dazu, wie oft sie bereits in der Generierung vorgekommen sind. Eine hohe Penalty führt zu mehr Abwechslung, kann aber auch gewollte Wiederholungen verhindern.
Der Wertebereich liegt typischerweise zwischen 0.0 und 2.0, wobei 0.0 keine Bestrafung bedeutet. Üblicherweise wird dieser Wert aber zunächst auf 0 gelassen und nur bei Bedarf eine Penalty angewendet. Wie problematisch Wiederholungen werden, ist modellspezifisch.
Presence Penalty
Die presence_penalty funktioniert wie die frequency_penalty, nur dass die Häufigkeit der Token irrelevant ist. Es wird lediglich darauf geachtet, dass das Token im generierten Text präsent ist.
Entsprechend ist die Penalty für bestrafte Token gleich groß.
Es vermeidet zwar weniger Wiederholungen als die frequency_penalty, fördert aber die Themenvielfalt. Der Wertebereich liegt ebenfalls zwischen 0.0 und 2.0.
Der nächste Schritt: selbst ausprobieren
Die Parameter, die du heute kennengelernt hast, entfalten ihre Wirkung erst in der Praxis. Kleine Änderungen an Temperature oder Top-P können das Verhalten eines Modells stark verändern – das merkt man erst, wenn man selbst damit experimentiert.
Starte am besten mit einem einfachen Prompt und variiere gezielt einzelne Parameter. Schon kleine Anpassungen können einen großen Unterschied machen.
Genau dafür eignet sich OpenWebUI: eine Oberfläche, in der du alle wichtigen Parameter direkt einstellen und ihre Auswirkungen live beobachten kannst. In Kombination mit dem mittwald AI Hosting betreibst du diese Umgebung im Container auf eigener Infrastruktur in Deutschland – und behältst die volle Kontrolle über dein Modell und deine Daten.
Probier es selbst aus: Setze eine eigene OpenWebUI auf, verbinde sie mit deinem Modell und finde heraus, welche Einstellungen für deinen Anwendungsfall am besten funktionieren.
Das erwartet dich im nächsten Teil
Beim nächsten Mal erfährst du, warum dein LLM dich manchmal anlügt – und was du konkret dagegen tun kannst.
Wir schauen uns an, wie Halluzinationen entstehen, welche Rolle Embeddings und Vektordatenbanken dabei spielen und wie du mit RAG dafür sorgst, dass dein Modell auf verlässlichem Wissen basiert.
Außerdem zeigen wir dir, wie du genau das in der Praxis umsetzt – mit dem mittwald AI und Container Hosting auf eigener Infrastruktur.