AI Hosting verstehen (2): Die wichtigsten Parameter für bessere KI-Ergebnisse

|
Im ersten Teil unserer Reihe hast du gelernt, wie ein Large Language Model funktioniert. Aber vielleicht ist dir beim Ausprobieren schon etwas aufgefallen: Mal liefert die KI perfekte Antworten – und im nächsten Moment wirkt alles plötzlich ungenau, kreativ oder sogar komplett daneben. Woran liegt das? Die kurze Antwort: Du steuerst es selbst.

Mehr Kontrolle über KI: Diese Parameter machen den Unterschied

Parameter wie temperature, top-p oder max_tokens entscheiden darüber, ob ein Modell eher präzise, kreativ oder völlig unvorhersehbar reagiert. Sie sind die Stellschrauben, mit denen du das Verhalten eines LLMs gezielt beeinflussen kannst. 

In diesem Beitrag schauen wir uns genau an, was hinter diesen Parametern steckt – und wie du sie so einsetzt, dass du bessere Ergebnisse bekommst. Gerade wenn du ein Modell selbst betreibst, zum Beispiel im mittwald AI Hosting, erhältst du Zugriff auf genau diese Stellschrauben. Wir wollen dir als Hoster alle Freiheiten geben, die perfekte Antwort für dich zu generieren. Ab Auslieferung der Modelle werden diese mit mehr oder weniger sinnvollen Voreinstellungen für diese Parametern versehen. Diese Einstellungen kannst du selbstständig pro Nachricht an das Modell ändern, um für dein KI-Anwendungsszenario die besten Resultate zu generieren. 

Logits: Wie entstehen Wahrscheinlichkeiten? 

Das Modell bekommt eine Eingabe übergeben. Im Beispiel (siehe Grafik) soll der Satzbeginn „Wie kann “ vervollständigt werden. Das LLM soll das nächste Token (steht hier für Wort, Wortbeginn oder Zeichen) vorhersagen. 

Die Eingabe durchläuft den Transformerprozess, wie wir ihn im ersten Beitrag der Reihe kennengelernt haben − Embedding, Self-Attention, Feed Forward. Das Ergebnis ist eine Liste an Rohwerten, den Logits. Logits sind dabei noch keine Wahrscheinlichkeiten, sondern eine Art interne Punktzahl, mit der das Modell bewertet, wie gut ein Token als nächstes passen könnte. 

Ein Schaubild, das erklärt wie in einem LLM Logits erstellt werden.

Good to know: Wie lernt ein Transformer? 

Um einen Transformer zu trainieren, wird ihm eine große Menge an Texten zur Verfügung gestellt. Stell dir vor, du hast einen riesigen Stapel Bücher vor dir. Bei jedem Leseschritt verdeckst du den Rest des Textes und versuchst, das nächste Wort vorherzusagen. Anschließend prüfst du, ob du beim nächsten Wort richtig lagst. Genau das macht ein Transformer. Lag er falsch, passt er seine Stellschrauben an, um es beim nächsten Mal hoffentlich besser zu machen. 
 

Je nach Architektur lernen manche Transformer auch, indem sie zufällig Wörter mitten im Text entfernen und versuchen, diese wieder vorherzusagen.  

Warum werden die Wahrscheinlichkeiten angepasst?

Zurück zu unserem Beispiel. Wir haben aus den Logits nun die Wahrscheinlichkeiten abgeleitet. 

Wenn wir diese nicht verändern, wählen wir das nächste Token mithilfe der gesamten Wahrscheinlichkeitsverteilung aus. Darin sind auch unwahrscheinliche Token enthalten und können ausgewählt werden, obwohl sie eventuell nicht in den Kontext passen. 

Um solche Ausreißer zu vermeiden und die Ergebnisse auf den Anwendungsfall anzupassen, gibt es die Parameter, die wir oben kurz genannt haben. 

Wichtig: Neben dem Prompt sind die Parameter je nach Anwendungsfall entscheidend für gute Ergebnisse. Diese können sich zwischen den Modellen unterscheiden. 

Parameter 

Ausgabelänge 

Um die Anwendung planbarer zu machen und unerwünschte Kosten zu minimieren, kann die Ausgabelänge des LLMs beeinflusst werden. 

max_tokens 

Der Parameter max_tokens beschränkt die Länge des zu generierenden Textes − der KI-Antwort. Aber Achtung: ist das Limit überschritten, stoppt die Generierung abrupt, egal ob der Satz fertig formuliert wurde oder nicht.  

Wenn du Modelle selbst betreibst (z. B. im mittwald AI Hosting), kannst du so Kosten und Ressourcen gezielt steuern. 

Sampling

Damit ein sinnvoller Text möglichst ohne Ausreißer generiert wird, gibt es verschiedene Sampling Parameter. Für jedes Token wurde nun die Wahrscheinlichkeit von den Logits abgeleitet. 

Top-K

Top-K behält nur die besten k Token mit der höchsten Wahrscheinlichkeit. Alle anderen Token werden rausgefiltert und stehen nicht mehr zur Auswahl. 

Setzen wir als Wert top_k=5, wird also aus den wahrscheinlichsten 5 Tokens ein Token gezogen und ausgegeben. 

Diese Sampling-Methode lässt sich sehr einfach berechnen und implementieren. 

Top-P 

Top-P macht dasselbe wie Top-K nur anhand der prozentualen Wahrscheinlichkeit. Er wählt aus einer Menge die besten Token aus, bis die summierte Wahrscheinlichkeit den Grenzwert von Top-P überschreitet. 

Für top_p=0.8 werden so lange die wahrscheinlichsten Token ausgewählt und zusammengerechnet, bis ihre summierte Wahrscheinlichkeit den Grenzwert von 0.8, also 80 %, erreicht hat. 

Wenn sich der Algorithmus bei bestimmten Tokens also sehr sicher ist, kommen die vielen anderen Token gar nicht zur Auswahl. Gibt es jedoch größere Unsicherheiten, werden auch viel mehr andere Token mit einbezogen. 

Top-P ist aufgrund seiner Dynamik für kreatives Schreiben empfehlenswert. Es liefert ein besseres Gleichgewicht zwischen Vielfalt und Qualität, ist in der Implementierung und Berechnung aber nicht so simpel wie Top-K. 

Temperatur 

Dieser Parameter verändert die Form der Wahrscheinlichkeitsverteilung. Mit ihm lässt sich einstellen, ob das Modell mehr deterministisch antworten soll, oder unkonventionelle, kreativere Wege gehen darf. 

temp=1 entspricht der originalen Wahrscheinlichkeitsverteilung des Modells. 

Wird die Temperatur verringert (siehe temp=0.2), verstärken sich die Unterschiede bei den Wahrscheinlichkeiten. Die Anzahl an wahrscheinlichen Tokens reduziert sich. Daher werden die Ergebnisse deterministischer. temp=0 entspricht einem (ggf. nahezu) absoluten Determinismus (Greedy Decoding). Das heißt egal wie oft man die Generierung mit derselben Eingabe anfragt, erhält man immer dieselbe Ausgabe. 

Erhöhen wir die Temperatur (siehe temp=2), flachen die Unterschiede zwischen den Wahrscheinlichkeiten ab. Eine höhere Temperatur birgt aber auch Risiken: Werden weniger wahrscheinliche Tokens mit einbezogen, können Halluzinationen verstärkt werden. 

Außerdem sinkt die Wahrscheinlichkeit, dass das Modell ein Stopp-Token generiert. Das Ende der Generierungsphase wird dann nicht richtig signalisiert und das Modell droht im Schreibfluss stecken zu bleiben. 

Eine zu hohe Temperatur kann auch dazu führen, dass die generierte Ausgabe gar keinen Sinn mehr macht und auch nicht in der Sprache konstant ist. Also wird die Sinnhaftigkeit aus der Verteilung zu weit rausgeglättet. Herauskommen kann dann sowas: 

Wie kann Change ever услуiança_tile ine” 

Die Temperatur sollte zusammen mit den anderen Sampling-Parametern auf den Anwendungsfall angepasst werden: 

  • geringer: für deterministische Aufgaben wie Code, Mathematik, Faktenabfragen
  • höher: für kreative Aufgaben wie Brainstorming, Storytelling, Marketing

Genaue Werte können aber nicht empfohlen werden, da sich jedes Modell anders verhält. Bei manchen Modellen lassen sich empfohlene Werte für verschiedene Anwendungsfälle finden. Andernfalls muss man diese systemisch testen. Dafür eignen sich Evaluation-Frameworks wie promptfoo oder langchain

Wiederholungskontrolle

LLMs können dazu neigen, sich zu wiederholen. Ohne Gegenmaßnahmen kann ein Modell in Schleifen geraten und dieselben Wörter oder Phrasen immer wieder ausgeben. Die folgenden zwei Parameter steuern dagegen. 

Frequency Penalty

Der frequency_penalty Parameter bestraft Token proportional dazu, wie oft sie bereits in der Generierung vorgekommen sind. Eine hohe Penalty führt zu mehr Abwechslung, kann aber auch gewollte Wiederholungen verhindern. 

Der Wertebereich liegt typischerweise zwischen 0.0 und 2.0, wobei 0.0 keine Bestrafung bedeutet. Üblicherweise wird dieser Wert aber zunächst auf 0 gelassen und nur bei Bedarf eine Penalty angewendet. Wie problematisch Wiederholungen werden, ist modellspezifisch. 

Presence Penalty

Die presence_penalty funktioniert wie die frequency_penalty, nur dass die Häufigkeit der Token irrelevant ist. Es wird lediglich darauf geachtet, dass das Token im generierten Text präsent ist. 
Entsprechend ist die Penalty für bestrafte Token gleich groß. 

Es vermeidet zwar weniger Wiederholungen als die frequency_penalty, fördert aber die Themenvielfalt. Der Wertebereich liegt ebenfalls zwischen 0.0 und 2.0

Der nächste Schritt: selbst ausprobieren 

Die Parameter, die du heute kennengelernt hast, entfalten ihre Wirkung erst in der Praxis. Kleine Änderungen an Temperature oder Top-P können das Verhalten eines Modells stark verändern – das merkt man erst, wenn man selbst damit experimentiert. 

Starte am besten mit einem einfachen Prompt und variiere gezielt einzelne Parameter. Schon kleine Anpassungen können einen großen Unterschied machen. 

Genau dafür eignet sich OpenWebUI: eine Oberfläche, in der du alle wichtigen Parameter direkt einstellen und ihre Auswirkungen live beobachten kannst. In Kombination mit dem mittwald AI Hosting betreibst du diese Umgebung im Container auf eigener Infrastruktur in Deutschland – und behältst die volle Kontrolle über dein Modell und deine Daten. 

Probier es selbst aus: Setze eine eigene OpenWebUI auf, verbinde sie mit deinem Modell und finde heraus, welche Einstellungen für deinen Anwendungsfall am besten funktionieren. 

Das erwartet dich im nächsten Teil

Beim nächsten Mal erfährst du, warum dein LLM dich manchmal anlügt – und was du konkret dagegen tun kannst. 

Wir schauen uns an, wie Halluzinationen entstehen, welche Rolle Embeddings und Vektordatenbanken dabei spielen und wie du mit RAG dafür sorgst, dass dein Modell auf verlässlichem Wissen basiert. 

Außerdem zeigen wir dir, wie du genau das in der Praxis umsetzt – mit dem mittwald AI und Container Hosting auf eigener Infrastruktur. 

Ähnliche Artikel:

AI Hosting verstehen (1): Wie arbeitet ein LLM?

Verstehe, wie LLMs Texte erzeugen. Wir erklären Dir Grundlagen, Attention und Kontext – klar, technisch und praxisnah.