Softmax-Funktion & Temperatur Visualisierung

Die Temperatur in einem Large Language Model (LLM) ist ein Hyperparameter, der die Zufälligkeit oder "Kreativität" bei der Textgenerierung steuert. Hier ist, was Temperatur in diesem Kontext bedeutet:
Eine höhere Temperatur (z.B. 0,8-1,0):
Eine niedrigere Temperatur (z.B. 0,1-0,3): Technisch gesehen wird die Temperatur als Skalierungsfaktor auf die Logits (Wahrscheinlichkeitsverteilungen vor Softmax) angewendet. Eine höhere Temperatur "glättet" die Wahrscheinlichkeitsverteilung, während eine niedrigere Temperatur sie "verschärft", sodass wahrscheinlichere Tokens noch wahrscheinlicher werden. Die optimale Temperatureinstellung hängt vom Anwendungsfall ab: Für kreative Aufgaben wie Storytelling kann eine höhere Temperatur besser sein, während für faktenbasierte oder präzise Antworten eine niedrigere Temperatur vorzuziehen ist.

Die Softmax-Funktion wandelt beliebige Zahlen (Logits) in eine Wahrscheinlichkeitsverteilung um, die zusammen 100% ergibt. Die Temperatur kontrolliert, wie "scharf" oder "weich" diese Verteilung ist:

Die Softmax-Formel

Die Softmax-Funktion wandelt einen Vektor von n reellen Zahlen zi (Logits) in einen Wahrscheinlichkeitsvektor pi um, wobei die Summe aller Wahrscheinlichkeiten 1 ergibt.

Für einen Vektor z = [z1, z2, ..., zn] ist die Softmax-Funktion definiert als:

pi = softmax(z)i = ezi/T ∑ ezj/T

wobei:

  • pi = Wahrscheinlichkeit für Option i
  • zi = Logit-Wert für Option i
  • e = Eulersche Zahl (≈ 2,71828)
  • T = Temperaturparameter
  • ∑ = Summe über alle Optionen

In der Praxis wird oft aus numerischen Stabilitätsgründen der größte Logit-Wert subtrahiert:

pi = e(zi - max(z))/T ∑ e(zj - max(z))/T

Einfluss der Temperatur T

  • T → 0 (kalte Temperatur): Die Wahrscheinlichkeit konzentriert sich fast vollständig auf den höchsten Logit-Wert (deterministische Auswahl)
  • T = 1 (Standardtemperatur): Normale Softmax-Transformation
  • T → ∞ (heiße Temperatur): Alle Wahrscheinlichkeiten nähern sich 1/n an (gleichmäßige Verteilung)

Einstellungen

1.0

Visualisierung

Eingangslogits

Softmax-Ausgabe (Wahrscheinlichkeiten)

Option Logit-Wert Softmax-Ausgabe

Einfluss der Temperatur

Was bedeutet das? In einem Large Language Model (LLM) bestimmt die Temperatur-Einstellung, wie "kreativ" oder "vorhersehbar" die Textgenerierung ist: