Die Softmax-Funktion wandelt beliebige Zahlen (Logits) in eine Wahrscheinlichkeitsverteilung um, die zusammen 100% ergibt. Die Temperatur kontrolliert, wie "scharf" oder "weich" diese Verteilung ist:
Die Softmax-Funktion wandelt einen Vektor von n reellen Zahlen zi (Logits) in einen Wahrscheinlichkeitsvektor pi um, wobei die Summe aller Wahrscheinlichkeiten 1 ergibt.
Für einen Vektor z = [z1, z2, ..., zn] ist die Softmax-Funktion definiert als:
pi = softmax(z)i = ezi/T ∑ ezj/T
wobei:
In der Praxis wird oft aus numerischen Stabilitätsgründen der größte Logit-Wert subtrahiert:
pi = e(zi - max(z))/T ∑ e(zj - max(z))/T
Option | Logit-Wert | Softmax-Ausgabe |
---|
Was bedeutet das? In einem Large Language Model (LLM) bestimmt die Temperatur-Einstellung, wie "kreativ" oder "vorhersehbar" die Textgenerierung ist: