Es ist später Nachmittag. Eine Schülerin sitzt über ihren Hausaufgaben und kommt nicht weiter. Sie hat gerechnet, mehrfach. Sie hat neu angesetzt. Alles wirkt sauber. Aber das Ergebnis stimmt nicht mit der Lösung im Schulbuch überein.
Nach einer halben Stunde Frustration steht für sie fest: Ich kann das nicht.
Am nächsten Tag bringt sie ihr Heft mit in den Unterricht. Die Lehrkraft rechnet die Aufgabe an der Tafel – und gemeinsam stellen sie fest: Die Musterlösung im Schulbuch ist falsch. Die Rechnung der Schülerin war korrekt.
Eine andere Situation, vielen Lehrkräften ebenfalls vertraut:
Im Unterricht wird gemeinsam eine Rechnung an der Tafel entwickelt. Die Lehrkraft schreibt, erklärt, rechnet vor, unterbrochen von Fragen der Lernenden.
Ein kleiner Übertragungsfehler schleicht sich ein – unbemerkt.
Die Klasse schreibt die Rechnung vollständig ab. Heft für Heft. Zeile für Zeile.
Erst ganz am Ende hebt eine Schülerin zögerlich die Hand: „Entschuldigung … ich verstehe nicht ganz, warum die 2 weggefallen ist?"
Ein kurzer Blick. Ja – sie hat recht. Die 2 wurde beim Abschreiben schlichtweg vergessen.
Diese beiden Situationen wirken auf den ersten Blick banal. Sie passieren seit Jahrzehnten im Mathematikunterricht. Und doch zeigen sie etwas Zentrales:
Im Mathematikunterricht vertrauen wir ständig Wissensquellen – oft, ohne es bewusst zu reflektieren.
Der Begriff „epistemisch" stammt vom griechischen Wort epistēmē und bedeutet „Erkenntnis" oder „gesichertes Wissen". Wenn wir von epistemischem Vertrauen sprechen, geht es um das Vertrauen in eine Wissensquelle: Wem oder was trauen wir zu, zuverlässiges Wissen zu liefern?
Im Mathematikunterricht ist dieses Vertrauen unverzichtbar. Schülerinnen und Schüler können nicht jede Aussage permanent neu beweisen. Sie müssen sich darauf verlassen können, dass bestimmte Quellen grundsätzlich korrekt sind – etwa das Schulbuch, die Lehrkraft oder ein technisches Werkzeug.
Wichtig ist jedoch: Epistemisches Vertrauen ist niemals blindes Vertrauen. Es ist immer an Bedingungen geknüpft und muss dort enden, wo Überprüfung notwendig ist.
Typische epistemische Vertrauensquellen im Mathematikunterricht sind:
Alle diese Quellen sind hilfreich. Keine von ihnen ist unfehlbar. Mathematische Bildung bedeutet deshalb immer auch: prüfen, hinterfragen, begründen.
In den letzten Jahren ist eine weitere Wissensquelle hinzugekommen: KI-basierte Sprachmodelle. In diesem Buch identifizieren wir KI grundsätzlich mit generativen Sprachmodellen, auch Large Language Models (LLM) genannt. Typische Vertreter sind ChatGPT oder Gemini, Claude oder DeepSeek (die Liste lässt sich beliebig fortsetzen).
Diese Systeme erzeugen Antworten, die sprachlich souverän, strukturell vertraut und formal korrekt wirken. Sie ähneln damit auf den ersten Blick etablierten Vertrauensquellen wie Schulbüchern oder Musterlösungen.
Der entscheidende Unterschied: KI übernimmt keine epistemische Verantwortung. Sie prüft nicht, ob eine Rechnung stimmt, sofern man sie nicht explizit dazu zwingt. Sie kann richtige und falsche Lösungen gleichermaßen überzeugend formulieren.
Genau daraus ergibt sich eine neue Herausforderung für den Mathematikunterricht.
Ist KI dabei, im Klassenzimmer als neue mathematische Autorität wahrgenommen zu werden? Falls ja, ist dieses Vertrauen überhaupt gerechtfertigt?
Um diese Frage zu beantworten, lohnt ein genauer Blick auf die Funktionsweise solcher Systeme und auf die Gründe, warum gerade Mathematik für sie besonders fehleranfällig ist.
Wenn diese Systeme in der Lage sind, komplexe Texte zu verstehen, kreative Geschichten zu schreiben und Code zu generieren – warum haben sie dann ausgerechnet mit Mathematik, einem Bereich klarer Regeln und eindeutiger Wahrheitswerte, erhebliche Schwierigkeiten?
Dieses Kapitel beleuchtet die technischen und konzeptionellen Gründe für diese Limitationen und erklärt, warum ein Verständnis dieser Problematik für den erfolgreichen Einsatz im Unterricht unerlässlich ist. In Kapitel 2 werden Sie sehen, dass einige der genannten Probleme mit modernen Systemen (ab 2025) deutlich besser gelöst werden können. Das grundsätzliche Risiko beim blinden Vertrauen ändert das aber nicht.
Die Erklärungen sind kein technischer Selbstzweck. Ziel ist es, Lehrkräften ein realistisches mentales Modell davon zu geben, was KI im Mathematikunterricht leisten kann – und was nicht. Erst dieses Verständnis ermöglicht einen verantwortungsvollen, didaktisch sinnvollen Einsatz.
In diesem Buch geht es ausschließlich um LLMs ohne Zusatzmodule. Das ist auch immer gemeint, wenn von „KI" gesprochen wird.
Large Language Models basieren auf der Transformer-Architektur und sind fundamental als autoregressive Sprachmodelle konzipiert. Das bedeutet: Sie erzeugen Text Token für Token, wobei jedes neue Token auf Basis aller vorherigen Tokens vorhergesagt wird (und den Eingabeprompt sowie die vorangegangene Ausgabe umfasst). Dieser Prozess ist im Kern statistischer Natur – das Modell berechnet Wahrscheinlichkeitsverteilungen über mögliche nächste Tokens basierend auf Mustern, die es während des Trainings aus riesigen Textkorpora gelernt hat.
Mathematisches Denken funktioniert jedoch fundamental anders:
Ein LLM „denkt" nicht in diesem Sinne – es erzeugt Text, der mathematischen Aussagen ähnelt, indem es Muster repliziert. Es hat keine interne Repräsentation von mathematischer Wahrheit oder Falschheit.
Prompt (typischer Prompt-Fehler):
Beweise den Satz des Pythagoras schrittweise und korrekt.
Typisches Ergebnis:
aber:
Didaktische Einordnung:
Das Modell reproduziert die äußere Form eines Beweises, ohne die logische Notwendigkeit jedes Schrittes garantieren zu können. Für Lernende ist das besonders gefährlich, da Fehler nicht als solche erkennbar sind.
Für ein grundlegendes Verständnis ist es notwendig zu verstehen, wie Large Language Models eigentlich ihre Eingabe und Ausgabe vornehmen. Sie „lesen" Texte anders als Menschen: Wörter, Zahlen und Satzzeichen werden zunächst in kleinere Einheiten, sogenannte Tokens, zerlegt. Jedem Token wird dann ein Vektor in einem hochdimensionalen Raum (typischerweise mit einigen tausend Dimensionen) zugeordnet. Diese Vektoren, auch „Embeddings" genannt, werden während des Trainings so angepasst, dass sie semantische und syntaktische Beziehungen zwischen Tokens kodieren.
Nach dieser Umwandlung in Embeddings verarbeitet das eigentliche neuronale Netz (meist ein Transformer) die Vektoren in vielen Schichten. In diesen Schichten berechnet das Modell mithilfe von Aufmerksamkeitsmechanismen, welche Tokens für das jeweils nächste Token besonders wichtig sind. Am Ende jeder Vorhersagestufe erhält man eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens, aus der dann nach bestimmten Strategien (z.B. Auswahl des wahrscheinlichsten Tokens oder zufällige Auswahl aus mehreren Möglichkeiten) das nächste Token gewählt wird. Durch die wiederholte Anwendung dieses Schritts entstehen Wort für Wort bzw. Token für Token ganze Antworten oder Texte.
Ein Token ist die kleinste Einheit, die ein LLM verarbeitet. Bei der Tokenisierung wird Text in Sequenzen von Tokens zerlegt. Für natürliche Sprache entspricht ein Token oft einem Wort oder Wortteil (z.B. 'Mathe|matik|unter|richt'). Mathematische Notation wird jedoch oft ineffizient tokenisiert:
Diese Fragmentierung erschwert es dem Modell, mathematische Strukturen als kohärente Einheiten zu verarbeiten.
Englische Tokens sind deutlich bevorzugt: über die Hälfte aller Einträge im Vokabular eines typischen Sprachmodell sind Wortteile aus der englischen Sprache, der andere Teil für alle anderen Sprachen.
Die Tokenisierung stellt für mathematische Inhalte eine besondere Herausforderung dar. Moderne LLMs verwenden teilwort-basierte Tokenisierung (z.B. Byte-Pair Encoding, BPE), die für natürlichsprachigen Text optimiert ist. Bei mathematischer Notation führt dies zu mehreren Problemen:
Mehrstellige Zahlen wurden oft in unvorhersehbare Token-Sequenzen zerlegt. Die Zahl '123456' könnte beispielsweise als '12' + '34' + '56' oder '123' + '45' + '6' tokenisiert werden, je nach Trainingsdaten des Tokenizers. Dies hat weitreichende Konsequenzen:
Mathematische Symbole (∫, ∑, √, ≤, ∈, etc.) werden als einzelne Unicode-Zeichen kodiert, die wiederum in Byte-Sequenzen zerlegt werden. Ein Integral-Symbol '∫' könnte in mehrere Tokens fragmentiert werden, obwohl es semantisch eine unteilbare Einheit darstellt. Besonders problematisch wird dies bei:
LaTeX ist die Standardnotation für komplexe mathematische Ausdrücke und wird von den meisten AI-Chatbots unterstützt. Jedoch wird LaTeX-Code wie normaler Text tokenisiert:
Der Ausdruck für die quadratische Lösungsformel:
wird in etwa 15-20 Tokens zerlegt. Das Modell muss die syntaktische Struktur (verschachtelte Klammern, Befehle) aus dieser Token-Sequenz rekonstruieren. Bei komplexen Ausdrücken mit mehreren Verschachtelungsebenen wird dies fehleranfällig.
Ein besonders auffälliges Problem bei den ersten LLMs war ihre Schwäche bei arithmetischen Operationen. Während Menschen (und Computer mit symbolischen Rechensystemen) einfache Rechenoperationen zuverlässig durchführen können, machten LLMs bei Aufgaben wie '347 × 286' oder '1.234.567 + 987.654' häufig Fehler.
Die Unfähigkeit zu rechnen hat mehrere Ursachen:
Tests mit GPT-4-turbo zeigen folgendes Muster (Stand 2024):
Die Fehlerrate steigt dramatisch mit der Komplexität. Neuere Modelle wie o1 zeigen u.a. durch verbessertes Chain-of-Thought-Reasoning deutlich bessere Ergebnisse, bleiben aber immer noch hinter symbolischen Rechensystemen (CAS) zurück.
Über die technischen Limitationen hinaus fehlt LLMs ein tiefes konzeptionelles Verständnis mathematischer Strukturen. Sie können Muster in mathematischen Texten erkennen und replizieren, ohne die zugrunde liegenden Konzepte zu „verstehen". Daran hat sich bis heute nichts Wesentliches geändert.
LLMs operieren primär auf der syntaktischen Ebene:
Prompt:
Erkläre in eigenen Worten, warum das Quadrat einer Zahl immer positiv ist.
Typisches Problem:
KI antwortet korrekt klingend, verwechselt aber:
Die Antwort zeigt sprachliche Kohärenz, aber kein belastbares Begriffsverständnis.
Sicher ist es Ihnen auch schon aufgefallen: bei Geometrieaufgaben versagen LLMs regelmäßig. Auch hier liegt der Grund wieder in der Systemarchitektur.
Was ein Mensch tut (räumliches Denken):
Wenn Sie die Aufgabe lesen: "Ein Würfel hat die Kantenlänge 4 cm. Schneide ihn diagonal von einer Ecke zur räumlich gegenüberliegenden Ecke durch. Welche Form hat die Schnittfläche?"
Ihr Gehirn:
Ein LLM hingegen analysiert Sprachmuster:
Das Modell hat:
Interessanterweise täuscht auch die menschliche Intuition, da wir uns gerne Spezialfälle vorstellen. Die Schnittebene kann aber um die Raumdiagonale rotieren, dann ergeben sich Parallelogramme. Aber, wie man leicht überlegen kann, niemals ein gleichseitiges Dreieck.
| Aufgabentyp | Warum KI versagt | Beispiel-Fehler |
|---|---|---|
| Würfelnetze | Kann nicht mental falten | Sagt: "Netz passt", obwohl zwei Flächen sich überlappen würden |
| Schrägbilder | Kein Konzept von Perspektive | Verkürzt falsche Kanten oder vergisst Hilfslinien |
| Schnittflächen | Keine 3D-Visualisierung | Verwechselt Kreis und Ellipse bei schrägem Schnitt durch Zylinder |
| Spiegelungen | Kein räumliches Koordinatensystem | Spiegelt an falscher Achse bei komplexer Formulierung |
Als die KI-Welle zunächst in Form von KI-gelösten Hausaufgaben an die Schulen schwappte, sahen das Mathematiklehrkräfte ebenso neidisch wie entspannt:
Folgerichtig befassten sich die ersten didaktischen Vorschläge, KI überhaupt im Mathematikunterricht einzusetzen, meist mit Varianten des Critical Thinkings – entlarven typischer „Denkfehler" von KI durch Schülerinnen und Schüler.
Dieser Ansatz ist weiterhin gerechtfertigt, jedoch sollte man sich weniger auf simple Rechenfehler konzentrieren als auf die unkritische Übernahme scheinbar plausibler Lösungsvorschläge, die kritisch betrachtet nicht „zu Ende gedacht" wurden.
Gegeben ist die folgende Gleichung: √x + 5 = x − 1.
Eine KI liefert dazu die folgende Lösung:
Quadrieren beider Seiten:
x + 5 = (x − 1)²
x + 5 = x² − 2x + 1
0 = x² − 3x − 4
x = 4 oder x = −1
Die Lösung wirkt vollständig, formal korrekt und vertraut. Genau so würde sie häufig auch an der Tafel entstehen.
Und doch ist sie falsch.
Der Fehler liegt nicht im Rechnen und nicht in der Umformung. Er liegt in einem fehlenden Schritt: der notwendigen Probe nach dem Quadrieren.
Setzt man die beiden gefundenen Werte in die Ausgangsgleichung ein, ergibt sich:
Die zweite Lösung ist eine Scheinlösung und muss verworfen werden.
Dieses Beispiel ist didaktisch aufschlussreich. Die KI hat nicht falsch gerechnet. Sie hat korrekt umgeformt. Was fehlt, ist etwas anderes: die Verantwortung, das Ergebnis zu überprüfen.
Genau hierin liegt die zentrale Herausforderung beim Einsatz von KI im Mathematikunterricht. KI-Systeme erzeugen plausible mathematische Sprache, übernehmen aber keine epistemische Verantwortung für deren Gültigkeit. Diese Verantwortung verbleibt beim Menschen.
Gerade deshalb kann der bewusste Einsatz ungeprüfter oder fehlerhafter KI-Lösungen ein wertvolles didaktisches Instrument sein. Nicht, um Fehler zu provozieren, sondern um mathematisches Urteilen, Prüfen und Begründen gezielt zu trainieren.
Kleine Randnotiz: Überraschenderweise haben gerade fortgeschrittene Modell größere Schwierigkeiten damit, „absichtlich" Lösungen mit Fehlern zu produzieren. Nicht selten ist die Lösung vollkommen korrekt, wird aber trotzdem als fehlerhaft deklariert.
Die technischen Limitationen von LLMs in Bezug auf Mathematik sind fundamental und nicht bloß temporäre Schwächen, die durch größere Modelle überwunden werden. Sie ergeben sich aus der grundlegenden Architektur:
Für die Unterrichtspraxis bedeutet dies:
Der folgende Prompt zeigt auf, wo eine händische Prüfung sinnvoll sein kann, insbesondere wenn man eher „schwächere Modelle" verwenden muss oder will. Er dient aber eher der Veranschaulichung und ist heute bei modernen Systemen nicht mehr sinnvoll.
Erstelle mathematische Aufgaben, aber führe keine Berechnungen selbst aus.
Markiere alle Stellen, an denen Ergebnisse rechnerisch überprüft werden müssen.
Die folgenden Kapitel bauen auf diesem Verständnis auf und zeigen, wie trotz dieser Limitationen LLMs gewinnbringend im Mathematikunterricht eingesetzt werden können – vorausgesetzt, man kennt ihre Schwächen und arbeitet bewusst damit.