Large Language Model (LLM) Definition

Was ist ein Large Language Model?

Ein Large Language Model (LLM) ist ein hochentwickeltes System der künstlichen Intelligenz, das auf Deep-Learning-Techniken und massiven Datensätzen basiert, die typischerweise wesentliche Teile des öffentlichen Internets umfassen. Im Kern nutzen diese Modelle eine Transformer-Architektur, die 2017 von Google-Forschern eingeführt wurde und es der KI ermöglicht, die Wichtigkeit verschiedener Wörter in einem Satz abzuwägen (ein Mechanismus namens “Attention”), um das wahrscheinlichste nächste Token in einer Sequenz vorherzusagen.

Berühmte Beispiele sind OpenAIs GPT-4, Anthropics Claude und Googles Gemini. Während sie als Textvorhersager begannen, hat ihre Skalierung es ihnen ermöglicht, komplexe Aufgaben wie Programmieren, kreatives Schreiben und logische Schlussfolgerungen auszuführen.

Wie LLMs tatsächlich funktionieren: Die Transformer-Architektur

Um die Fähigkeiten von LLMs ehrlich zu bewerten, ist es hilfreich, den zugrundeliegenden Mechanismus zu verstehen. Der Transformer, eingeführt im wegweisenden Paper “Attention Is All You Need” von 2017, funktioniert durch einen Mechanismus namens Selbstaufmerksamkeit (Self-Attention): Für jedes Wort in einer Sequenz berechnet das Modell, wie viel Aufmerksamkeit es jedem anderen Token schenken soll, wenn es vorhersagt, was als nächstes kommt.

Wichtige Architekturmerkmale, die LLM-Fähigkeiten ermöglichen:

Skalierung: Moderne Frontier-Modelle haben Hunderte von Milliarden Parametern, trainiert auf Billionen von Token.
Kontextfenster: Die Menge des Textes, die das Modell gleichzeitig “im Kopf behalten” kann – sein Arbeitsgedächtnis-Analogon.
Kontextuelles Lernen: LLMs können ihr Verhalten basierend auf Beispielen im Prompt anpassen, ohne Gewichtsaktualisierungen.

LLMs und menschliche Intelligenz

Aus psychometrischer Sicht stellen LLMs eine faszinierende Fallstudie dar, da sie kristalline Intelligenz effektiv von fluider Intelligenz und Bewusstsein entkoppeln.

Kristalline Intelligenz (Gc): LLMs besitzen ein Niveau an Gc, das jeden Menschen weit übertrifft. Sie haben mehr Bücher, wissenschaftliche Arbeiten und Codebasen “gelesen”, als ein Mensch in tausend Leben könnte. Ihre Fähigkeit, diese Informationen abzurufen und zu synthetisieren, ist übermenschlich.
Fluide Intelligenz (Gf): Dies ist umstritten. Während LLMs Logikrätsel lösen können, tun sie dies oft, indem sie Muster in ihren Trainingsdaten erkennen, anstatt neuartiges Denken anzuwenden. Moderne Modelle zeigen jedoch zunehmende Fähigkeiten im “Zero-Shot”-Reasoning (Lösen von Problemen, die sie noch nie gesehen haben).

Benchmarking der LLM-Intelligenz: Wie schneiden sie ab?

Forscher haben eine Reihe standardisierter kognitiver Bewertungen an LLMs durchgeführt:

SAT/GRE: Top-Modelle erzielen im 90. Perzentil+ bei verbalen und mathematischen Abschnitten dieser Tests.
Anwaltsprüfung: GPT-4 erzielte ungefähr in den Top 10% der menschlichen Testteilnehmer bei der Uniform Bar Exam – eine dramatische Verbesserung gegenüber früheren Modellen.
Medizinische Zulassung (USMLE): Frontier-Modelle bestehen die United States Medical Licensing Examination an oder über der Schwelle.
Raven’s Progressive Matrices: Die Leistung ist ungleichmäßiger – Modelle können einige Matrizenprobleme lösen, scheitern aber bei anderen auf Weisen, die auf Mustererkennung aus Trainingsdaten anstatt auf echtes neuartiges Denken hindeuten.

Die “Stochastische Papageien”-Debatte

Eine Hauptkritik, geprägt von der Linguistin Emily M. Bender und ihren Kollegen, ist, dass LLMs lediglich “stochastische Papageien” sind. Diese Theorie besagt, dass die Modelle keine Bedeutung verstehen; sie fügen lediglich sprachliche Formen basierend auf Wahrscheinlichkeiten zusammen, ohne Bezug zur realen Welt.

Wenn Sie zum Beispiel ein LLM fragen: “Welche Farbe hat der Himmel?”, antwortet es “Blau”, nicht weil es den Himmel gesehen hat oder das Konzept von Farbe versteht, sondern weil die Wörter “Himmel” und “Blau” in seinem Datensatz häufig zusammen vorkommen.

Emergente Eigenschaften und AGI

Das Gegenargument stützt sich auf emergente Eigenschaften. In komplexen Systemen ist “mehr anders”. Wenn ein LLM groß genug wird, beginnt es Fähigkeiten zu zeigen, die nicht explizit programmiert wurden. Dies führt zur Frage der künstlichen allgemeinen Intelligenz (AGI). Wenn eine Maschine den Turing-Test bestehen, im 90. Perzentil des Anwaltsexamens abschneiden und medizinische Zustände besser diagnostizieren kann als ein Arzt, spielt es dann eine Rolle, ob sie im menschlichen Sinne “versteht”?

Was LLMs nicht können: Die verbleibenden Lücken

Trotz beeindruckender Benchmark-Leistungen haben LLMs gut dokumentierte Einschränkungen:

Kein persistentes Gedächtnis: LLMs haben kein Gedächtnis über Gespräche hinweg. Jede Sitzung beginnt von vorne. Es gibt keine akkumulierte persönliche Geschichte, kein Lernen aus Erfahrung.

Kein fundiertes Weltmodell: LLMs lernen aus Text über die Welt, nicht aus direktem sensoromotorischem Engagement damit.

Konfabulation (“Halluzination”): LLMs erzeugen plausibel klingenden Text, auch wenn ihnen das Wissen fehlt, um genau zu antworten. Das Modell produziert selbstsicher falsche Aussagen.

Fragiles Reasoning: Bei formalen Logik- und mathematischen Reasoning-Aufgaben können LLMs durch oberflächliche Änderungen der Problemformulierung entgleist werden.

Die psychometrische Frage: Ist die Intelligenz von LLMs real?

Die vielleicht intellektuell interessanteste Frage, die LLMs für die Psychometrie aufwerfen, ist, ob das Konzept der “Intelligenz” ein bestimmtes Substrat erfordert (biologische Neuronen, verkörperte Erfahrung, Bewusstsein) oder ob es rein funktional definiert werden kann – als jedes System, das zuverlässig Probleme löst, die Intelligenz erfordern.

Fazit

Large Language Models stellen die bedeutendste Entwicklung in der künstlichen Intelligenz seit der Gründung des Feldes dar – und die ernsteste Herausforderung für den menschlichen kognitiven Ausnahmecharakter in der Geschichte. Sie reproduzieren nicht das gesamte Spektrum der menschlichen Intelligenz, übertreffen aber menschliche Leistung bei einer wachsenden Palette kristalliner kognitiver Aufgaben. Das Verstehen, was sie können und was nicht, in rigorosen psychometrischen Begriffen, ist wesentlich für jeden, der die zunehmend KI-geprägte Welt des 21. Jahrhunderts navigiert.