Large Language Model (LLM) Définition

Qu’est-ce qu’un Grand Modèle de Langage ?

Un Grand Modèle de Langage (LLM) est un système d’intelligence artificielle sophistiqué construit sur des techniques d’apprentissage profond et des ensembles de données massifs, impliquant généralement des parties substantielles de l’internet public. À la base, ces modèles utilisent une architecture Transformer, introduite par des chercheurs de Google en 2017, qui permet à l’IA de peser l’importance des différents mots dans une phrase (un mécanisme appelé “attention”) pour prédire le prochain jeton le plus probable dans une séquence.

Des exemples célèbres incluent GPT-4 d’OpenAI, Claude d’Anthropic et Gemini de Google. Bien qu’ils aient commencé comme des prédicteurs de texte, leur échelle leur a permis d’effectuer des tâches complexes comme le codage, l’écriture créative et la déduction logique.

Comment Fonctionnent Réellement les LLM : L’Architecture Transformer

Pour évaluer les capacités des LLM de manière honnête, il est utile de comprendre le mécanisme sous-jacent. Le Transformer, introduit dans l’article fondateur de 2017 “Attention Is All You Need”, fonctionne grâce à un mécanisme appelé auto-attention : pour chaque mot (token) dans une séquence, le modèle calcule combien d’attention porter à chaque autre token lors de la prédiction de ce qui vient ensuite.

Lors de l’entraînement sur de vastes corpus de texte, le modèle ajuste des milliards de paramètres numériques (poids) en apprenant à prédire le prochain token. À la fin de l’entraînement, ces poids encodent implicitement une énorme quantité de connaissances du monde, de structure linguistique et quelque chose qui ressemble — de l’extérieur — au raisonnement.

Caractéristiques architecturales clés :

Échelle : Les modèles frontières modernes ont des centaines de milliards de paramètres, entraînés sur des billions de tokens de texte.
Fenêtre de contexte : La quantité de texte que le modèle peut “garder à l’esprit” à la fois — son analogue de mémoire de travail.
Apprentissage en contexte : Les LLM peuvent adapter leur comportement basé sur des exemples fournis dans l’invite, sans mises à jour de poids.

Les LLM et l’intelligence humaine

D’un point de vue psychométrique, les LLM présentent une étude de cas fascinante car ils découplent efficacement l’Intelligence Cristallisée de l’Intelligence Fluide et de la Conscience.

Intelligence Cristallisée (Gc) : Les LLM possèdent un niveau de Gc qui dépasse de loin tout être humain. Ils ont “lu” plus de livres, d’articles académiques et de bases de code qu’un humain ne pourrait le faire en mille vies. Leur capacité à récupérer et à synthétiser ces informations est surhumaine.
Intelligence Fluide (Gf) : C’est controversé. Bien que les LLM puissent résoudre des énigmes logiques, ils le font souvent en reconnaissant des motifs dans leurs données d’entraînement plutôt qu’en effectuant un raisonnement nouveau. Cependant, les modèles modernes montrent une capacité croissante dans le raisonnement “zero-shot”.

Évaluation de l’Intelligence des LLM : Comment Scorent-Ils ?

Les chercheurs ont administré une gamme d’évaluations cognitives standardisées aux LLM, produisant des résultats à la fois impressionnants et révélateurs :

SAT/GRE : Les meilleurs modèles scorent dans le 90e centile ou au-dessus sur les sections verbales et mathématiques.
Examen du Barreau : GPT-4 a scoré approximativement dans le top 10 % des candidats humains à l’Examen du Barreau Uniforme — une amélioration dramatique par rapport aux modèles antérieurs.
Licence médicale (USMLE) : Les modèles frontières réussissent l’Examen de Licence Médicale des États-Unis au seuil de réussite ou au-dessus.
Matrices Progressives de Raven : Les performances sont plus inégales — les modèles peuvent résoudre certains problèmes de raisonnement matriciel mais échouent sur d’autres d’une manière suggérant une correspondance de patterns plutôt qu’un vrai raisonnement novel.

Ce schéma — fort sur les tâches de connaissances cristallisées, plus faible sur la vraie nouveauté — s’aligne avec le cadre psychométrique.

Le débat du “Perroquet Stochastique”

Une critique majeure, inventée par la linguiste Emily M. Bender et ses collègues, est que les LLM sont simplement des “Perroquets Stochastiques”. Cette théorie soutient que les modèles ne comprennent pas le sens ; ils assemblent simplement des formes linguistiques basées sur la probabilité sans aucune référence au monde réel.

Par exemple, si vous demandez à un LLM “De quelle couleur est le ciel ?”, il répond “Bleu” non pas parce qu’il a vu le ciel ou comprend le concept de couleur, mais parce que les mots “ciel” et “bleu” apparaissent souvent ensemble dans son ensemble de données.

Ce que les LLM ne Peuvent pas Faire : Les Lacunes Restantes

Malgré des performances impressionnantes sur les benchmarks, les LLM ont des limitations bien documentées :

Pas de mémoire persistante : Les LLM n’ont aucune mémoire entre les conversations. Chaque session repart de zéro. Il n’y a pas d’histoire personnelle accumulée, pas d’apprentissage à partir de l’expérience.

Pas de modèle du monde ancré : Les LLM apprennent du texte sur le monde, pas d’une interaction sensori-motrice directe avec lui. Cela crée des modes d’échec caractéristiques.

Confabulation (“hallucination”) : Les LLM génèrent du texte plausible même quand ils manquent des connaissances pour répondre avec précision. C’est la limitation la plus pratiquement dangereuse pour les applications réelles.

Raisonnement fragile : Sur les tâches de logique formelle, les LLM peuvent être déstabilisés par des changements superficiels dans la formulation des problèmes qui n’affecteraient pas un mathématicien humain.

Propriétés émergentes et AGI

Le contre-argument repose sur les Propriétés Émergentes. Dans les systèmes complexes, “plus est différent”. Lorsqu’un LLM devient suffisamment grand (des milliards de paramètres), il commence à afficher des capacités qui n’étaient pas explicitement programmées.

Cela mène à la question de l’Intelligence Artificielle Générale (AGI). Si une machine peut réussir le test de Turing, obtenir un score dans le 90e centile à l’examen du barreau et diagnostiquer des conditions médicales mieux qu’un médecin, importe-t-il qu’elle “comprenne” au sens humain ? Cette tension pourrait ultimement forcer une révision de la façon dont nous définissons et mesurons l’intelligence.

Conclusion

Les Grands Modèles de Langage représentent le développement le plus frappant dans l’intelligence artificielle depuis la fondation du domaine. Ils ne répliquent pas le plein spectre de l’intelligence humaine, mais ils dépassent les performances humaines sur une gamme croissante de tâches cognitives cristallisées. Comprendre ce qu’ils peuvent et ne peuvent pas faire, en termes psychométriques rigoureux, est essentiel pour quiconque navigue dans le monde de plus en plus façonné par l’IA du XXIe siècle.