Large Language Model (LLM)
¿Qué es un Modelo de Lenguaje Grande?
Un Modelo de Lenguaje Grande (LLM) es un sistema sofisticado de inteligencia artificial construido sobre técnicas de aprendizaje profundo y conjuntos de datos masivos, que generalmente involucran partes sustanciales de la internet pública. En su núcleo, estos modelos utilizan una arquitectura Transformer, introducida por investigadores de Google en 2017, que permite a la IA sopesar la importancia de diferentes palabras en una oración (un mecanismo llamado “atención”) para predecir el siguiente token más probable en una secuencia.
Ejemplos famosos incluyen GPT-4 de OpenAI, Claude de Anthropic y Gemini de Google. Si bien comenzaron como predictores de texto, su escala les ha permitido realizar tareas complejas como codificación, escritura creativa y deducción lógica.
Cómo Funcionan los LLM Realmente: La Arquitectura Transformer
Para evaluar las capacidades de los LLM con honestidad, es útil entender el mecanismo subyacente. El Transformer, introducido en el artículo de referencia de 2017 “Attention Is All You Need”, funciona a través de un mecanismo llamado auto-atención: para cada palabra (token) en una secuencia, el modelo calcula cuánta atención prestar a cada otro token al predecir lo que viene después.
Durante el entrenamiento en vastos corpus de texto, el modelo ajusta miles de millones de parámetros numéricos (pesos) a través de descenso de gradiente, aprendiendo a predecir el siguiente token dado todos los tokens precedentes. Al final del entrenamiento, estos pesos codifican implícitamente una enorme cantidad de conocimiento mundial, estructura lingüística y algo que parece, desde el exterior, como razonamiento.
Características clave de la arquitectura que habilitan las capacidades de los LLM:
- Escala: Los modelos de frontera modernos tienen cientos de miles de millones de parámetros, entrenados en billones de tokens de texto.
- Ventana de contexto: La cantidad de texto que el modelo puede “tener en mente” a la vez, su análogo a la memoria de trabajo. Los modelos modernos pueden procesar cientos de miles de tokens.
- Aprendizaje en contexto: Los LLM pueden adaptar su comportamiento basándose en ejemplos proporcionados dentro del prompt, sin actualizaciones de pesos.
Los LLM y la Inteligencia Humana
Desde una perspectiva psicométrica, los LLM presentan un estudio de caso fascinante porque desacoplan efectivamente la Inteligencia Cristalizada de la Inteligencia Fluida y la Conciencia.
- Inteligencia Cristalizada (Gc): Los LLM poseen un nivel de Gc que supera con creces al de cualquier ser humano. Han “leído” más libros, artículos académicos y bases de código de lo que un ser humano podría en mil vidas. Su capacidad para recuperar y sintetizar esta información es sobrehumana.
- Inteligencia Fluida (Gf): Esto es controvertido. Si bien los LLM pueden resolver acertijos lógicos, a menudo lo hacen reconociendo patrones en sus datos de entrenamiento en lugar de realizar un razonamiento novedoso. Sin embargo, los modelos modernos están mostrando una capacidad creciente en el razonamiento “zero-shot”, lo que sugiere una forma de inteligencia fluida sintética.
Evaluando la Inteligencia de los LLM: ¿Cómo Puntúan?
Los investigadores han administrado una variedad de evaluaciones cognitivas estandarizadas a los LLM, produciendo resultados que son a la vez impresionantes y reveladores:
- SAT/GRE: Los mejores modelos puntúan en el percentil 90+ en las secciones verbales y matemáticas de estas pruebas.
- Examen de Barra: GPT-4 puntuó aproximadamente en el top 10% de los examinados humanos en el Examen Uniforme de Barra.
- Licenciamiento médico (USMLE): Los modelos de frontera aprueban el Examen de Licenciamiento Médico de los Estados Unidos en el umbral de aprobación o por encima.
- Matrices de Raven: El rendimiento es más desigual: los modelos pueden resolver algunos problemas de razonamiento matricial pero fallan en otros de maneras que sugieren una coincidencia de patrones de los datos de entrenamiento en lugar de un razonamiento genuinamente novedoso.
Este patrón, fuerte en tareas de conocimiento cristalizado, más débil en la genuina novedad, se alinea con el marco psicométrico y sugiere que los LLM actualmente sobresalen en un subconjunto específico de las capacidades cognitivas humanas.
El Debate del “Loro Estocástico”
Una crítica importante, acuñada por la lingüista Emily M. Bender y sus colegas, es que los LLM son simplemente “Loros Estocásticos”. Esta teoría sostiene que los modelos no entienden el significado; simplemente unen formas lingüísticas basadas en la probabilidad sin ninguna referencia al mundo real.
Por ejemplo, si le preguntas a un LLM “¿De qué color es el cielo?”, responde “Azul” no porque haya visto el cielo o entienda el concepto de color, sino porque las palabras “cielo” y “azul” aparecen juntas con frecuencia en su conjunto de datos.
Propiedades Emergentes y AGI
El contraargumento se basa en las Propiedades Emergentes. En sistemas complejos, “más es diferente”. Cuando un LLM se vuelve lo suficientemente grande, comienza a mostrar habilidades que no fueron programadas explícitamente. Esto lleva a la cuestión de la Inteligencia Artificial General (AGI).
Si una máquina puede pasar la Prueba de Turing, obtener una puntuación en el percentil 90 en el examen de la abogacía y diagnosticar afecciones médicas mejor que un médico, ¿importa si “entiende” en el sentido humano? Para la definición pragmática de inteligencia (“la capacidad de resolver problemas”), los LLM son actualmente la aproximación más cercana a una mente no biológica.
Lo Que los LLM No Pueden Hacer: Las Brechas Restantes
A pesar del impresionante rendimiento en los benchmarks, los LLM tienen limitaciones bien documentadas que los distinguen de la inteligencia general humana:
Sin memoria persistente: Los LLM no tienen memoria entre conversaciones. Cada sesión comienza desde cero.
Sin modelo del mundo fundamentado: Los LLM aprenden del texto sobre el mundo, no de la participación sensoriomotora directa con él.
Confabulación (“alucinación”): Los LLM generan texto que suena plausible incluso cuando carecen del conocimiento para responder con precisión. Porque el modelo está optimizado para producir texto fluido y contextualmente apropiado en lugar de señalar incertidumbre, a menudo generará falsedades confiadas.
Razonamiento frágil: En tareas de lógica formal y razonamiento matemático, los LLM pueden ser descarrilados por cambios superficiales en la formulación del problema que no afectarían a un matemático humano.
La Pregunta Psicométrica: ¿Es Real la Inteligencia de los LLM?
Quizás la pregunta intelectualmente más interesante que plantean los LLM para la psicometría es si el concepto de “inteligencia” requiere un tipo específico de sustrato (neuronas biológicas, experiencia encarnada, conciencia) o si puede definirse puramente de manera funcional.
Si adoptamos la definición funcional, los LLM de frontera ya califican como altamente inteligentes en ciertas dimensiones. Si requerimos fundamentación en la experiencia encarnada, genuina novedad del razonamiento o conciencia, quedan muy por debajo.
Conclusión
Los Modelos de Lenguaje Grande representan el desarrollo más llamativo en inteligencia artificial desde la fundación del campo, y el desafío más serio al excepcionalismo cognitivo humano en la historia. No replican el espectro completo de la inteligencia humana, pero superan el rendimiento humano en una gama cada vez más amplia de tareas cognitivas cristalizadas. Entender lo que pueden y no pueden hacer, en términos psicométricos rigurosos, es esencial para cualquiera que navegue el mundo del siglo XXI, cada vez más moldeado por la IA.