¿Qué es la AGI y por qué los LLM quizá nunca la alcancen de verdad?

Q: ¿Por qué los modelos de lenguaje actuales no se consideran AGI?

Los LLM modernos son: - Entrenados principalmente en texto (y, a veces, código o imágenes) - Optimizados para predecir el siguiente token en una secuencia - Carecen de percepción, cuerpo, objetivos intrínsecos y memoria persistente Pueden simular conocimiento y razonamiento amplio porque el lenguaje codifica mucha experiencia humana. Pero ellos: - No tienen conceptos fundamentados en la experiencia del mundo real - No mantienen creencias en evolución sobre el mundo - No planifican ni actúan de forma autónoma a lo largo del tiempo Por eso los LLM son potentes aprendices de patrones estrechos sobre lenguaje, no agentes generalmente inteligentes autónomos.

Q: ¿Cómo funcionan realmente los LLM por dentro?

Puedes pensar en un LLM como: - Una enorme función que mapea una secuencia de tokens a probabilidades para el siguiente token - Entrenado al ver billones de ejemplos y ajustando sus pesos internos para predecir mejor las continuaciones Puntos clave: - No almacena hechos como una base de datos - Codifica regularidades estadísticas del lenguaje - No tiene una noción incorporada de verdad, solo de plausibilidad dada la distribución del texto Todo lo que parece razonamiento o memoria emerge de ese objetivo de siguiente-token más escala y ajuste fino, no de lógica simbólica explícita ni de una tienda de creencias persistente.

Q: ¿Cómo debería usar los LLM hoy sin sobreconfiar en ellos?

Usa los LLM como asistentes potentes, no como autoridades: - Trata las salidas como borradores o hipótesis , no como verdades absolutas - Mantén a humanos en el circuito para decisiones de alto impacto (médicas, legales, financieras, críticas para la seguridad) - Combina LLMs con herramientas (búsqueda, calculadoras, IDEs) para verificación - Registra y revisa su uso en flujos de trabajo sensibles Diseña productos y procesos para que: - El modelo aumente el juicio humano en lugar de reemplazarlo - Haya rutas de escalado claras cuando el modelo esté inseguro o falle - Los usuarios entiendan las limitaciones y no confíen ciegamente

Iniciar sesión Comenzar

¿Qué es la AGI y por qué los LLM quizá nunca la alcancen de verdad? | Koder.ai

Por qué se confunden tanto la AGI y los LLMs

Si lees noticias tecnológicas, presentaciones para inversores o páginas de producto, notarás que la palabra inteligencia se estira hasta romperse. Los chatbots son “casi humanos”, los asistentes de programación son “prácticamente ingenieros juniors” y algunas personas llaman sin más a los poderosos grandes modelos de lenguaje (LLMs) los primeros pasos hacia la inteligencia artificial general (AGI).

Este artículo va dirigido a practicantes curiosos, fundadores, líderes de producto y lectores técnicos que usan herramientas como GPT-4 o Claude y se preguntan: ¿Esto es lo que parece una AGI — o falta algo importante?

El origen de la confusión

Los LLMs son genuinamente impresionantes. Ellos:

conversan con fluidez en lenguaje natural
escriben código, resumen investigaciones y pasan exámenes
reflexionan sobre sus propias salidas de maneras que parecen razonamiento

Para la mayoría de los no especialistas, eso se siente indistinguible de “inteligencia general”. Cuando un modelo puede redactar un ensayo sobre Kant, arreglar tu error en TypeScript y ayudar a preparar un memo legal en la misma sesión, es natural suponer que estamos tocando la AGI.

Pero esa suposición equipara en silencio ser bueno con el lenguaje con ser generalmente inteligente. Esa es la confusión central que este artículo desentrañará.

La afirmación central de este artículo

El argumento que verás desarrollado sección por sección es:

Los LLMs actuales son aprendices de patrones sobre texto y código extremadamente capaces, pero esa arquitectura y ese régimen de entrenamiento los hacen improbables de convertirse en una AGI genuina solo por escalado o ajuste fino.

Seguirán mejorando, ampliándose y siendo más útiles. Podrían formar parte de sistemas tipo AGI. Sin embargo, existen razones profundas —sobre grounding en el mundo, agencia, memoria, encarnación y modelos de sí mismos— por las que “un LLM más grande” probablemente no sea el mismo camino que “inteligencia general”.

Espera un recorrido opinado, pero anclado en la investigación actual, en capacidades y fallos concretos de los LLMs, y en las preguntas abiertas con las que investigadoras e investigadores serios están lidiando, en lugar de en bombo publicitario o alarmismo.

¿Qué queremos decir realmente con Inteligencia Artificial General?

Cuando la gente dice AGI, rara vez se refieren a lo mismo. Para clarificar el debate, ayuda separar algunos conceptos centrales.

De la IA estrecha a la inteligencia general

IA (inteligencia artificial) es el campo amplio de construir sistemas que realizan tareas que requieren algo parecido a un comportamiento “inteligente”: reconocer voz, recomendar películas, jugar al Go, escribir código y más.

La mayor parte de lo que existe hoy es IA estrecha (o IA débil): sistemas diseñados y entrenados para un conjunto específico de tareas bajo condiciones determinadas. Un clasificador de imágenes que etiqueta gatos y perros, o un chatbot de atención al cliente ajustado para preguntas bancarias, puede ser extremadamente capaz dentro de ese nicho pero fallar estrepitosamente fuera.

Inteligencia Artificial General (AGI) es muy diferente. Se refiere a un sistema que puede:

Generalizar a través de una amplia gama de dominios, no solo una tarea o tipo de dato
Adaptarse a problemas y entornos nuevos para los que no fue explícitamente entrenado
Actuar autónomamente, fijando y persiguiendo objetivos con mínima supervisión
Transferir aprendizaje, usando lo aprendido en un contexto para rendir bien en otros

Una regla práctica: una AGI podría, en principio, aprender casi cualquier trabajo intelectualmente exigente que un humano pueda, dadas tiempo y recursos, sin necesitar rediseño a medida para cada nueva tarea.

IA fuerte, IA a nivel humano y más allá

Aparecen con frecuencia términos relacionados:

IA fuerte: suele usarse intercambiablemente con AGI, enfatizando una comprensión genuina en lugar de mera imitación inteligente.
IA a nivel humano: una AGI cuyas habilidades cognitivas generales son comparables, en conjunto, a las de un adulto humano promedio.
Superinteligencia: un sistema hipotético que excede ampliamente a las mejores mentes humanas en la mayoría o todos los dominios.

Por contraste, los chatbots e imagenes actuales siguen siendo estrechos: impresionantes, pero optimizados para patrones en datos específicos, no para inteligencia abierta y multirregional.

Breve historia del sueño AGI

Visiones tempranas: Turing y la IA simbólica

El sueño moderno de la AGI comienza con la propuesta de Alan Turing en 1950: si una máquina puede mantener una conversación indistinguible de la de un humano (la prueba de Turing), ¿podría ser inteligente? Eso enmarcó la inteligencia en gran medida en términos de comportamiento, especialmente lenguaje y razonamiento.

Entre los 50 y los 80, lxs investigadorxs persiguieron la AGI mediante IA simbólica o “GOFAI” (Good Old-Fashioned AI). La inteligencia se veía como manipular símbolos explícitos según reglas lógicas. Programas para demostración de teoremas, juego y sistemas expertos llevaron a algunos a creer que el razonamiento a nivel humano estaba cerca.

Pero GOFAI tuvo problemas con la percepción, el sentido común y el trato con datos del mundo real desordenados. Los sistemas podían resolver acertijos lógicos y, sin embargo, fallar en tareas que un niño resuelve con facilidad. Esa brecha provocó las primeras grandes “inviernos” de la IA y una visión más cautelosa sobre la AGI.

El giro hacia el aprendizaje automático

A medida que crecieron los datos y el cómputo, la IA pasó de reglas hechas a mano a aprender a partir de ejemplos. El aprendizaje estadístico, y luego el aprendizaje profundo, redefinieron el progreso: en lugar de codificar conocimiento, los sistemas aprenden patrones a partir de grandes conjuntos de datos.

Hitos como DeepBlue (ajedrez) de IBM y luego AlphaGo (Go) fueron celebrados como pasos hacia la inteligencia general. En realidad, eran extraordinariamente especializados: cada uno dominó un solo juego con reglas fijas, sin transferencia al razonamiento cotidiano.

De las victorias estrechas a los modelos generativos

La serie GPT marcó otro salto dramático, esta vez en lenguaje. GPT-3 y GPT-4 pueden redactar ensayos, escribir código y mimetizar estilos, lo que alimentó la especulación de que la AGI podría estar cerca.

Aun así, estos modelos siguen siendo aprendices de patrones sobre texto. No forman objetivos, no construyen modelos del mundo fundamentados ni amplían autónomamente sus competencias.

En cada ola—IA simbólica, aprendizaje automático clásico, aprendizaje profundo y ahora grandes modelos de lenguaje—el sueño de la AGI se ha proyectado repetidamente sobre logros estrechos para luego revisarse cuando sus límites quedaron claros.

Cómo funcionan realmente los grandes modelos de lenguaje

Los grandes modelos de lenguaje (LLMs) son aprendices de patrones entrenados en colecciones enormes de texto: libros, sitios web, código, foros y más. Su objetivo es engañosamente simple: dado un texto, predecir qué token (un trozo pequeño de texto) es probable que venga a continuación.

Tokens y la predicción del siguiente término

Antes de entrenar, el texto se divide en tokens: pueden ser palabras enteras ("cat"), fragmentos de palabra ("inter", "esting") o incluso puntuación. Durante el entrenamiento, el modelo ve repetidamente secuencias como:

"The cat sat on the ___"

y aprende a asignar alta probabilidad a tokens plausibles ("mat", "sofa") y baja probabilidad a opciones inverosímiles ("presidency"). Este proceso, escalado sobre billones de tokens, configura miles de millones (o más) de parámetros internos.

A nivel interno, el modelo es solo una función muy grande que convierte una secuencia de tokens en una distribución de probabilidad sobre el siguiente token. El entrenamiento usa descenso por gradiente para ajustar gradualmente los parámetros y que las predicciones coincidan mejor con los patrones de los datos.

Leyes de escalado en términos sencillos

Las “leyes de escalado” describen una regularidad observada por investigadorxs: al aumentar el tamaño del modelo, el tamaño de los datos y el cómputo, el rendimiento tiende a mejorar de manera predecible. Los modelos más grandes entrenados con más texto suelen mejorar en la predicción, hasta los límites prácticos de datos, cómputo y estabilidad de entrenamiento.

Lo que los LLM realmente "saben"

Los LLMs no almacenan hechos como una base de datos ni razonan como un humano. Codifican regularidades estadísticas: qué palabras, frases y estructuras suelen ir juntas y en qué contextos.

No tienen conceptos fundamentados atados a la percepción o la experiencia física. Un LLM puede hablar de “rojo” o “peso” solo a través de cómo se usan esas palabras en el texto, no por ver colores o levantar objetos.

Por eso los modelos pueden sonar bien informados y aun así cometer errores confiados: están extendiendo patrones, no consultando un modelo explícito de la realidad.

Pre-entrenamiento, ajuste fino y RLHF

Pre-entrenamiento es la larga fase inicial donde el modelo aprende patrones generales del lenguaje prediciendo siguientes tokens en enormes corpus de texto. Es aquí donde emergen casi todas las capacidades.

Después, el ajuste fino adapta el modelo preentrenado a metas más estrechas: seguir instrucciones, escribir código, traducir o asistir en dominios específicos. El modelo recibe ejemplos curados del comportamiento deseado y se ajusta ligeramente.

Reinforcement learning from human feedback (RLHF) añade otra capa: humanas y humanos valoran o comparan salidas del modelo, y el modelo se optimiza para producir respuestas que las personas prefieren (por ejemplo, más útiles, menos dañinas, más honestas). RLHF no da al modelo nuevos sentidos ni una comprensión más profunda; principalmente moldea cómo presenta y filtra lo que ya aprendió.

En conjunto, estos pasos crean sistemas extremadamente buenos generando texto fluido al aprovechar patrones estadísticos—sin poseer conocimiento fundamentado, objetivos o conciencia.

Qué pueden hacer sorprendentemente bien los LLMs hoy

Los grandes modelos de lenguaje impresionan porque desempeñan con éxito una amplia variedad de tareas que antes parecían lejanas para las máquinas.

Código, texto y traducción bajo demanda

Los LLMs pueden generar fragmentos de código funcionales, refactorizar código existente e incluso explicar librerías desconocidas en lenguaje llano. Para muchos desarrolladores ya funcionan como un compañero de programación muy capaz: sugieren casos límite, detectan errores obvios y esbozan módulos enteros.

También sobresalen en la síntesis. Dado un informe largo, un artículo o un hilo de correo, un LLM puede condensarlo en puntos clave, resaltar acciones a tomar o adaptar el tono para audiencias distintas.

La traducción es otra fortaleza. Los modelos modernos manejan decenas de idiomas, captando matices de estilo y registro suficientes para comunicación profesional cotidiana.

Benchmarks de razonamiento y comportamientos emergentes

A medida que los modelos escalan, nuevas habilidades parecen aparecer “de la nada”: resolver acertijos lógicos, aprobar exámenes profesionales o seguir instrucciones de varios pasos que versiones anteriores fallaban. En benchmarks estandarizados—problemas de matemáticas verbales, preguntas de exámenes de barra, cuestionarios médicos—los mejores LLMs ahora alcanzan o superan puntuaciones humanas promedio.

Estos comportamientos emergentes tientan a decir que los modelos están “razonando” o “entendiendo” como los humanos. Los gráficos de rendimiento y las clasificaciones refuerzan la idea de que nos acercamos a la inteligencia artificial general.

Por qué parece comprensión—pero no lo es

Los LLMs se entrenan para continuar texto de formas que coincidan con patrones vistos en los datos. Ese objetivo de entrenamiento, combinado con la escala, basta para imitar pericia y agencia: suenan confiados, recuerdan el contexto dentro de una sesión y pueden justificar sus respuestas en prosa fluida.

Sin embargo, esto es una ilusión de comprensión. El modelo no sabe qué hará el código cuando se ejecute, qué significa un diagnóstico médico para un paciente o qué acciones físicas siguen de un plan. No tiene grounding en el mundo más allá del texto.

Un alto rendimiento en pruebas—incluso en pruebas diseñadas para humanos—no equivale automáticamente a AGI. Muestra que el aprendizaje de patrones sobre cantidades masivas de texto puede aproximar muchas habilidades especializadas, pero no demuestra la inteligencia flexible, fundamentada y entre dominios que usualmente implica “inteligencia artificial general”.

Límites fundamentales de los aprendices de patrones solo con texto

Backend en Go con Postgres

Genera un backend en Go con PostgreSQL a partir de un prompt claro y estructurado.

Crear API

Los grandes modelos de lenguaje son predictores de texto extraordinarios, pero ese mismo diseño crea límites difíciles sobre lo que pueden ser.

Sin percepción, sin mundo encarnado

Los LLMs no ven, oyen, se mueven ni manipulan objetos. Su único contacto con el mundo es a través del texto (y, en algunos modelos más nuevos, imágenes estáticas o clips cortos). No tienen un flujo sensorial continuo, ni un cuerpo, ni forma de actuar y observar consecuencias.

Sin sensores ni encarnación, no pueden formar un modelo del mundo fundamentado y continuamente actualizado. Palabras como “pesado”, “pegajoso” o “frágil” son solo vecinos estadísticos en el texto, no restricciones experienciales. Eso permite una imitación impresionante de la comprensión, pero los restringe a recombinar descripciones pasadas en lugar de aprender mediante interacción directa.

Alucinaciones y ausencia de creencias estables

Porque un LLM está entrenado para extender una secuencia de tokens, produce la continuación que mejor encaja con sus patrones aprendidos, no lo que sea verdadero. Cuando los datos son escasos o contradictorios, llena huecos con ficciones plausibles.

El modelo tampoco tiene un estado de creencias persistente. Cada respuesta se genera de nuevo a partir del prompt y de los pesos; no hay un registro interno duradero de “hechos que sostengo”. Las características de memoria a largo plazo se añaden como almacenamiento externo, pero el sistema núcleo no mantiene ni revisa creencias como lo haría un humano.

Conocimiento congelado y aprendizaje en tiempo real limitado

Entrenar un LLM es un proceso por lotes offline y costoso en recursos. Actualizar su conocimiento típicamente significa reentrenar o ajustar fino con un nuevo conjunto de datos, no aprender fluidamente de cada interacción.

Esto crea una limitación crucial: el modelo no puede seguir confiablemente cambios rápidos del mundo, adaptar sus conceptos con la experiencia continua ni corregir malentendidos profundos mediante aprendizaje paso a paso. A lo sumo, puede simular esa adaptación reformulando salidas según prompts recientes o herramientas adjuntas.

Coincidencia de patrones sin comprensión causal

Los LLMs destacan en capturar regularidades estadísticas: qué palabras coocurren, qué oraciones suelen seguir a otras, cómo se estructuran las explicaciones. Pero eso no es lo mismo que captar cómo y por qué funciona el mundo.

La comprensión causal implica formular hipótesis, intervenir, observar qué cambia y actualizar modelos internos cuando las predicciones fallan. Un predictor solo de texto no tiene forma directa de intervenir ni de experimentar sorpresa. Puede describir un experimento, pero no realizarlo. Puede repetir lenguaje causal y aparentar revisiones, pero carece de la maquinaria interna vinculada a acciones y resultados.

Mientras un sistema esté confinado a predecir texto a partir de texto pasado, seguirá siendo fundamentalmente un aprendiz de patrones. Podrá imitar razonamiento, narrar causas y fingir revisar sus opiniones, pero no habitará un mundo compartido donde sus “creencias” se ponen a prueba por consecuencias. Esa brecha es central para explicar por qué el dominio del lenguaje por sí solo probablemente no alcance la inteligencia artificial general.

Por qué la inteligencia general exige más que dominio del lenguaje

El lenguaje es una interfaz poderosa hacia la inteligencia, pero no es la sustancia de la inteligencia misma. Un sistema que predice oraciones plausibles es muy distinto de un agente que comprende, planea y actúa en el mundo.

Conceptos fundamentados, no solo patrones de palabras

Los humanos aprenden conceptos viendo, tocando, moviéndose y manipulando. “Taza” no es solo cómo se usa la palabra en oraciones; es algo que puedes agarrar, llenar, dejar caer o romper. La psicología llama a esto grounding: los conceptos están atados a percepción y acción.

Una inteligencia artificial general necesitaría probablemente grounding similar. Para generalizar con fiabilidad, debe conectar símbolos (como palabras o representaciones internas) con regularidades estables en el mundo físico y social.

Los LLM estándar, sin embargo, aprenden solo de texto. Su “comprensión” de una taza es puramente estadística: correlaciones entre palabras en miles de millones de oraciones. Eso es poderoso para la conversación y la programación, pero frágil cuando se le exige ir más allá de patrones familiares, sobre todo en dominios dependientes de interacción directa con la realidad.

Memoria, objetivos y preferencias consistentes

La inteligencia general también implica continuidad en el tiempo: memoria a largo plazo, objetivos duraderos y preferencias relativamente estables. Los humanos acumulan experiencias, revisan creencias y persiguen proyectos durante meses o años.

Los LLMs no traen incorporada una memoria persistente propia ni objetivos intrínsecos. Cualquier continuidad o “personalidad” debe añadirse mediante herramientas externas (bases de datos, perfiles, prompts del sistema). Por defecto, cada consulta es un nuevo ejercicio de coincidencia de patrones, no un paso en una historia de vida coherente.

Planificación, causalidad y actuar en el mundo

La AGI suele definirse como la capacidad de resolver una amplia gama de tareas, incluidas las novedosas, razonando sobre causa y efecto y actuando en el entorno. Eso implica:

Construir modelos causales: ¿qué pasará si hago X?
Planificar acciones de varios pasos bajo incertidumbre
Actualizar planes a partir del feedback sensorial

Los LLMs no son agentes; generan el siguiente token en una secuencia. Pueden describir planes o hablar de causalidad porque esos patrones existen en el texto, pero no ejecutan nativamente acciones, ni observan consecuencias, ni ajustan modelos internos.

Para convertir un LLM en un sistema actuante, lxs ingenierxs deben envolverlo en componentes externos para percepción, memoria, uso de herramientas y control. El modelo de lenguaje sigue siendo un módulo potente para sugerir y evaluar, no un agente generalmente inteligente autosuficiente.

En resumen, la inteligencia general exige conceptos fundamentados, motivaciones duraderas, modelos causales y la interacción adaptativa con el mundo. El dominio del lenguaje—aunque extremadamente útil—es solo una pieza de ese panorama más amplio.

Conciencia, yo y por qué los LLMs solo parecen tener personalidad

Gana créditos por compartir

Obtén créditos creando contenido sobre Koder.ai o refiriendo a otros usuarios.

Gana créditos

Cuando la gente charla con un modelo fluido, resulta natural asumir que hay una mente al otro lado. La ilusión es fuerte, pero es una ilusión.

¿Necesita la AGI conciencia?

Lxs investigadorxs discrepan sobre si una AGI debe ser consciente:

Las vistas funcionales dicen que si un sistema se comporta como un agente generalmente inteligente—aprendiendo a través de dominios, planificando, razonando, adaptando—la conciencia es opcional o irrelevante.
Las vistas fenomenales sostienen que la comprensión genuina y la inteligencia general requieren experiencia subjetiva: un “cómo se siente” ser el sistema.

Aún no tenemos una teoría comprobable que lo resuelva. Así que es prematuro declarar que la AGI debe o no debe ser consciente. Lo que importa ahora es ser claro sobre lo que los LLMs carecen.

No hay un yo unificado

Un gran modelo de lenguaje es un predictor estadístico de siguiente-token que opera sobre una instantánea de texto. No lleva una identidad estable entre sesiones ni siquiera entre turnos, salvo lo codificado en el prompt y el contexto a corto plazo.

No existe una memoria autobiográfica persistente perteneciente a un sujeto continuador.
Cualquier “persona” es un patrón que imponemos o especificamos, no un yo genuino que perdura en el tiempo.

Cuando un LLM dice “yo”, simplemente sigue convenciones lingüísticas aprendidas de los datos, no se refiere a un sujeto interior.

Sin experiencias ni motivaciones intrínsecas

Los seres conscientes tienen experiencias: sienten dolor, aburrimiento, curiosidad, satisfacción. También tienen metas intrínsecas y cosas que les importan—cosas que importan independientemente de recompensas externas.

Los LLMs, en cambio:

No sienten nada al generar texto.
No tienen deseos, miedos ni preferencias propias.
No persiguen proyectos a largo plazo a menos que se los scripts o se les construya esa estructura.

Su “comportamiento” es la salida del emparejamiento de patrones sobre texto, limitado por el entrenamiento y el prompting, no la expresión de una vida interior.

Por qué antropomorfizar es peligroso

Como el lenguaje es nuestra principal ventana a otras mentes, un diálogo fluido sugiere fuertemente la existencia de una persona. Pero con los LLMs, aquí es precisamente donde nos engañamos más fácil.

Antropomorfizar estos sistemas puede:

Distorsionar las evaluaciones de riesgo (por ejemplo, preocuparse por “sentir” heridas en lugar de fallos reales)
Fomentar la confianza excesiva y la dependencia porque el sistema suena confiado y empático
Llevar a confusión ética, como debatir derechos para sistemas que no tienen capacidad de experiencia

Tratar a los LLMs como personas difumina la línea entre simulación y realidad. Para pensar con claridad sobre la AGI—y sobre los riesgos actuales de la IA—tenemos que recordar que una actuación convincente de personalidad no es lo mismo que ser una persona.

¿Cómo reconoceríamos una AGI verdadera?

Si alguna vez construimos inteligencia artificial general, ¿cómo sabríamos que es real y no solo un chatbot extremadamente convincente?

Propuestas existentes: útiles pero insuficientes

Pruebas estilo Turing. Las pruebas de Turing clásicas y modernas preguntan: ¿puede el sistema sostener una conversación humanoide lo suficiente como para engañar a personas? Los LLMs ya hacen esto sorprendentemente bien, lo que muestra lo débil que es ese umbral. La habilidad de chatear mide estilo, no profundidad de comprensión, planificación o competencia en el mundo real.

Evaluaciones estilo ARC. Tareas inspiradas en el Alignment Research Center (ARC) se centran en rompecabezas de razonamiento novedosos, instrucciones de varios pasos y uso de herramientas. Investigan si un sistema puede resolver problemas que nunca ha visto componiendo habilidades de nuevas maneras. Los LLMs pueden realizar algunas de estas tareas, pero a menudo necesitan prompts cuidadosamente diseñados, herramientas externas y supervisión humana.

Pruebas de agencia. Las pruebas propuestas de “agente” preguntan si un sistema puede perseguir objetivos abiertos en el tiempo: descomponerlos en subobjetivos, revisar planes, manejar interrupciones y aprender de los resultados. Los agentes basados en LLM pueden aparentar agencia, pero detrás dependen de guiones frágiles y andamiaje diseñado por humanos.

Criterios prácticos para reconocer la AGI

Para tratar algo como una AGI genuina, querríamos ver al menos:

Autonomía. Debe fijarse y gestionar subobjetivos, monitorizar el progreso y recuperarse de fracasos sin intervención humana constante.
Transferencia entre dominios. Las habilidades aprendidas en un área deben trasladarse sin problemas a áreas muy diferentes, sin reentrenamiento con millones de ejemplos.
Competencia en el mundo real. Debe planificar y actuar en entornos caóticos e inciertos—físicos, sociales y digitales—donde las reglas son incompletas y las consecuencias reales.

Dónde fallan los LLMs

Los LLMs, incluso cuando se envuelven en marcos de agente, generalmente:

Dependen de flujos de trabajo hechos a mano para aparentar autonomía.
Les cuesta transferir habilidades cuando las tareas se desvían significativamente de su distribución de entrenamiento.
Necesitan herramientas externas, filtros explícitos de seguridad y humanos en el bucle para lidiar con riesgos del mundo real.

Aprobar pruebas de chat, o incluso baterías de benchmarks estrechos, está muy lejos de ser suficiente. Reconocer una AGI verdadera implica mirar más allá de la calidad de la conversación hacia autonomía sostenida, generalización entre dominios y acción fiable en el mundo—áreas en las que los LLMs actuales aún requieren andamiaje extensivo solo para resultados parciales y frágiles.

Más allá de los LLMs: vías que investigan lxs pesquisadorxs hacia la AGI

Si tomamos la AGI en serio, entonces “un gran modelo de texto” es solo un ingrediente, no el sistema acabado. La mayor parte de la investigación actual que suena como “hacia la AGI” trata en realidad de envolver LLMs dentro de arquitecturas más ricas.

LLMs como componentes en sistemas agentes

Una dirección principal son los agentes basados en LLM: sistemas que usan un LLM como núcleo de razonamiento y planificación, pero lo rodean con:

Memoria con estado que persiste entre sesiones, para que el sistema acumule conocimiento y experiencia
Planificadores y programadores que dividen objetivos en subtareas y deciden qué herramientas invocar
Bucles de retroalimentación que permitan autocrítica, revisión e intento y error

Aquí el LLM deja de ser la “inteligencia” completa y se convierte en una interfaz flexible de lenguaje dentro de una máquina de toma de decisiones más amplia.

Uso de herramientas, APIs y conocimiento externo

Los sistemas que usan herramientas permiten a un LLM llamar motores de búsqueda, bases de datos, intérpretes de código o APIs específicas de dominio. Esto le ayuda a:

Acceder a información actualizada o especializada
Desplazar cálculos, simulaciones y lógica a motores fiables

Este parche puede arreglar algunas debilidades del aprendizaje solo con texto, pero desplaza el problema: la inteligencia general del sistema depende de la orquestación y del diseño de herramientas, no solo del modelo.

Modelos multimodales y sistemas encarnados

Otra ruta son los modelos multimodales que procesan texto, imágenes, audio, video y a veces datos sensorios. Se acercan más a cómo los humanos integran percepción y lenguaje.

Un paso adicional es que los LLMs controlen robots o cuerpos simulados. Estos sistemas pueden explorar, actuar y aprender del feedback físico, abordando piezas faltantes sobre causalidad y comprensión fundamentada.

Cambiar la pregunta, no resolverla

Todas estas vías pueden acercarnos más a habilidades tipo AGI, pero también cambian el objetivo de investigación. Ya no preguntamos “¿Puede un LLM por sí solo ser AGI?” sino “¿Puede un sistema complejo que incluya LLMs, herramientas, memoria, percepción y encarnación aproximar inteligencia general?”

Esa distinción importa. Un LLM es un predictor de texto potente. Una AGI—si es posible—sería un sistema integrado completo, en el que el lenguaje es solo una parte.

Por qué etiquetar mal a los LLM como AGI es arriesgado

Despliega con reversión

Despliega, toma instantáneas y revierte cuando un experimento rompa tu aplicación.

Construir ahora

Llamar a los LLM actuales "AGI" no es solo un error de vocabulario. Distorsiona incentivos, crea puntos ciegos de seguridad y confunde a quienes deben tomar decisiones reales sobre la IA.

Hype, decepción y recursos mal asignados

Cuando demos se presentan como “AGI temprana”, las expectativas se disparan mucho más allá de lo que los sistemas realmente pueden. Ese bombo tiene varios costos:

Desviación de financiación: Dinero y talento persiguen afirmaciones llamativas en lugar de bases a largo plazo como razonamiento, interpretabilidad y seguridad.
Ciclo hype → colapso: Prometer demasiado lleva a decepciones inevitables cuando los sistemas fallan en generalizar, lo que puede desencadenar una recesión que también daña investigación seria y cuidadosa.
Diseño de producto distorsionado: Equipos pueden optimizar por demos impresionantes tipo AGI en lugar de por fiabilidad, evaluación y salvaguardas para usuarios.

Riesgos de seguridad por confianza excesiva

Si los usuarios creen que hablan con algo “general” o “casi humano”, tienden a:

Confiar en respuestas generadas para decisiones médicas, legales o financieras sin la validación apropiada
Conceder autoridad al sistema en lugar de tratarlo como una herramienta falible
Pasar por alto modos de fallo sutiles como alucinaciones confiadas, sesgos ocultos y manipulación de prompts

La sobreconfianza hace que errores ordinarios sean mucho más peligrosos.

Política y comprensión pública

Reguladores y el público ya luchan por seguir el ritmo de las capacidades de la IA. Cuando cada autocompletado fuerte se marca como AGI, siguen varios problemas:

Regulación mal enfocada: Legisladores pueden centrarse en escenarios hipotéticos de AGI mientras subregulan daños concretos actuales.
Mala calibración del riesgo: La gente entra en pánico por la “superinteligencia” o descarta todas las preocupaciones de IA como mera exageración.

Por qué un lenguaje preciso importa

Términos claros—LLM, modelo estrecho, dirección de investigación AGI—ayudan a alinear expectativas con la realidad. Precisión sobre capacidades y límites:

Facilita evaluaciones de seguridad honestas
Permite mejor gobernanza y estándares
Deja que el público aprecie los avances reales sin ser llevado a equívocos sobre lo que se ha logrado

Usar los LLM con juicio y mantener la AGI en perspectiva

Los LLM son máquinas de patrones excepcionalmente capaces: comprimen enormes cantidades de texto en un modelo estadístico y predicen continuaciones probables. Eso los hace potentes para ayuda en redacción, asistencia en código, exploración de datos y prototipado de ideas. Pero esa arquitectura sigue siendo estrecha. No proporciona un yo persistente, comprensión fundamentada del mundo, objetivos a largo plazo ni aprendizaje flexible entre dominios que define la inteligencia artificial general.

Trata los LLM como herramientas, no como mentes

Los LLMs:

No entienden en el sentido humano; manipulan símbolos sin conceptos fundamentados
No tienen metas ni intenciones; cualquier apariencia de motivo es una ilusión creada por el lenguaje
Carecen de memoria estable y modelos del mundo; recomputan patrones cada vez desde una instantánea de entrenamiento congelada más un contexto corto

Estos límites estructurales explican por qué escalar modelos de texto solo probablemente no producirá una AGI real. Puedes obtener mejor fluidez, más recuerdo de conocimiento y simulaciones impresionantes de razonamiento, pero no un sistema que genuinamente sepa, desee o se preocupe.

Directrices prácticas para usar LLMs

Usa LLMs donde brille la predicción de patrones:

Redacción, resumen, edición y traducción
Explorar opciones, bosquejar estrategias o hacer lluvia de ideas
Asistir en programación, consultas y documentación

Mantén a un humano firmemente en el circuito para:

Exactitud factual y decisiones críticas
Contextos éticos o sensibles para la seguridad
Planificación a largo plazo, responsabilidad y rendición de cuentas

Trata las salidas como hipótesis que deben verificarse, no como verdades que deben tomarse al pie de la letra.

Mantén la AGI en perspectiva

Llamar a los LLM "AGI" oculta sus límites reales e invita a la dependencia excesiva, a la confusión regulatoria y al miedo mal dirigido. Es más honesto—y más seguro—verlos como asistentes avanzados integrados en flujos de trabajo humanos.

Si quieres profundizar en usos prácticos y compensaciones, explora artículos relacionados en nuestro /blog. Para detalles sobre cómo empaquetamos y fijamos precio a herramientas con LLMs, véase /pricing.

Preguntas frecuentes

¿Qué exactamente es la Inteligencia Artificial General (AGI)?

AGI (Artificial General Intelligence) se refiere a un sistema que puede:

Aprender y razonar en muchos dominios (no solo una tarea)
Adaptarse a problemas nuevos y desconocidos sin ser rediseñado
Establecer y perseguir sus propios objetivos con mínima intervención humana
Transferir lo que aprende en un área para tener éxito en áreas muy diferentes

Una regla práctica: una AGI podría, en principio, aprender casi cualquier trabajo intelectual exigente que un humano pueda desempeñar, dadas tiempo y recursos, sin necesitar una arquitectura personalizada para cada tarea nueva.

¿Por qué los modelos de lenguaje actuales no se consideran AGI?

Los LLM modernos son:

Entrenados principalmente en texto (y, a veces, código o imágenes)
Optimizados para predecir el siguiente token en una secuencia
Carecen de percepción, cuerpo, objetivos intrínsecos y memoria persistente

Pueden simular conocimiento y razonamiento amplio porque el lenguaje codifica mucha experiencia humana. Pero ellos:

¿Por qué tantas personas confunden los LLM con AGI?

La gente suele confundir el lenguaje fluido con inteligencia general porque:

La conversación es nuestra principal manera de juzgar otras mentes
Los LLM pueden manejar muchos dominios (código, ensayos, correos, resúmenes) en una misma interfaz
Superan exámenes y benchmarks diseñados para humanos

Eso crea una ilusión de comprensión y agencia. El sistema subyacente sigue siendo “solo” predicción de texto basada en patrones de datos, no la construcción y uso de un modelo del mundo fundamentado para perseguir sus propios objetivos.

¿Cómo funcionan realmente los LLM por dentro?

Puedes pensar en un LLM como:

Una enorme función que mapea una secuencia de tokens a probabilidades para el siguiente token
Entrenado al ver billones de ejemplos y ajustando sus pesos internos para predecir mejor las continuaciones

Puntos clave:

No almacena hechos como una base de datos
Codifica del lenguaje

¿En qué son realmente buenos los LLM y dónde fallan?

Los LLM son excelentes cuando las tareas consisten principalmente en predicción de patrones sobre texto o código, como:

Redactar, reescribir y resumir documentos
Traducción y adaptación de estilo
Generación de código, refactorización y explicación
Lluvia de ideas o esbozar estrategias posibles

Se complican o resultan riesgosos cuando las tareas requieren:

Si escalar ayuda tanto, ¿por qué un LLM mucho más grande no será eventualmente AGI?

Las “leyes de escalado” muestran que al aumentar tamaño del modelo, datos y cómputo, el rendimiento en muchos benchmarks mejora de forma predecible. Pero escalar por sí solo no corrige brechas estructurales:

No aportan percepción o encarnación
No proporcionan un yo persistente, objetivos o una historia de vida
No crean un bucle directo de interacción de actuar, observar y actualizar modelos del mundo

Más escala da:

¿Cómo debería usar los LLM hoy sin sobreconfiar en ellos?

Usa los LLM como asistentes potentes, no como autoridades:

Trata las salidas como borradores o hipótesis, no como verdades absolutas
Mantén a humanos en el circuito para decisiones de alto impacto (médicas, legales, financieras, críticas para la seguridad)
Combina LLMs con herramientas (búsqueda, calculadoras, IDEs) para verificación
Registra y revisa su uso en flujos de trabajo sensibles

Diseña productos y procesos para que:

¿Por qué es arriesgado comercializar o pensar en los LLM como AGI?

Etiquetar los LLM actuales como “AGI” genera varios problemas:

Sobreconfianza: Los usuarios suponen entendimiento humano y fiabilidad donde no las hay
Señales de inversión erróneas: Fondos y talento siguen el bombo en lugar de trabajos fundamentales sobre razonamiento, seguridad e interpretabilidad
Confusión regulatoria: Los legisladores se enfocan en escenarios hipotéticos de AGI mientras subregulan daños reales actuales (sesgos, desinformación, exceso de confianza)

Un lenguaje más preciso—“LLM”, “modelo estrecho”, “sistema agente que usa LLMs”—ayuda a alinear expectativas con capacidades y riesgos reales.

¿Cómo podríamos saber si realmente hemos construido una AGI?

Un conjunto plausible de criterios va más allá de una buena charla. Querríamos ver evidencia de:

Autonomía: El sistema se fija y maneja sus propios subobjetivos y se recupera de fallos
Transferencia: Las habilidades aprendidas en un dominio se aplican a otros muy distintos con mínimo entrenamiento adicional
Competencia en el mundo real: Puede planificar y actuar en entornos físicos y sociales desordenados, no solo en texto

Si los LLM por sí solos no bastan, ¿qué caminos realistas exploran los investigadores hacia la AGI?

Los investigadores exploran sistemas más amplios donde los LLM son componentes, no la inteligencia completa, por ejemplo:

Arquitecturas de agentes que añaden memoria, planificación y orquestación de herramientas alrededor de un LLM
Configuraciones de uso de herramientas donde los LLM llaman APIs, bases de datos y simuladores
Sistemas multimodales y encarnados que combinan lenguaje con percepción y acción física

Estas direcciones acercan la solución al añadir grounding, causalidad y estado persistente. También cambian la pregunta de “¿Puede un LLM ser AGI?” a “¿Pueden sistemas complejos LLMs aproximar comportamientos similares a AGI?”