Entiende qué significa realmente la inteligencia artificial general (AGI), cómo funcionan los LLM y los argumentos clave por los que los modelos de texto actuales probablemente no lleguen a ser una AGI verdadera.

Si lees noticias tecnológicas, presentaciones para inversores o páginas de producto, notarás que la palabra inteligencia se estira hasta romperse. Los chatbots son “casi humanos”, los asistentes de programación son “prácticamente ingenieros juniors” y algunas personas llaman sin más a los poderosos grandes modelos de lenguaje (LLMs) los primeros pasos hacia la inteligencia artificial general (AGI).
Este artículo va dirigido a practicantes curiosos, fundadores, líderes de producto y lectores técnicos que usan herramientas como GPT-4 o Claude y se preguntan: ¿Esto es lo que parece una AGI — o falta algo importante?
Los LLMs son genuinamente impresionantes. Ellos:
Para la mayoría de los no especialistas, eso se siente indistinguible de “inteligencia general”. Cuando un modelo puede redactar un ensayo sobre Kant, arreglar tu error en TypeScript y ayudar a preparar un memo legal en la misma sesión, es natural suponer que estamos tocando la AGI.
Pero esa suposición equipara en silencio ser bueno con el lenguaje con ser generalmente inteligente. Esa es la confusión central que este artículo desentrañará.
El argumento que verás desarrollado sección por sección es:
Los LLMs actuales son aprendices de patrones sobre texto y código extremadamente capaces, pero esa arquitectura y ese régimen de entrenamiento los hacen improbables de convertirse en una AGI genuina solo por escalado o ajuste fino.
Seguirán mejorando, ampliándose y siendo más útiles. Podrían formar parte de sistemas tipo AGI. Sin embargo, existen razones profundas —sobre grounding en el mundo, agencia, memoria, encarnación y modelos de sí mismos— por las que “un LLM más grande” probablemente no sea el mismo camino que “inteligencia general”.
Espera un recorrido opinado, pero anclado en la investigación actual, en capacidades y fallos concretos de los LLMs, y en las preguntas abiertas con las que investigadoras e investigadores serios están lidiando, en lugar de en bombo publicitario o alarmismo.
Cuando la gente dice AGI, rara vez se refieren a lo mismo. Para clarificar el debate, ayuda separar algunos conceptos centrales.
IA (inteligencia artificial) es el campo amplio de construir sistemas que realizan tareas que requieren algo parecido a un comportamiento “inteligente”: reconocer voz, recomendar películas, jugar al Go, escribir código y más.
La mayor parte de lo que existe hoy es IA estrecha (o IA débil): sistemas diseñados y entrenados para un conjunto específico de tareas bajo condiciones determinadas. Un clasificador de imágenes que etiqueta gatos y perros, o un chatbot de atención al cliente ajustado para preguntas bancarias, puede ser extremadamente capaz dentro de ese nicho pero fallar estrepitosamente fuera.
Inteligencia Artificial General (AGI) es muy diferente. Se refiere a un sistema que puede:
Una regla práctica: una AGI podría, en principio, aprender casi cualquier trabajo intelectualmente exigente que un humano pueda, dadas tiempo y recursos, sin necesitar rediseño a medida para cada nueva tarea.
Aparecen con frecuencia términos relacionados:
Por contraste, los chatbots e imagenes actuales siguen siendo estrechos: impresionantes, pero optimizados para patrones en datos específicos, no para inteligencia abierta y multirregional.
El sueño moderno de la AGI comienza con la propuesta de Alan Turing en 1950: si una máquina puede mantener una conversación indistinguible de la de un humano (la prueba de Turing), ¿podría ser inteligente? Eso enmarcó la inteligencia en gran medida en términos de comportamiento, especialmente lenguaje y razonamiento.
Entre los 50 y los 80, lxs investigadorxs persiguieron la AGI mediante IA simbólica o “GOFAI” (Good Old-Fashioned AI). La inteligencia se veía como manipular símbolos explícitos según reglas lógicas. Programas para demostración de teoremas, juego y sistemas expertos llevaron a algunos a creer que el razonamiento a nivel humano estaba cerca.
Pero GOFAI tuvo problemas con la percepción, el sentido común y el trato con datos del mundo real desordenados. Los sistemas podían resolver acertijos lógicos y, sin embargo, fallar en tareas que un niño resuelve con facilidad. Esa brecha provocó las primeras grandes “inviernos” de la IA y una visión más cautelosa sobre la AGI.
A medida que crecieron los datos y el cómputo, la IA pasó de reglas hechas a mano a aprender a partir de ejemplos. El aprendizaje estadístico, y luego el aprendizaje profundo, redefinieron el progreso: en lugar de codificar conocimiento, los sistemas aprenden patrones a partir de grandes conjuntos de datos.
Hitos como DeepBlue (ajedrez) de IBM y luego AlphaGo (Go) fueron celebrados como pasos hacia la inteligencia general. En realidad, eran extraordinariamente especializados: cada uno dominó un solo juego con reglas fijas, sin transferencia al razonamiento cotidiano.
La serie GPT marcó otro salto dramático, esta vez en lenguaje. GPT-3 y GPT-4 pueden redactar ensayos, escribir código y mimetizar estilos, lo que alimentó la especulación de que la AGI podría estar cerca.
Aun así, estos modelos siguen siendo aprendices de patrones sobre texto. No forman objetivos, no construyen modelos del mundo fundamentados ni amplían autónomamente sus competencias.
En cada ola—IA simbólica, aprendizaje automático clásico, aprendizaje profundo y ahora grandes modelos de lenguaje—el sueño de la AGI se ha proyectado repetidamente sobre logros estrechos para luego revisarse cuando sus límites quedaron claros.
Los grandes modelos de lenguaje (LLMs) son aprendices de patrones entrenados en colecciones enormes de texto: libros, sitios web, código, foros y más. Su objetivo es engañosamente simple: dado un texto, predecir qué token (un trozo pequeño de texto) es probable que venga a continuación.
Antes de entrenar, el texto se divide en tokens: pueden ser palabras enteras ("cat"), fragmentos de palabra ("inter", "esting") o incluso puntuación. Durante el entrenamiento, el modelo ve repetidamente secuencias como:
"The cat sat on the ___"
y aprende a asignar alta probabilidad a tokens plausibles ("mat", "sofa") y baja probabilidad a opciones inverosímiles ("presidency"). Este proceso, escalado sobre billones de tokens, configura miles de millones (o más) de parámetros internos.
A nivel interno, el modelo es solo una función muy grande que convierte una secuencia de tokens en una distribución de probabilidad sobre el siguiente token. El entrenamiento usa descenso por gradiente para ajustar gradualmente los parámetros y que las predicciones coincidan mejor con los patrones de los datos.
Las “leyes de escalado” describen una regularidad observada por investigadorxs: al aumentar el tamaño del modelo, el tamaño de los datos y el cómputo, el rendimiento tiende a mejorar de manera predecible. Los modelos más grandes entrenados con más texto suelen mejorar en la predicción, hasta los límites prácticos de datos, cómputo y estabilidad de entrenamiento.
Los LLMs no almacenan hechos como una base de datos ni razonan como un humano. Codifican regularidades estadísticas: qué palabras, frases y estructuras suelen ir juntas y en qué contextos.
No tienen conceptos fundamentados atados a la percepción o la experiencia física. Un LLM puede hablar de “rojo” o “peso” solo a través de cómo se usan esas palabras en el texto, no por ver colores o levantar objetos.
Por eso los modelos pueden sonar bien informados y aun así cometer errores confiados: están extendiendo patrones, no consultando un modelo explícito de la realidad.
Pre-entrenamiento es la larga fase inicial donde el modelo aprende patrones generales del lenguaje prediciendo siguientes tokens en enormes corpus de texto. Es aquí donde emergen casi todas las capacidades.
Después, el ajuste fino adapta el modelo preentrenado a metas más estrechas: seguir instrucciones, escribir código, traducir o asistir en dominios específicos. El modelo recibe ejemplos curados del comportamiento deseado y se ajusta ligeramente.
Reinforcement learning from human feedback (RLHF) añade otra capa: humanas y humanos valoran o comparan salidas del modelo, y el modelo se optimiza para producir respuestas que las personas prefieren (por ejemplo, más útiles, menos dañinas, más honestas). RLHF no da al modelo nuevos sentidos ni una comprensión más profunda; principalmente moldea cómo presenta y filtra lo que ya aprendió.
En conjunto, estos pasos crean sistemas extremadamente buenos generando texto fluido al aprovechar patrones estadísticos—sin poseer conocimiento fundamentado, objetivos o conciencia.
Los grandes modelos de lenguaje impresionan porque desempeñan con éxito una amplia variedad de tareas que antes parecían lejanas para las máquinas.
Los LLMs pueden generar fragmentos de código funcionales, refactorizar código existente e incluso explicar librerías desconocidas en lenguaje llano. Para muchos desarrolladores ya funcionan como un compañero de programación muy capaz: sugieren casos límite, detectan errores obvios y esbozan módulos enteros.
También sobresalen en la síntesis. Dado un informe largo, un artículo o un hilo de correo, un LLM puede condensarlo en puntos clave, resaltar acciones a tomar o adaptar el tono para audiencias distintas.
La traducción es otra fortaleza. Los modelos modernos manejan decenas de idiomas, captando matices de estilo y registro suficientes para comunicación profesional cotidiana.
A medida que los modelos escalan, nuevas habilidades parecen aparecer “de la nada”: resolver acertijos lógicos, aprobar exámenes profesionales o seguir instrucciones de varios pasos que versiones anteriores fallaban. En benchmarks estandarizados—problemas de matemáticas verbales, preguntas de exámenes de barra, cuestionarios médicos—los mejores LLMs ahora alcanzan o superan puntuaciones humanas promedio.
Estos comportamientos emergentes tientan a decir que los modelos están “razonando” o “entendiendo” como los humanos. Los gráficos de rendimiento y las clasificaciones refuerzan la idea de que nos acercamos a la inteligencia artificial general.
Los LLMs se entrenan para continuar texto de formas que coincidan con patrones vistos en los datos. Ese objetivo de entrenamiento, combinado con la escala, basta para imitar pericia y agencia: suenan confiados, recuerdan el contexto dentro de una sesión y pueden justificar sus respuestas en prosa fluida.
Sin embargo, esto es una ilusión de comprensión. El modelo no sabe qué hará el código cuando se ejecute, qué significa un diagnóstico médico para un paciente o qué acciones físicas siguen de un plan. No tiene grounding en el mundo más allá del texto.
Un alto rendimiento en pruebas—incluso en pruebas diseñadas para humanos—no equivale automáticamente a AGI. Muestra que el aprendizaje de patrones sobre cantidades masivas de texto puede aproximar muchas habilidades especializadas, pero no demuestra la inteligencia flexible, fundamentada y entre dominios que usualmente implica “inteligencia artificial general”.
Los grandes modelos de lenguaje son predictores de texto extraordinarios, pero ese mismo diseño crea límites difíciles sobre lo que pueden ser.
Los LLMs no ven, oyen, se mueven ni manipulan objetos. Su único contacto con el mundo es a través del texto (y, en algunos modelos más nuevos, imágenes estáticas o clips cortos). No tienen un flujo sensorial continuo, ni un cuerpo, ni forma de actuar y observar consecuencias.
Sin sensores ni encarnación, no pueden formar un modelo del mundo fundamentado y continuamente actualizado. Palabras como “pesado”, “pegajoso” o “frágil” son solo vecinos estadísticos en el texto, no restricciones experienciales. Eso permite una imitación impresionante de la comprensión, pero los restringe a recombinar descripciones pasadas en lugar de aprender mediante interacción directa.
Porque un LLM está entrenado para extender una secuencia de tokens, produce la continuación que mejor encaja con sus patrones aprendidos, no lo que sea verdadero. Cuando los datos son escasos o contradictorios, llena huecos con ficciones plausibles.
El modelo tampoco tiene un estado de creencias persistente. Cada respuesta se genera de nuevo a partir del prompt y de los pesos; no hay un registro interno duradero de “hechos que sostengo”. Las características de memoria a largo plazo se añaden como almacenamiento externo, pero el sistema núcleo no mantiene ni revisa creencias como lo haría un humano.
Entrenar un LLM es un proceso por lotes offline y costoso en recursos. Actualizar su conocimiento típicamente significa reentrenar o ajustar fino con un nuevo conjunto de datos, no aprender fluidamente de cada interacción.
Esto crea una limitación crucial: el modelo no puede seguir confiablemente cambios rápidos del mundo, adaptar sus conceptos con la experiencia continua ni corregir malentendidos profundos mediante aprendizaje paso a paso. A lo sumo, puede simular esa adaptación reformulando salidas según prompts recientes o herramientas adjuntas.
Los LLMs destacan en capturar regularidades estadísticas: qué palabras coocurren, qué oraciones suelen seguir a otras, cómo se estructuran las explicaciones. Pero eso no es lo mismo que captar cómo y por qué funciona el mundo.
La comprensión causal implica formular hipótesis, intervenir, observar qué cambia y actualizar modelos internos cuando las predicciones fallan. Un predictor solo de texto no tiene forma directa de intervenir ni de experimentar sorpresa. Puede describir un experimento, pero no realizarlo. Puede repetir lenguaje causal y aparentar revisiones, pero carece de la maquinaria interna vinculada a acciones y resultados.
Mientras un sistema esté confinado a predecir texto a partir de texto pasado, seguirá siendo fundamentalmente un aprendiz de patrones. Podrá imitar razonamiento, narrar causas y fingir revisar sus opiniones, pero no habitará un mundo compartido donde sus “creencias” se ponen a prueba por consecuencias. Esa brecha es central para explicar por qué el dominio del lenguaje por sí solo probablemente no alcance la inteligencia artificial general.
El lenguaje es una interfaz poderosa hacia la inteligencia, pero no es la sustancia de la inteligencia misma. Un sistema que predice oraciones plausibles es muy distinto de un agente que comprende, planea y actúa en el mundo.
Los humanos aprenden conceptos viendo, tocando, moviéndose y manipulando. “Taza” no es solo cómo se usa la palabra en oraciones; es algo que puedes agarrar, llenar, dejar caer o romper. La psicología llama a esto grounding: los conceptos están atados a percepción y acción.
Una inteligencia artificial general necesitaría probablemente grounding similar. Para generalizar con fiabilidad, debe conectar símbolos (como palabras o representaciones internas) con regularidades estables en el mundo físico y social.
Los LLM estándar, sin embargo, aprenden solo de texto. Su “comprensión” de una taza es puramente estadística: correlaciones entre palabras en miles de millones de oraciones. Eso es poderoso para la conversación y la programación, pero frágil cuando se le exige ir más allá de patrones familiares, sobre todo en dominios dependientes de interacción directa con la realidad.
La inteligencia general también implica continuidad en el tiempo: memoria a largo plazo, objetivos duraderos y preferencias relativamente estables. Los humanos acumulan experiencias, revisan creencias y persiguen proyectos durante meses o años.
Los LLMs no traen incorporada una memoria persistente propia ni objetivos intrínsecos. Cualquier continuidad o “personalidad” debe añadirse mediante herramientas externas (bases de datos, perfiles, prompts del sistema). Por defecto, cada consulta es un nuevo ejercicio de coincidencia de patrones, no un paso en una historia de vida coherente.
La AGI suele definirse como la capacidad de resolver una amplia gama de tareas, incluidas las novedosas, razonando sobre causa y efecto y actuando en el entorno. Eso implica:
Los LLMs no son agentes; generan el siguiente token en una secuencia. Pueden describir planes o hablar de causalidad porque esos patrones existen en el texto, pero no ejecutan nativamente acciones, ni observan consecuencias, ni ajustan modelos internos.
Para convertir un LLM en un sistema actuante, lxs ingenierxs deben envolverlo en componentes externos para percepción, memoria, uso de herramientas y control. El modelo de lenguaje sigue siendo un módulo potente para sugerir y evaluar, no un agente generalmente inteligente autosuficiente.
En resumen, la inteligencia general exige conceptos fundamentados, motivaciones duraderas, modelos causales y la interacción adaptativa con el mundo. El dominio del lenguaje—aunque extremadamente útil—es solo una pieza de ese panorama más amplio.
Cuando la gente charla con un modelo fluido, resulta natural asumir que hay una mente al otro lado. La ilusión es fuerte, pero es una ilusión.
Lxs investigadorxs discrepan sobre si una AGI debe ser consciente:
Aún no tenemos una teoría comprobable que lo resuelva. Así que es prematuro declarar que la AGI debe o no debe ser consciente. Lo que importa ahora es ser claro sobre lo que los LLMs carecen.
Un gran modelo de lenguaje es un predictor estadístico de siguiente-token que opera sobre una instantánea de texto. No lleva una identidad estable entre sesiones ni siquiera entre turnos, salvo lo codificado en el prompt y el contexto a corto plazo.
Cuando un LLM dice “yo”, simplemente sigue convenciones lingüísticas aprendidas de los datos, no se refiere a un sujeto interior.
Los seres conscientes tienen experiencias: sienten dolor, aburrimiento, curiosidad, satisfacción. También tienen metas intrínsecas y cosas que les importan—cosas que importan independientemente de recompensas externas.
Los LLMs, en cambio:
Su “comportamiento” es la salida del emparejamiento de patrones sobre texto, limitado por el entrenamiento y el prompting, no la expresión de una vida interior.
Como el lenguaje es nuestra principal ventana a otras mentes, un diálogo fluido sugiere fuertemente la existencia de una persona. Pero con los LLMs, aquí es precisamente donde nos engañamos más fácil.
Antropomorfizar estos sistemas puede:
Tratar a los LLMs como personas difumina la línea entre simulación y realidad. Para pensar con claridad sobre la AGI—y sobre los riesgos actuales de la IA—tenemos que recordar que una actuación convincente de personalidad no es lo mismo que ser una persona.
Si alguna vez construimos inteligencia artificial general, ¿cómo sabríamos que es real y no solo un chatbot extremadamente convincente?
Pruebas estilo Turing. Las pruebas de Turing clásicas y modernas preguntan: ¿puede el sistema sostener una conversación humanoide lo suficiente como para engañar a personas? Los LLMs ya hacen esto sorprendentemente bien, lo que muestra lo débil que es ese umbral. La habilidad de chatear mide estilo, no profundidad de comprensión, planificación o competencia en el mundo real.
Evaluaciones estilo ARC. Tareas inspiradas en el Alignment Research Center (ARC) se centran en rompecabezas de razonamiento novedosos, instrucciones de varios pasos y uso de herramientas. Investigan si un sistema puede resolver problemas que nunca ha visto componiendo habilidades de nuevas maneras. Los LLMs pueden realizar algunas de estas tareas, pero a menudo necesitan prompts cuidadosamente diseñados, herramientas externas y supervisión humana.
Pruebas de agencia. Las pruebas propuestas de “agente” preguntan si un sistema puede perseguir objetivos abiertos en el tiempo: descomponerlos en subobjetivos, revisar planes, manejar interrupciones y aprender de los resultados. Los agentes basados en LLM pueden aparentar agencia, pero detrás dependen de guiones frágiles y andamiaje diseñado por humanos.
Para tratar algo como una AGI genuina, querríamos ver al menos:
Autonomía. Debe fijarse y gestionar subobjetivos, monitorizar el progreso y recuperarse de fracasos sin intervención humana constante.
Transferencia entre dominios. Las habilidades aprendidas en un área deben trasladarse sin problemas a áreas muy diferentes, sin reentrenamiento con millones de ejemplos.
Competencia en el mundo real. Debe planificar y actuar en entornos caóticos e inciertos—físicos, sociales y digitales—donde las reglas son incompletas y las consecuencias reales.
Los LLMs, incluso cuando se envuelven en marcos de agente, generalmente:
Aprobar pruebas de chat, o incluso baterías de benchmarks estrechos, está muy lejos de ser suficiente. Reconocer una AGI verdadera implica mirar más allá de la calidad de la conversación hacia autonomía sostenida, generalización entre dominios y acción fiable en el mundo—áreas en las que los LLMs actuales aún requieren andamiaje extensivo solo para resultados parciales y frágiles.
Si tomamos la AGI en serio, entonces “un gran modelo de texto” es solo un ingrediente, no el sistema acabado. La mayor parte de la investigación actual que suena como “hacia la AGI” trata en realidad de envolver LLMs dentro de arquitecturas más ricas.
Una dirección principal son los agentes basados en LLM: sistemas que usan un LLM como núcleo de razonamiento y planificación, pero lo rodean con:
Aquí el LLM deja de ser la “inteligencia” completa y se convierte en una interfaz flexible de lenguaje dentro de una máquina de toma de decisiones más amplia.
Los sistemas que usan herramientas permiten a un LLM llamar motores de búsqueda, bases de datos, intérpretes de código o APIs específicas de dominio. Esto le ayuda a:
Este parche puede arreglar algunas debilidades del aprendizaje solo con texto, pero desplaza el problema: la inteligencia general del sistema depende de la orquestación y del diseño de herramientas, no solo del modelo.
Otra ruta son los modelos multimodales que procesan texto, imágenes, audio, video y a veces datos sensorios. Se acercan más a cómo los humanos integran percepción y lenguaje.
Un paso adicional es que los LLMs controlen robots o cuerpos simulados. Estos sistemas pueden explorar, actuar y aprender del feedback físico, abordando piezas faltantes sobre causalidad y comprensión fundamentada.
Todas estas vías pueden acercarnos más a habilidades tipo AGI, pero también cambian el objetivo de investigación. Ya no preguntamos “¿Puede un LLM por sí solo ser AGI?” sino “¿Puede un sistema complejo que incluya LLMs, herramientas, memoria, percepción y encarnación aproximar inteligencia general?”
Esa distinción importa. Un LLM es un predictor de texto potente. Una AGI—si es posible—sería un sistema integrado completo, en el que el lenguaje es solo una parte.
Llamar a los LLM actuales "AGI" no es solo un error de vocabulario. Distorsiona incentivos, crea puntos ciegos de seguridad y confunde a quienes deben tomar decisiones reales sobre la IA.
Cuando demos se presentan como “AGI temprana”, las expectativas se disparan mucho más allá de lo que los sistemas realmente pueden. Ese bombo tiene varios costos:
Si los usuarios creen que hablan con algo “general” o “casi humano”, tienden a:
La sobreconfianza hace que errores ordinarios sean mucho más peligrosos.
Reguladores y el público ya luchan por seguir el ritmo de las capacidades de la IA. Cuando cada autocompletado fuerte se marca como AGI, siguen varios problemas:
Términos claros—LLM, modelo estrecho, dirección de investigación AGI—ayudan a alinear expectativas con la realidad. Precisión sobre capacidades y límites:
Los LLM son máquinas de patrones excepcionalmente capaces: comprimen enormes cantidades de texto en un modelo estadístico y predicen continuaciones probables. Eso los hace potentes para ayuda en redacción, asistencia en código, exploración de datos y prototipado de ideas. Pero esa arquitectura sigue siendo estrecha. No proporciona un yo persistente, comprensión fundamentada del mundo, objetivos a largo plazo ni aprendizaje flexible entre dominios que define la inteligencia artificial general.
Los LLMs:
Estos límites estructurales explican por qué escalar modelos de texto solo probablemente no producirá una AGI real. Puedes obtener mejor fluidez, más recuerdo de conocimiento y simulaciones impresionantes de razonamiento, pero no un sistema que genuinamente sepa, desee o se preocupe.
Usa LLMs donde brille la predicción de patrones:
Mantén a un humano firmemente en el circuito para:
Trata las salidas como hipótesis que deben verificarse, no como verdades que deben tomarse al pie de la letra.
Llamar a los LLM "AGI" oculta sus límites reales e invita a la dependencia excesiva, a la confusión regulatoria y al miedo mal dirigido. Es más honesto—y más seguro—verlos como asistentes avanzados integrados en flujos de trabajo humanos.
Si quieres profundizar en usos prácticos y compensaciones, explora artículos relacionados en nuestro /blog. Para detalles sobre cómo empaquetamos y fijamos precio a herramientas con LLMs, véase /pricing.
AGI (Artificial General Intelligence) se refiere a un sistema que puede:
Una regla práctica: una AGI podría, en principio, aprender casi cualquier trabajo intelectual exigente que un humano pueda desempeñar, dadas tiempo y recursos, sin necesitar una arquitectura personalizada para cada tarea nueva.
Los LLM modernos son:
Pueden simular conocimiento y razonamiento amplio porque el lenguaje codifica mucha experiencia humana. Pero ellos:
La gente suele confundir el lenguaje fluido con inteligencia general porque:
Eso crea una ilusión de comprensión y agencia. El sistema subyacente sigue siendo “solo” predicción de texto basada en patrones de datos, no la construcción y uso de un modelo del mundo fundamentado para perseguir sus propios objetivos.
Puedes pensar en un LLM como:
Puntos clave:
Los LLM son excelentes cuando las tareas consisten principalmente en predicción de patrones sobre texto o código, como:
Se complican o resultan riesgosos cuando las tareas requieren:
Las “leyes de escalado” muestran que al aumentar tamaño del modelo, datos y cómputo, el rendimiento en muchos benchmarks mejora de forma predecible. Pero escalar por sí solo no corrige brechas estructurales:
Más escala da:
Usa los LLM como asistentes potentes, no como autoridades:
Diseña productos y procesos para que:
Etiquetar los LLM actuales como “AGI” genera varios problemas:
Un lenguaje más preciso—“LLM”, “modelo estrecho”, “sistema agente que usa LLMs”—ayuda a alinear expectativas con capacidades y riesgos reales.
Un conjunto plausible de criterios va más allá de una buena charla. Querríamos ver evidencia de:
Los investigadores exploran sistemas más amplios donde los LLM son componentes, no la inteligencia completa, por ejemplo:
Estas direcciones acercan la solución al añadir grounding, causalidad y estado persistente. También cambian la pregunta de “¿Puede un LLM ser AGI?” a “¿Pueden sistemas complejos LLMs aproximar comportamientos similares a AGI?”
Por eso los LLM son potentes aprendices de patrones estrechos sobre lenguaje, no agentes generalmente inteligentes autónomos.
Todo lo que parece razonamiento o memoria emerge de ese objetivo de siguiente-token más escala y ajuste fino, no de lógica simbólica explícita ni de una tienda de creencias persistente.
En esas áreas deben usarse solo con supervisión humana fuerte y herramientas externas (búsqueda, calculadoras, simuladores, listas de verificación).
No produce automáticamente una inteligencia general y autónoma. Se necesitan ingredientes arquitectónicos y diseños de sistema nuevos para eso.
Los LLM actuales, incluso con andamiaje de agente, requieren guiones humanos intensivos y orquestación de herramientas para aproximar estos comportamientos, y aún así fallan en robustez y generalidad.