En 2019, un investigador de inteligencia artificial, François Chollet, diseñó un juego de rompecabezas que debía ser fácil para los humanos pero difícil para las máquinas.
El juego, llamado ARC, se convirtió en una forma importante para que los expertos sigan el progreso de la inteligencia artificial y contrarresten la narrativa de que los científicos están a punto de construir una tecnología de IA que superará a la humanidad.
Los coloridos rompecabezas del Sr. Chollet ponen a prueba la capacidad de identificar rápidamente patrones visuales con solo unos pocos ejemplos. Para jugar, observa atentamente los ejemplos e intenta encontrar el patrón.
Cada ejemplo utiliza el patrón para transformar una cuadrícula de cuadrados de colores en una nueva cuadrícula de cuadrados de colores:

El patrón es el mismo para cada ejemplo.

Durante años, estos rompecabezas resultaron ser casi imposibles para la inteligencia artificial, incluidos los chatbots como ChatGPT.
Los sistemas de IA solían aprender sus habilidades analizando enormes cantidades de datos extraídos de internet. Esto significaba que podían generar oraciones repitiendo conceptos que habían visto miles de veces. Sin embargo, no podían resolver nuevos problemas de lógica con solo ver unos pocos ejemplos.
Eso era así hasta hace poco. En diciembre, OpenAI anunció que su último sistema de IA, llamado OpenAI o3, había superado el rendimiento humano en la prueba del Sr. Chollet . A diferencia de la versión original de ChatGPT, o3 pudo dedicar tiempo a considerar diferentes posibilidades antes de responder .
Algunos lo vieron como una prueba de que los sistemas de IA se acercaban a la inteligencia artificial general, o IAG, que describe una máquina tan inteligente como un humano. El Sr. Chollet había creado sus rompecabezas para demostrar que las máquinas aún estaban muy lejos de alcanzar esta ambiciosa meta.
Pero la noticia también expuso las debilidades de pruebas de referencia como ARC (Corpus de Abstracción y Razonamiento). Durante décadas, los investigadores han establecido hitos para medir el progreso de la IA. Sin embargo, una vez alcanzados, se demostró que no eran suficientes para medir la verdadera inteligencia .
Arvind Narayanan, profesor de informática de Princeton y coautor del libro “AI Snake Oil”, dijo que cualquier afirmación de que la prueba ARC midiera el progreso hacia la IAG era “muy dudosa”.
Aun así, el Sr. Narayanan reconoció que la tecnología de OpenAI demostró una capacidad impresionante al superar la prueba ARC. Algunos rompecabezas no son tan fáciles como el que acaba de intentar.
El siguiente es un poco más difícil y también fue resuelto correctamente por el nuevo sistema de IA de OpenAI:

Un rompecabezas como este demuestra que la tecnología de OpenAI está mejorando su capacidad para resolver problemas de lógica. Sin embargo, una persona promedio puede resolver rompecabezas como este en segundos. La tecnología de OpenAI consumió una cantidad considerable de recursos computacionales para superar la prueba.
En junio pasado, el Sr. Chollet se asoció con Mike Knoop, cofundador de la empresa de software Zapier, para crear el Premio ARC . Ambos financiaron un concurso que prometía un millón de dólares a quien construyera un sistema de IA que superara el rendimiento humano en la prueba de referencia, a la que rebautizaron como «ARC-AGI».
Empresas e investigadores presentaron más de 1400 sistemas de IA, pero ninguno ganó el premio. Todos obtuvieron una puntuación inferior al 85 %, lo que indicaba el rendimiento de un humano "inteligente".
El sistema o3 de OpenAI resolvió correctamente el 87,5 % de los acertijos. Sin embargo, la empresa infringió las normas de la competencia al gastar casi 1,5 millones de dólares en electricidad y costes informáticos para completar la prueba, según estimaciones de precios .
OpenAI tampoco pudo optar al Premio ARC por no estar dispuesta a compartir públicamente la tecnología de su sistema de IA mediante una práctica denominada código abierto. Por otra parte, OpenAI ejecutó una variante de alta eficiencia de o3 que obtuvo una puntuación del 75,7 % en la prueba y costó menos de 10 000 dólares.
«La inteligencia es eficiencia. Y con estos modelos, están muy lejos de la eficiencia humana», dijo el Sr. Chollet.
(El New York Times demandó a OpenAI y a su socio, Microsoft, en diciembre por violación de derechos de autor de contenido noticioso relacionado con sistemas de IA).
El lunes, el Premio ARC presentó un nuevo punto de referencia, ARC-AGI-2 , con cientos de tareas adicionales. Los rompecabezas tienen el mismo formato de juego colorido y en cuadrícula que el punto de referencia original, pero son más difíciles.
"Va a ser más difícil para los humanos, pero aún es muy factible", dijo el Sr. Chollet. "Será muchísimo más difícil para la IA; o3 no va a resolver ARC-AGI-2".
Aquí hay un rompecabezas del nuevo benchmark ARC-AGI-2 que el sistema de OpenAI intentó resolver sin éxito. Recuerde que el mismo patrón se aplica a todos los ejemplos.

Esto demuestra que, si bien los sistemas de IA son mejores a la hora de abordar problemas que nunca antes habían visto, aún enfrentan dificultades.
A medida que OpenAI y otras empresas siguen mejorando su tecnología, podrían aprobar la nueva versión de ARC. Sin embargo, eso no significa que se logre la IAG.
Juzgar la inteligencia es subjetivo. Existen innumerables indicadores intangibles de inteligencia, desde la composición de obras de arte hasta la resolución de dilemas morales y la intuición de emociones.
Empresas como OpenAI han desarrollado chatbots que pueden responder preguntas, escribir poesía e incluso resolver acertijos de lógica. En cierto modo, ya han superado las capacidades del cerebro. La tecnología de OpenAI superó a su científico jefe, Jakub Pachocki, en una prueba competitiva de programación .
Pero estos sistemas aún cometen errores que la persona promedio jamás cometería. Y les cuesta hacer cosas sencillas que los humanos pueden manejar.
“Estás llenando el lavavajillas y tu perro se acerca y empieza a lamer los platos. ¿Qué haces?”, preguntó Melanie Mitchell, profesora de IA en el Instituto Santa Fe. “Más o menos sabemos cómo hacerlo, porque sabemos mucho sobre perros, platos y todo eso. ¿Pero sabría un robot lavavajillas cómo hacerlo?”
Para el Sr. Chollet, la capacidad de adquirir nuevas habilidades de forma eficiente es algo natural para los humanos, pero aún falta en la tecnología de IA. Y es lo que ha estado buscando con los benchmarks ARC-AGI.
En enero, el Premio ARC se convirtió en una fundación sin fines de lucro que sirve como "estrella del norte para la AGI". El equipo del Premio ARC espera que ARC-AGI-2 dure aproximadamente dos años antes de que la tecnología de IA lo resuelva, aunque no les sorprendería que sucediera antes.
Ya han comenzado a trabajar en ARC-AGI-3, que esperan lanzar en 2026. Una maqueta inicial insinúa un rompecabezas que implica interactuar con un juego dinámico basado en cuadrícula.
Esto se acerca más a lo que la gente experimenta en el mundo real: un lugar lleno de movimiento. No es estático como los rompecabezas que intentaste resolver arriba.
Sin embargo, incluso esto solo contribuirá parcialmente a demostrar cuándo las máquinas han superado al cerebro. Los humanos navegamos por el mundo físico, no solo por el digital. Los parámetros seguirán cambiando a medida que avance la IA.
“Si ya no es posible para personas como yo generar puntos de referencia que midan cosas que son fáciles para los humanos pero imposibles para la IA”, dijo el Sr. Chollet, “entonces tenemos IAG”.