Si está buscando una nueva razón para estar nervioso por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del mundo están luchando para crear pruebas que los sistemas de IA no pueden pasar.

Durante años, los sistemas de IA se midieron dando a los nuevos modelos una variedad de pruebas de referencia estandarizadas. Muchas de estas pruebas consistieron en problemas desafiantes del calibre de S.A.T. en áreas como matemáticas, ciencias y lógica. La comparación de las puntuaciones de los modelos a lo largo del tiempo sirvió como una medida aproximada del progreso de la IA.

Pero los sistemas de IA eventualmente se volvieron demasiado buenos en esas pruebas, por lo que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que los estudiantes de posgrado podrían encontrar en sus exámenes.

Esas pruebas tampoco están en buen estado. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido altas puntuaciones en muchos desafíos de nivel de doctorado, lo que limita la utilidad de esas pruebas y lleva a una pregunta escalofriante: ¿Los sistemas de IA se están volviendo demasiado inteligentes para que podamos medirlos?

Esta semana, los investigadores del Centro para la Seguridad y la Escala de la IA están publicando una posible respuesta a esa pregunta: una nueva evaluación, llamada "El último examen de la humanidad", que afirman es la prueba más difícil jamás administrada a los sistemas de inteligencia artificial.

Humanity's Last Exam es una creación de Dan Hendrycks, un conocido investigador de seguridad de IA y director del Centro para la Seguridad de la IA. (El nombre original de la prueba, "La última batalla de la humanidad", fue descartado por ser demasiado dramático).

Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de aproximadamente 3.000 preguntas de opción múltiple y respuesta corta diseñadas para evaluar las capacidades de los sistemas de inteligencia artificial en áreas que van desde la filosofía analítica hasta la ingeniería de cohetes.

Las preguntas fueron enviadas por expertos en estos campos, incluidos profesores universitarios y matemáticos galardonados, a quienes se les pidió que formularan preguntas extremadamente difíciles para las que supieran las respuestas.

Selecciones de los editores

Questlove habla sobre el análisis de 50 años de música para su documental 'S.N.L.'

Lea estos libros antes de que lleguen a sus pantallas en 2025

10 mitos intestinales, corregidos

Aquí, pruebe a responder una pregunta sobre la anatomía de los colibríes de la prueba:

Los colibríes dentro de Apodiformes tienen un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción de m. depressor caudae. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde con un número.

O, si lo tuyo es la física, prueba esta:

Un bloque se coloca sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unido al extremo de una varilla rígida y sin masa de longitud R. Se adjunta una masa en el otro extremo. Ambos objetos tienen un peso W. El sistema es inicialmente estacionario, con la masa directamente sobre el bloque. A la masa se le da un empuje infinitesimal, paralelo al riel. Suponga que el sistema está diseñado para que la varilla pueda girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, lleva la tensión T1. Cuando la varilla vuelve a estar vertical, con la masa directamente debajo del bloque, lleva la tensión T2. (Ambas cantidades podrían ser negativas, lo que indicaría que la varilla está en compresión). ¿Cuál es el valor de (T1−T2)/W?

(Imprimiría las respuestas aquí, pero eso estropearía la prueba para cualquier sistema de IA que se esté entrenando en esta columna. Además, soy demasiado tonto para verificar las respuestas yo mismo).

Humanity's Last Exam es una creación de Dan Hendrycks, investigador de seguridad de IA y director del Centro para la Seguridad de la IA. Guerin Blask para The New York Times

Las preguntas del último examen de la humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, se entregaron preguntas a los principales modelos de IA para que las resolvieran.

Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos lo hacían peor que por adivinación aleatoria), las preguntas se entregaban a un conjunto de revisores humanos, que las refinaban y verificaban las respuestas correctas. A los expertos que escribieron las preguntas mejor calificadas se les pagó entre $500 y $5,000 por pregunta, además de recibir crédito por contribuir al examen.

Kevin Zhou, investigador postdoctoral en física teórica de partículas en la Universidad de California, Berkeley, sometió un puñado de preguntas a la prueba. Se eligieron tres de sus preguntas, todas las cuales, me dijo, estaban "en el rango superior de lo que uno podría ver en un examen de posgrado".

Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada conocida como Comprensión Masiva del Lenguaje Multitarea, o M.M.L.U., dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk. (Hendrycks también es asesor de seguridad de la compañía de inteligencia artificial de Musk, xAI). Musk, dijo, expresó su preocupación por las pruebas existentes que se realizan a los modelos de inteligencia artificial, que pensaba que eran demasiado fáciles.

"Elon miró las preguntas de M.M.L.U. y dijo: 'Estas son de nivel universitario. Quiero cosas que un experto de clase mundial pueda hacer'", dijo Hendrycks.

Existen otras pruebas que intentan medir las capacidades avanzadas de la IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de la IA François Chollet.

Pero Humanity's Last Exam tiene como objetivo determinar qué tan buenos son los sistemas de IA para responder preguntas complejas en una amplia variedad de temas académicos, dándonos lo que podría considerarse como una puntuación de inteligencia general.

"Estamos tratando de estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil", dijo Hendrycks.

Una vez que se compiló la lista de preguntas, los investigadores dieron el último examen de la humanidad a seis modelos líderes de inteligencia artificial, incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic. Todos ellos fracasaron estrepitosamente. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con una puntuación del 8,3 por ciento.

(The New York Times ha demandado a OpenAI y a su socio, Microsoft, acusándolos de infringir los derechos de autor de contenido noticioso relacionado con los sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).

Hendrycks dijo que esperaba que esos puntajes aumentaran rápidamente, y potencialmente superaran el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse "oráculos de clase mundial", capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos. Y es posible que tengamos que buscar otras formas de medir los impactos de la IA, como observar los datos económicos o juzgar si puede hacer descubrimientos novedosos en áreas como las matemáticas y la ciencia.

"Se puede imaginar una versión mejor de esto en la que podamos dar preguntas de las que aún no sabemos las respuestas, y podamos verificar si el modelo es capaz de ayudar a resolverlo por nosotros", dijo Summer Yue, directora de investigación de Scale AI y organizadora del examen.

Parte de lo que es tan confuso sobre el progreso de la IA en estos días es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades de manera más efectiva que los médicos humanos, ganando medallas de plata en la Olimpiada Internacional de Matemáticas y venciendo a los mejores programadores humanos en desafíos competitivos de codificación.

Pero estos mismos modelos a veces luchan con tareas básicas, como la aritmética o la escritura de poesía métrica. Eso les ha dado una reputación de ser asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes de lo rápido que está mejorando la IA, dependiendo de si se trata de los mejores o los peores resultados.

Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones para los sistemas de inteligencia artificial. Sigo creyendo en eso. Pero también creo que necesitamos métodos más creativos para rastrear el progreso de la IA que no se basen en pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos, y lo que tememos que la IA haga mejor que nosotros, no se puede capturar en un examen escrito.

Zhou, el investigador teórico de física de partículas que presentó las preguntas al último examen de la humanidad, me dijo que si bien los modelos de IA a menudo eran impresionantes para responder preguntas complejas, no los consideraba una amenaza para él y sus colegas, porque sus trabajos implican mucho más que escupir respuestas correctas.

"Hay un gran abismo entre lo que significa hacer un examen y lo que significa ser un físico e investigador en ejercicio", dijo. "Incluso una IA que pueda responder a estas preguntas podría no estar lista para ayudar en la investigación, que es inherentemente menos estructurada".