Sin embargo, nuevos modelos de compañías como OpenAI, Google y Anthropic han estado obteniendo altas puntuaciones en muchos retos a nivel de doctorado, lo que limita la utilidad de esas pruebas y lleva a una interrogante: ¿Acaso los sistemas de IA se están volviendo demasiado inteligentes para que podamos medirlos?
El mes pasado, investigadores en el Centro para la Seguridad de IA y en Scale IA dieron a conocer una evaluación llamada “El Último Examen de la Humanidad”, que afirman que es la prueba más difícil jamás aplicada a sistemas de IA. Es creación de Dan Hendrycks, el director del centro. Hendrycks trabajó con Scale AI, donde es un asesor, para compilar el examen, que consta de unas 3.000 preguntas de opción múltiple y de respuesta corta diseñadas para poner a prueba las capacidades de sistemas de IA en áreas que van desde filosofía analítica hasta ingeniería aeroespacial. Las preguntas fueron enviadas por expertos en estos campos.
Preguntas enviadas por expertos
He aquí una pregunta sobre la anatomía del colibrí:
Dentro de los apodiformes, los colibríes tienen un hueso ovalado pareado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de la inserción del músculo depresor caudae. ¿Cuántos tendones pareados sostiene este hueso sesamoideo?
A continuación, otra sobre física:
Un bloque es colocado sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unido al extremo de una varilla rígida sin masa de longitud R. Una masa está unida al otro extremo. Ambos objetos tienen un peso W. El sistema está inicialmente estacionario, con la masa directamente arriba del bloque. La masa recibe un empuje infinitesimal, paralelo al riel.
Suponga que el sistema está diseñado de modo que la varilla puede girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, soporta una tensión T1. Cuando la varilla está nuevamente en posición vertical, con la masa directamente debajo del bloque, soporta una tensión T2. ¿Cuál es el valor de (T1-T2)/W?
Las preguntas pasaron por un proceso de filtro. Primero, las preguntas enviadas fueron entregadas a los modelos de IA más destacados para que las resolvieran. Si los modelos no podían responderlas, las preguntas eran entregadas a un grupo de correctores humanos, quienes las afinaban y verificaban las respuestas correctas.
Kevin Zhou, un investigador postdoctoral en física teórica de partículas en la Universidad de California, en Berkeley, presentó tres preguntas que fueron seleccionadas, de las cuales, todas estaban “en el rango superior de lo que uno podría ver en un examen de posgrado”, señaló.
Hay otras pruebas que intentan medir las capacidades avanzadas de la IA en ciertos campos. Pero el Último Examen de la Humanidad busca determinar qué tan buenos son los sistemas de IA en una amplia variedad de temas, al darnos lo que se podría considerar una puntuación de inteligencia general.
“Tratamos de estimar hasta qué grado la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil”, explicó Hendrycks.
Los investigadores dieron el examen a seis modelos destacados de IA, entre ellos Gemini 1.5 Pro, de Google, y Claude 3.5 Sonnet, de Anthropic. Todos reprobaron estrepitosamente. El sistema o1 de OpenAI obtuvo el mejor resultado, con una puntuación de 8.3 sobre 100. Hendrycks dijo anticipar que esas puntuaciones suban rápidamente y potencialmente superen una puntuación de 50 para fin de año.
En ese punto, los sistemas de IA podrían ser considerados “oráculos de primera”, capaces de responder preguntas sobre cualquier tema de manera más precisa que expertos humanos. Parte de lo que es tan confuso sobre el avance de la IA es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades con mayor eficacia que médicos humanos, ganar medallas de plata en la Olimpiada Internacional de Matemáticas y vencer a los mejores programadores humanos en competencias de codificación.
Sin embargo, estos mismos modelos a veces batallan con tareas básicas, como aritmética o escribir poesía métrica. Eso ha creado distintas impresiones de la rapidez con la que mejora la IA, dependiendo de si se analizan los mejores o los peores resultados.