Cómo cuantificar el progreso de la IA

¿Qué pasaría si la IA hiciera el examen de humanidad?

METATRENDS
Presentado por: Fountain Life
Peter Diamandis
Jueves 31 de julio
Glosado por Lampadia

Punto de referencia GPQA
(preguntas y respuestas de física de nivel de posgrado)

¿Qué es?

Los LLM [modelo de lenguaje de gran tamaño] son cada vez más inteligentes y están empezando a “aprobar sus exámenes de referencia” (el medio por el cual medimos su progreso).

Por ejemplo, el punto de referencia GPQA (Preguntas y Respuestas de Física de Nivel de Posgrado) (arriba) evalúa la capacidad de los modelos de IA para comprender y razonar problemas de física avanzados, similares a los que se encuentran en los exámenes de posgrado. Este año, los LLM alcanzan más del 90%; el próximo año, muchos modelos probablemente alcanzarán el 100%.

Recientemente, el modelo de razonamiento de OpenAI y DeepMind de Google obtuvieron 35 de 42 puntos en la Olimpiada Internacional de Matemáticas de 2025. El año que viene, es probable que obtengan la puntuación perfecta.

Entonces la pregunta es:

«¿Cómo medimos el rendimiento de estas IA cuando son tan inteligentes y terminan aprobando todos los exámenes de referencia que les aplicamos?»

¿Qué sucederá cuando la IA supere la capacidad humana en todas las pruebas que hemos diseñado? ¿Y ya no sepamos cómo hacerles preguntas cada vez más difíciles?

Por qué es importante

Nuestros modelos de evaluación de referencia para probar el progreso y las capacidades de la IA se están saturando.

A medida que el rendimiento de la IA se acerca al 100 % en estas pruebas, ¿cómo las comparamos? ¿Cómo graficamos sus capacidades? Necesitamos una nueva forma de probar los modelos de IA, IAG y ASI, cada vez más complejos.

Aquí hay una idea que discutí recientemente durante el episodio “WTF Just Happened in Tech” en mi podcast Moonshots .

¿Qué pasaría si creáramos un nuevo tipo de examen para nuestras IA superinteligentes… un examen basado en cómo benefician a la humanidad?

¿Qué tal si medimos la capacidad de la IA para resolver los grandes desafíos de la humanidad… entregándonos abundante energía, alimentos, agua, educación y salud?

¿Y qué tal si medimos la capacidad de una ASI para resolver nuestra crisis climática, curar todas las enfermedades o incluso resolver la muerte?

Hemos logrado avances significativos en la creación de un mundo más abundante…

La evidencia de una creciente abundancia está a nuestro alrededor:

La tasa mundial de alfabetización era de sólo el 21% en 1900 y hoy es más del 87% .
La mortalidad infantil en todo el mundo era de un alarmante 41% en 1900 y en 2023 había bajado al 3.7% .
O bien, tomemos como ejemplo la pobreza extrema , definida como vivir con menos de 3 dólares al día. En 1990, más del 43 % del mundo aún se ajustaba a esta definición y hoy en día se ha reducido al 9.9 % .

Afortunadamente, estos son sólo algunos de muchos ejemplos.

…Pero aún enfrentamos muchos grandes desafíos a escala global

El hecho es que aún nos enfrentamos a muchos más grandes desafíos.

Podemos empezar con los tres ejemplos anteriores.

¿Qué se necesitaría para alcanzar el 100% de alfabetización en todo el mundo o para reducir la tasa de mortalidad infantil y la pobreza extrema al 0%?

¿Cómo podrían los sistemas avanzados de IA ayudarnos a lograrlo?

Tomemos como ejemplo el hambre. En 2023, más del 9 % de la población mundial (casi 1 de cada 10 personas) seguía desnutrida, lo que significa que su ingesta diaria de alimentos no proporciona la energía suficiente para mantener una vida normal, activa y saludable.

Hemos logrado algunos avances en las últimas dos décadas, pero no los suficientes.

O consideremos las emisiones de carbono . Independientemente de su postura al respecto, las emisiones de CO2 han aumentado exponencialmente en las últimas décadas, como puede observarse en el gráfico a continuación.

Al mismo tiempo, sabemos que la IA y los centros de datos que impulsan los sistemas de IA tienen un apetito insaciable y creciente de más energía.

Según un informe reciente de la Agencia Internacional de la Energía (AIE), se prevé que la demanda de electricidad de los centros de datos a nivel mundial se duplique con creces para 2030, alcanzando los 945 teravatios-hora (TWh). Esto representa un poco más del consumo eléctrico total de Japón en la actualidad. La IA será el principal impulsor de este aumento, y se proyecta que la demanda de electricidad de los centros de datos optimizados para IA se cuadriplicará con creces para 2030.

¿Cómo podemos entonces orientar la IA hacia este problema no sólo para ayudarnos a satisfacer esta creciente demanda energética, sino también para hacerlo de manera que reduzca las emisiones de CO2 y nos ayude a enfrentar el desafío más amplio del cambio climático?

Midamos lo que importa: la capacidad de la IA para crear un mundo verdaderamente abundante

La verdadera cuestión no es que nos estemos quedando sin puntos de referencia. Es que tenemos la oportunidad de crear puntos de referencia que importen.

En lugar de medir si la IA puede resolver problemas matemáticos teóricos, midamos si puede resolver problemas reales.

Estos «puntos de referencia de abundancia» no solo evaluarán la inteligencia artificial de una IA, sino que medirán su impacto, utilidad y beneficio para la humanidad.

Es una oportunidad para redefinir qué pruebas son importantes.

Lampadia