Revolución en la Programación: Conoce o3 de OpenAI

Un Lanzamiento Inesperado

El lanzamiento del modelo o3 por OpenAI ha causado expectación, aunque su anuncio pasó desapercibido debido a la rapidez con la que fue presentado, apenas tres meses después de la llegada de o1. Aunque todavía no está disponible para el público, las primeras impresiones sugieren que estamos ante un modelo excepcional con capacidades mejoradas en razonamiento y programación.

Expectativas Moderadas en OpenAI

Sam Altman, CEO de OpenAI, ha mantenido un discurso cauteloso sobre o3, haciendo más énfasis en su versión mini, que promete menores costos y latencias. Nat McAleese, un investigador del equipo, ha destacado el desempeño impresionante de o3 en las pruebas, llamándolo «muy, muy impresionante».

Programación: Un Salto Cuantitativo

En cuanto a su capacidad para programar, o3 ha superado las métricas de sus predecesores. Mientras que GPT-4o alcanzó un 31% en el benchmark SWE-bench Verified, o3 logró un asombroso 71,7%. Este avance representa un salto significativo en habilidades de programación, destacando el potencial de o3 en el sector de la ingeniería de software.

Desempeño en Programación Competitiva

En el benchmark de Codeforces, que evalúa habilidades en programación competitiva, o3 ha obtenido 2.727 puntos, posicionándose como uno de los mejores competidores, en el percentil 99,7 de la clasificación, solo superado por un puñado de programadores humanos. Esta puntuación contrasta enormemente con los resultados de modelos como DeepMind AlphaCode 2, ofreciendo una perspectiva del avance que o3 representa.

Conocimientos Científicos Superiores

El modelo también ha demostrado competencia en pruebas científicas, logrando un 87,7% en el test GPQA Diamond, superando a otros modelos que apenas alcanzaban el 50%. Esto imprime una mejora notable en la capacidad del modelo para manejar preguntas complejas en ciencia y matemáticas.

Un Nuevo Desafío en Matemáticas

En el ámbito de las matemáticas, o3 ha superado a sus predecesores en el benchmark FrontierMath, un test creado por Epoch AI que es considerado extremadamente difícil incluso para los mejores matemáticos. O3 ha logrado un 25,2%, un avance sin precedentes en el cálculo y la resolución de problemas complejos.

La Cuestión de la AGI

La discusión sobre si o3 puede ser considerado una inteligencia artificial general (AGI) sigue en pie. François Chollet, uno de los creadores del benchmark ARC-AGI, destaca que, aunque o3 ha mostrado resultados sorprendentes, aún enfrenta desafíos en tareas triviales que son fáciles para los humanos. Se prevé que una nueva versión de este benchmark seguirá planteando retos significativos.

Incertidumbre sobre Precios

El costo de acceso a o3 aún es incierto, pero se anticipa que será elevado, al igual que su versión mini, la cual se espera sea más accesible y esté disponible a principios de 2025. Esto podría transformar la forma en que los usuarios interactúan con la inteligencia artificial en distintas aplicaciones.

Hacia un Futuro Prometedor

La introducción de o3 indica un futuro emocionante y desafiante para la inteligencia artificial en áreas como la programación y el razonamiento. OpenAI parece estar bien posicionada para diversificar su oferta y satisfacer diferentes necesidades del mercado, comenzando una nueva era en la que la IA se vuelve cada vez más eficiente, precisa y capaz de resolver problemas complejos.

o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita