El examen del MIR 2025 ha sido especialmente difícil este año. Los modelos de IA sacan un sobresaliente

Escrito por Eduardo Peralta

La Inteligencia Artificial al Alcance de Todos

El Desafiante Examen del MIR 2025 y su Rendimiento frente a la Inteligencia Artificial

Un MIR especialmente difícil

El examen MIR de 2025 ha sido considerado por muchos expertos como uno de los más complejos hasta la fecha. Se ha criticado que las preguntas a menudo abarcan patologías raras que incluso los médicos especializados pueden tener dificultades para manejar. Esto plantea un desafío considerable no solo para los candidatos, sino también para las tecnologías emergentes que intentan emular el conocimiento médico.

Poniendo a prueba a los modelos de IA

Un grupo de investigadores en inteligencia artificial, liderado por Julian Isla de Microsoft, decidió evaluar cómo diferentes modelos de IA se desempeñaban en este arduo examen. El MIR consta de 210 preguntas tipo test, que incluyen una variedad de especialidades médicas y algunas asociadas a imágenes diagnósticas.

Versiones varias del examen

Se utilizaron diferentes versiones del examen para estas pruebas, siendo la Versión 0 la más destacada. Las respuestas fueron publicadas por el Ministerio de Sanidad, y los resultados han generado interés en la comunidad médica y tecnológica. Los candidatos pueden consultar los resultados a través de diversas plataformas en línea.

OpenAI o1 Pro: un rendimiento sobresaliente

Uno de los modelos más destacados fue OpenAI o1 Pro, que logró un impresionante 91,7% de respuestas correctas. Solo tuvo 17 respuestas incorrectas, de las cuales solo dos pertenecían a preguntas con imágenes. Este resultado ha sorprendido a la comunidad, considerando la complejidad del examen.

Claude y GPT-4o: un buen desempeño

Los modelos Claude 3.5 Sonnet y GPT-4o también mostraron resultados notables, alcanzando un 88,5% y un 84,7% de respuestas correctas respectivamente. Aunque Claude no es un modelo de razonamiento, su rendimiento sigue siendo impresionante dado el desafío del examen MIR.

DeepSeek R1: un notable alto

Por su parte, DeepSeek R1 logró un 83,8% de aciertos, demostrando que, aunque su rendimiento es inferior al de o1 Pro, sigue siendo muy competente. Esto es aún más sorprendente dado que ha requerido una inversión más baja en su entrenamiento.

El impacto de las respuestas en el examen

Es importante mencionar que el examen tipo test penaliza las respuestas incorrectas, lo que podría ser una desventaja para los modelos de IA, ya que estos siempre intentan responder, independientemente de su certeza. A pesar de esto, los modelos han mostrado un desempeño excepcional, especialmente en preguntas asociadas a imágenes.

La ventaja de la IA: un acceso sin precedentes a información

Uno de los aspectos que favorecen a estos modelos de inteligencia artificial es su entrenamiento previo con vastas bases de datos, incluyendo conocimientos médicos. Esto les permite acceder a una enorme cantidad de información, casi como si tuvieran una hoja de respuestas durante el examen, lo cual está prohibido para los examinados humanos.

Reflexiones finales sobre la inteligencia artificial en el ámbito médico

El rendimiento de estos modelos de IA en el examen MIR 2025 plantea preguntas interesantes sobre el futuro de la medicina y la formación de profesionales en este campo. Está claro que la inteligencia artificial está dando pasos firmes hacia la emulación del conocimiento y la toma de decisiones médicas, abriendo la puerta a nuevas posibilidades en la atención sanitaria.

Deja un comentario