La IA acierta el 76% de las preguntas médicas, pero su 24% de errores preocupa a los expertos

Un estudio de la Universidad de Pensilvania revela que los asistentes de IA responden bien tres de cada cuatro veces, pero en neurología y dermatología los fallos son preocupantes. La tasa de error duplica la de los médicos humanos.

Yo también he usado ChatGPT para preguntarle qué me pasa cuando me duele la barriga. Y después de leer este estudio, voy a pensármelo dos veces. Un equipo de la Universidad de Pensilvania acaba de poner a prueba a los asistentes de inteligencia artificial con preguntas de salud cotidianas, de las que haría cualquier persona en su sofá, y el resultado es un caramelo envenenado: la IA acierta tres de cada cuatro veces, pero se equivoca en una de cada cuatro.

Un 76% de acierto suena bien, pero el 24% de fallos te puede costar un susto

Los investigadores organizaron una competición llamada Diagnose-a-thon en la que 34 participantes presentaron 212 preguntas médicas generadas con ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro y Llama3-8b, desde la perspectiva del paciente y del médico. Nueve médicos certificados evaluaron las respuestas y el veredicto fue claro: el 76,2% de las respuestas contenían información precisa. Eso sí, la tasa de error duplica la de los médicos humanos, y en algunas especialidades los sustos son más gordos.

Las preguntas de obstetricia o ginecología obtuvieron las puntuaciones más altas en validez y las más bajas en riesgo. Donde la IA mete la pata sin miramientos es en neurología, dermatología y medicina interna: las respuestas pierden precisión y el daño potencial sube. Vamos, que no es lo mismo preguntar por un sarpullido que por un dolor de cabeza raro; en el segundo caso, un error puede ser peligroso.

Publicidad

El estudio, que se presentará a finales de junio en la conferencia FAccT 2026 de Montreal, también desvela que las preguntas muy específicas y las que tenían entre 60 y 250 caracteres dieron mejores resultados. La IA se maneja mejor con lo concreto que con lo genérico, igual que cuando le pides que te resuma un artículo largo en lugar de preguntarle por el sentido de la vida.

La inteligencia artificial no va a quitarte el médico, pero usarla sin cabeza sí puede quitarte la tranquilidad.

¿Debo fiarme de ChatGPT para un diagnóstico?

La respuesta corta es que no. Los propios autores insisten en que estas herramientas, sin el filtro de un profesional, cometen errores “no desdeñables”. Incluso cuando los investigadores entrenaron los modelos con libros de texto médicos, guías clínicas y artículos revisados por pares, el panel de evaluadores médicos no prefirió de forma clara a los modelos “aumentados” respecto a los básicos. En algunos casos, las respuestas base de Gemini y Llama gustaron más que las versiones con formación extra.

Amulya Yadav, coautor del estudio y profesor en Penn State, lo resume así: querían entender cómo la persona promedio usa la IA para temas de salud, igual que antes tiraba de Google, y cuán dañinas pueden ser esas respuestas. La realidad es que la gente seguirá consultando a la IA cuando le pique algo o le duela la cabeza, y ahí está el quid: el riesgo no es la tecnología, sino el uso sin supervisión.

La IA en salud no es el enemigo, pero tampoco tu médico de cabecera

Jennifer Kraschnewski, otra de las firmantes, cree que la oportunidad gigante está en que los médicos usen la IA para mejorar la atención, no en que los pacientes se autodiagnostiquen. En el fondo es la misma historia de siempre con la tecnología: una herramienta brutal si quien la maneja sabe leer sus letras pequeñas.

El dato definitivo lo da la tasa de error: un 24% de fallos, el doble que un humano. Si cada vez que metes un síntoma en el buscador te da un cáncer raro, imagina lo que puede soltar un modelo entrenado con todo internet sin un criterio clínico detrás. Así que, por ahora, el sentido común sigue sin necesitar batería.

🧠 Para soltarlo en la cena

Solo tres de cada cuatro preguntas médicas a la IA son correctas.