In a treatment center, medical experts team discuss patient care strategies. Licensed doctor pointing at heart and brain radiography scans on laptop, neurology and cardiology analysis.
05 Feb, 2025

Chat GPT V4 genera resultados mixtos en un cuestionario de imágenes en línea.

Los Institutos Nacionales de Salud de EE. UU. (NIH) han destacado un estudio que demostró que el modelo de IA multimodal GPT-4 Vision (GPT-4V) de OpenAI puede resolver preguntas de cuestionarios médicos basados en imágenes clínicas y un breve resumen de texto, pero era propenso a errores.

Los investigadores de los NIH probaron el modelo de IA y nueve médicos no radiólogos de diferentes especialidades en 207 preguntas del “Image Challenge” del New England Journal of Medicine. Tanto GPT-4V como los médicos obtuvieron puntuaciones altas en las respuestas de opción múltiple, sin embargo, GPT-4V a menudo cometía errores al describir la imagen y explicar el razonamiento detrás del diagnóstico, incluso cuando tomó la decisión final correcta.
“Como muestra este estudio, la IA aún no está lo suficientemente avanzada como para reemplazar la experiencia humana”, señaló el director interino de la Biblioteca Nacional de Medicina (NLM), Stephen Sherry, PhD, en un comunicado de prensa.

El “Image Challenge” del New England Journal of Medicine es un cuestionario en línea que proporciona imágenes clínicas reales y una breve descripción de texto que incluye detalles sobre los síntomas y la presentación del paciente. Pide a los usuarios que elijan el diagnóstico correcto entre respuestas de opción múltiple. El cuestionario incluye tomografía computarizada, rayos X, patología, resonancia magnética e imágenes clínicas macroscópicas.

En el estudio, publicado el 23 de julio del 2024 en NPJ Digital Medicine, nueve médicos y GPT-4V respondieron las preguntas asignadas primero en un entorno de “libro cerrado” (sin hacer referencia a ningún material externo como recursos en línea) y luego en un entorno “abierto”. -libro” (utilizando recursos externos).

Luego, los investigadores proporcionaron a los médicos la respuesta correcta, junto con la respuesta del modelo de IA y la justificación correspondiente. Finalmente, se pidió a los médicos que calificaran la capacidad del modelo de IA para describir la imagen, resumir el conocimiento médico relevante y proporcionar su razonamiento paso a paso.
Según los hallazgos, el modelo de IA y los médicos obtuvieron puntuaciones altas en la selección del diagnóstico correcto; el modelo de IA seleccionó el diagnóstico correcto con más frecuencia que los médicos en entornos de libro cerrado (81,6% a 77%), y los médicos con libro abierto. Las herramientas funcionaron mejor que la IA, produciendo una precisión del 95,2%. En particular, GPT4-V respondió correctamente 7 de las 10 preguntas que los médicos respondieron incorrectamente en el entorno de libro abierto.
Sin embargo, según las evaluaciones de los médicos, el modelo de IA a menudo cometía errores al describir la imagen médica y explicar su razonamiento.

En un ejemplo, al modelo de IA se le proporcionó una fotografía del brazo de un paciente con dos lesiones, que los médicos reconocerían fácilmente como causadas por la misma afección. Sin embargo, las lesiones se presentaron en diferentes ángulos, lo que provocó la ilusión de diferentes colores y formas, y GPT-4V no reconoció que podrían estar relacionadas con el mismo diagnóstico, dijeron los NIH.

Con información del artículo localizado en este link: Click

Categoría

Lo más nuevo

Etiqueta