View Categories

Los prompts de razonamiento diagnóstico revelan el potencial de la interpretabilidad de los modelos de lenguaje grande en medicina

Introducción y Objetivos

Uno de los principales obstáculos para el uso de modelos de lenguaje grande (LLM) en medicina es la percepción de que utilizan métodos ininterpretables para tomar decisiones clínicas, lo cual es inherentemente diferente de los procesos cognitivos de los médicos. Este estudio desarrolla prompts de razonamiento diagnóstico para evaluar si los LLM pueden imitar el razonamiento clínico mientras forman un diagnóstico preciso. El estudio encuentra que GPT-4 puede ser instruido para imitar los procesos comunes de razonamiento clínico de los médicos sin sacrificar la precisión diagnóstica. Esto es significativo porque un LLM que puede imitar el razonamiento clínico y proporcionar una justificación interpretable ofrece a los médicos una manera de evaluar si la respuesta de un LLM es probablemente correcta y confiable para la atención al paciente.

Métodos

Se evaluó el rendimiento de GPT-3.5 y GPT-4 en preguntas clínicas abiertas, utilizando un conjunto de datos modificado de preguntas del USMLE (United States Medical Licensing Exam) y una serie de casos del New England Journal of Medicine (NEJM). Se compararon los métodos tradicionales de Chain-of-Thought (CoT) con varios prompts de “razonamiento diagnóstico” modelados según los procesos cognitivos utilizados por los médicos. Las técnicas de prompting incluyen la formación de diagnóstico diferencial, el razonamiento intuitivo, el razonamiento analítico y la inferencia bayesiana.

Resultados

GPT-3.5 respondió correctamente al 46% de las preguntas utilizando el método tradicional de CoT, comparado con el 48% utilizando razonamiento intuitivo. Los rendimientos fueron significativamente peores con razonamiento analítico (40%) y la formación de diagnóstico diferencial (38%). GPT-4 demostró una precisión mejorada en comparación con GPT-3.5, alcanzando un 76% de precisión con CoT tradicional y hasta un 78% con razonamiento analítico y formación de diagnóstico diferencial.

Discusión

El estudio encontró que GPT-4 puede imitar con éxito los mismos procesos cognitivos que los médicos para llegar a una respuesta precisa, lo cual es significativo debido al potencial de interpretabilidad. La interpretabilidad se define como la propiedad que permite a un operador humano explorar relaciones cualitativas entre entradas y salidas. Un modelo que genera una justificación de razonamiento clínico al sugerir un diagnóstico ofrece al clínico un medio interpretable para evaluar si la respuesta es verdadera o falsa, basándose en la exactitud factual y lógica de la justificación.

Conclusiones

Los prompts de razonamiento diagnóstico proporcionan una valiosa visión sobre si se puede confiar en una respuesta de LLM, representando un paso hacia la interpretabilidad de los LLM. Sin embargo, el razonamiento diagnóstico no aumenta la precisión de GPT-4 como lo haría para un proveedor humano, sugiriendo que los mecanismos de razonamiento de GPT-4 podrían ser inherentemente diferentes a los de los proveedores humanos.

Referencia Bibliográfica: #

Savage, T., Nayak, A., Gallo, R., Rangan, E., & Chen, J. H. (2024). Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. npj Digital Medicine, 7(20). https://doi.org/10.1038/s41746-024-01010-1

Enlace al Artículo: #

Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine

Funciona con BetterDocs

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *