Contexto y Problemas de Privacidad
La inteligencia artificial (IA) ha transformado la investigación en radiología, requiriendo extensos conjuntos de datos para entrenar algoritmos eficaces en la clasificación de radiografías, segmentación de lesiones y predicción de eventos médicos. Sin embargo, la manipulación de estos datos plantea serias preocupaciones sobre la privacidad, ya que las imágenes médicas contienen información sensible de los pacientes. Al usar datos de múltiples instituciones, es crucial eliminar todos los identificadores, tanto en los encabezados de DICOM como en los datos de imagen. Aunque se han desarrollado técnicas avanzadas para eliminar identificadores, las imágenes pueden revelar detalles identificables a través de características anatómicas únicas o dispositivos médicos.
Aprendizaje Federado y Problemas de Privacidad
Una solución para los problemas de privacidad implica entrenar y evaluar modelos sin compartir los datos de imagen subyacentes entre instituciones, transmitiendo solo el modelo. No obstante, este método no es infalible, ya que los parámetros y pesos del modelo pueden reconstruir las imágenes de entrenamiento con alta fidelidad. El aprendizaje federado, una técnica popular para distribuir modelos de entrenamiento en múltiples sitios, es susceptible a este ataque porque los pesos del modelo se comparten entre los sitios individuales.
Privacidad Diferencial (DP)
La privacidad diferencial (DP) es un marco matemático diseñado para formalizar e implementar la privacidad, proporcionando información sobre grupos sin comprometer los datos individuales. En un ejemplo práctico, si se conoce la edad promedio de un grupo de pacientes antes y después de la admisión de un nuevo paciente, es posible deducir la edad del nuevo paciente. Para hacer el algoritmo diferentemente privado, se puede agregar un número pequeño y aleatorio a cada edad antes de calcular el promedio. Esta estrategia introduce inexactitud y aleatoriedad, dificultando la deducción de datos exactos del nuevo paciente.
Aplicación de DP en IA Médica
La DP se ha aplicado recientemente al análisis de imágenes médicas. En 2013, Song et al. integraron DP en el descenso de gradiente estocástico, el método principal para entrenar clasificadores de imágenes tempranas. Esto se logró introduciendo aleatoriedad en el proceso de actualización de los parámetros del modelo mientras aprendía con datos de entrenamiento. Esta técnica se implementó en TensorFlow y PyTorch, las bibliotecas más populares para el desarrollo de programas de IA. En 2021, Ziller et al. reportaron la creación de IA utilizando DP para detectar neumonía y segmentar órganos en imágenes de TC, demostrando una disminución significativa en el rendimiento del modelo con la adición de DP en el entrenamiento.
Estudio de Caso: Tayebi Arasteh et al.
En un estudio reciente, Tayebi Arasteh y colegas aplicaron DP de manera diferente, comparando el rendimiento del modelo base con y sin DP cuando se evalúa en datos fuera de distribución, es decir, datos de otra institución. Utilizaron 590,000 radiografías de tórax de cinco instituciones para entrenar y evaluar un modelo base (ResNet9) con y sin entrenamiento DP. Encontraron que el rendimiento fue similar para ambos modelos cuando se evaluaron en datos fuera de la institución de entrenamiento. Este resultado sugiere que la estrategia de entrenamiento DP introduce aleatoriedad en el proceso de entrenamiento, mitigando el sobreajuste y promoviendo la generalización a otros conjuntos de datos.
Resultados y Futuras Direcciones
Los autores replicaron sus resultados en otras dos arquitecturas de red (ResNet18 y EfficientNet B0) y proporcionaron análisis de recursos computacionales, mostrando que las variantes DP de los modelos base tardaron hasta 10 veces más en entrenarse. Propusieron futuras direcciones de investigación, incluyendo la aplicación de DP a tareas de clasificación y segmentación de imágenes tridimensionales, así como cambiar la aplicación del dominio al análisis de diapositivas histológicas.
Conclusiones
La integración de DP en la IA médica presenta un prometedor y desafiante horizonte. Los hallazgos de Tayebi Arasteh y colegas proporcionan valiosos insights sobre la aplicación de DP en un contexto multi-institucional, destacando su potencial para mantener la eficacia del modelo mientras se salvaguarda la privacidad del paciente. A medida que la IA continúa evolucionando en el ámbito de la salud, equilibrar las imperativas duales de privacidad y rendimiento seguirá siendo un área clave de enfoque, requiriendo investigación continua y soluciones innovadoras.
Referencia Bibliográfica: Suri, A., & Summers, R. M. (2024). Safeguarding Medical Data in Imaging AI Using Differential Privacy Techniques. Radiology: Artificial Intelligence, 6(1), e230560. https://doi.org/10.1148/ryai.230560
Enlace al artículo: Safeguarding Medical Data in Imaging AI Using Differential Privacy Techniques