La mayoría de los datos sanitarios del mundo real están disponibles de forma incompleta debido a las preocupaciones sobre la privacidad de los pacientes, las barreras regulatorias como la HIPAA y la naturaleza sensible de dichos datos. De ahí surge el concepto de datos sintéticos: datos artificiales, creados, que representan exactamente todas las propiedades estadísticas de un conjunto de datos del mundo real. Parece ser la transformación clave para el futuro de la atención sanitaria.
En este artículo, planeamos profundizar en las complejidades técnicas de los datos sintéticos, sus aplicaciones en la atención médica, cómo pueden cambiar la investigación clínica, el diagnóstico y la gestión de los pacientes, y las tecnologías que lo hacen posible.
Los datos sintéticos se consideran datos creados artificialmente con un comportamiento similar al de los datos reales. Para crear datos sintéticos se utilizan varios métodos, incluidos modelos estadísticos, algoritmos de aprendizaje automático y redes generativas antagónicas (GAN). Aunque los datos sintéticos no contienen ningún vínculo real a los archivos de los pacientes, no se pueden crear datos anónimos para proporcionar la complejidad de los escenarios de atención médica del mundo real.
Escalabilidad: Los datos sintéticos se pueden producir en cantidades masivas, lo que proporciona conjuntos variados para entrenar modelos de IA o ejecutar simulaciones.
La atención sanitaria es una actividad que requiere una gran cantidad de datos; los hospitales, los centros de investigación y las empresas farmacéuticas dependen en gran medida de los datos de los pacientes a la hora de tomar decisiones. Sin embargo, los datos sanitarios del mundo real son limitados en varios aspectos:
Los datos sintéticos resuelven estos desafíos y ofrecen alternativas éticas, escalables y rentables. Además, los conjuntos de datos enriquecidos sintéticamente pueden incluir diversas variables demográficas, enfermedades raras y tratamientos médicos poco comunes que los conjuntos de datos tradicionales tal vez no representen adecuadamente.
Existen muchos métodos de alta tecnología que permiten la generación artificial de datos. Entre los más populares se incluyen:
Las GAN son una de las técnicas de síntesis de datos que se aplican en el sector de la salud. Una GAN está formada por dos redes: un generador y un discriminador. El generador genera datos sintéticos y el discriminador intenta determinar si son reales o sintéticos. Con el tiempo, mejora la competencia del productor, proporcionando así datos de calidad realista.
Las GAN pueden aprender de los conjuntos de datos de imágenes médicas para producir imágenes de resonancia magnética, tomografías computarizadas o radiografías sintéticas, por ejemplo, que pueden usarse como datos de entrenamiento o para validar algunos algoritmos en aplicaciones de atención médica. Además, las GAN también se han utilizado para sintetizar datos sintéticos de registros médicos electrónicos (EHR) manteniendo intactas las relaciones de las variables clínicas sin revelar la identidad de los pacientes.
Ejemplo: código python
# Example of GAN-based synthetic data generation for EHR from keras.models import Sequential from keras.layers import Dense, LeakyReLU def build_generator(latent_dim): model = Sequential() model.add(Dense(256, input_dim=latent_dim)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(512)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(1024)) model.add(LeakyReLU(alpha=0.2)) model.add(Dense(784, activation='sigmoid')) return model
Este código es un generador simple para el modelo GAN que crea modelos de datos sintéticos que modelan las características de los datos de atención médica.
Los VAE son otro modelo generativo para sintetizar datos sintéticos de salud. Los VAE codifican los datos de entrada reales en un espacio latente. A partir de este espacio latente, se generan nuevos puntos de datos, que conservan las propiedades estadísticas del conjunto de datos original. Estos modelos son particularmente aplicables para generar conjuntos de datos de alta dimensión en el ámbito de la atención médica, como los conjuntos de datos genómicos u ómicos.
Las redes bayesianas son modelos gráficos que representan relaciones probabilísticas entre diversas variables. En el ámbito sanitario, estas redes serían especialmente útiles para generar datos sintéticos que reflejen una relación causal, como la evolución de una enfermedad o los efectos de un régimen de tratamiento.
Los datos sintéticos han revolucionado la imagenología médica al ofrecer una solución alternativa a la disponibilidad limitada de conjuntos de datos anotados necesarios para entrenar modelos de aprendizaje automático. En este sentido, las GAN y las VAE son técnicas útiles para sintetizar imágenes de resonancia magnética, tomografía computarizada o rayos X. El uso de estas imágenes sintéticas ayuda a los radiólogos y a los algoritmos de IA a detectar anomalías en las exploraciones médicas con gran precisión. Los datos de imágenes sintéticas brindan además a los investigadores la oportunidad de entrenar modelos de aprendizaje profundo sin problemas de escasez de datos o traicionar la privacidad del paciente.
Ejemplo: imágenes de resonancia magnética generadas por GAN: en un experimento reciente sobre segmentación de tumores cerebrales, los investigadores utilizaron GAN para generar imágenes sintéticas de imágenes de resonancia magnética de tumores. Pudieron entrenar modelos de aprendizaje profundo para detectar esos casos con mayor precisión sin necesidad de grandes cantidades de datos de pacientes.
Se considera que los datos sintéticos deben utilizarse junto con los datos clínicos tradicionales, y esto se aplica especialmente a las áreas de enfermedades raras en las que es difícil conseguir pacientes para los estudios. Las cohortes sintéticas permiten al investigador simular los resultados de los pacientes bajo diferentes protocolos de tratamiento, acelerando así el descubrimiento y la prueba de fármacos.
Por ejemplo, los registros médicos electrónicos sintéticos pueden permitir a las compañías farmacéuticas simular los resultados de los tratamientos para cohortes virtuales de pacientes, lo que permitirá probar hipótesis y comprobar la eficacia de los medicamentos y, muy probablemente, reducir el tiempo y el coste de los ensayos clínicos.
Los datos sintéticos simplificarán el proceso de aumento de datos en el aprendizaje automático, lo que permitirá modelos predictivos más sólidos. Los registros de pacientes sintéticos o los datos de imágenes pueden ayudar a complementar pequeños conjuntos de datos en el ámbito de la atención médica, lo que mitiga el sobreajuste y permite una mayor generalización de los modelos de IA.
La genómica sintética, o la generación de datos ómicos, abre nuevos caminos para la medicina de precisión en este sentido. Los investigadores pueden estudiar cómo ciertas mutaciones genéticas afectan el riesgo de enfermedad o las respuestas al tratamiento de una manera que debería ofrecer terapias personalizadas dentro de conjuntos de datos sintéticos que reflejen la genética del paciente.
Aunque los datos sintéticos tienen mucho valor, plantean algunas cuestiones éticas y regulatorias muy importantes:
Marcos regulatorios: Los reguladores de la atención médica aún están tratando de entender cómo clasificar los datos sintéticos. Dado que dichos datos no provienen de pacientes reales, es posible que estén fuera del alcance de las regulaciones existentes o de la jurisdicción de las agencias regulatorias. No obstante, deben cumplir con los requisitos éticos para el uso de la IA en la atención médica.
Sesgo en la generación de datos: la síntesis de datos de cualquier modelo tiene algunos sesgos o fallas. Estos pueden hacer que el conjunto de datos resultante refleje dichas imperfecciones y genere resultados de investigación erróneos o sesgados o predicciones de IA erróneas.
Validación: los datos sintéticos deben validarse para garantizar su fidelidad y validez. El hecho de que los datos sintéticos reflejen datos realistas no significa que sean lo suficientemente buenos para aplicaciones sanitarias urgentes.
Algunas de las herramientas y marcos avanzados que han surgido recientemente para respaldar la generación de datos sintéticos de atención médica son los siguientes:
CTGAN: Abreviatura de Conditional Tabular GAN, una herramienta de código abierto para producir datos tabulares sintéticos. Se utiliza habitualmente en el ámbito de la atención sanitaria para sintetizar registros médicos electrónicos.
Synthpop : es una herramienta de R para producir versiones sintéticas de datos confidenciales. Se ha utilizado ampliamente para generar conjuntos de datos que preservan la privacidad en el ámbito de la atención médica.
Sintetizador de datos: un sintetizador de código abierto que genera conjuntos de datos sintéticos con privacidad preservada. La herramienta admite modelos de modo de atributo aleatorio, independiente y correlacionado.
Los datos sintéticos tienen un potencial enorme en el ámbito de la atención sanitaria. La mejora de la IA y los modelos generativos pueden acelerar significativamente la innovación en algunas áreas:
Telemedicina: con el creciente concepto de telemedicina, puede ser posible diseñar conjuntos de datos de entrenamiento basados en datos sintéticos para sistemas de IA involucrados en el monitoreo y diagnóstico remoto de pacientes.
IA en el diagnóstico: el entrenamiento con datos sintéticos que simulan enfermedades raras o menos representadas puede aumentar la precisión del diagnóstico de enfermedades de los pacientes por parte de los sistemas de atención médica, especialmente en enfermedades raras.
**Investigación interinstitucional:**Los datos sintéticos pueden garantizar el intercambio seguro de datos sanitarios entre instituciones. Esto facilita la colaboración global sin añadir más problemas relacionados con la privacidad.
Los datos sintéticos representan un cambio de paradigma en la atención médica porque permiten que los datos superen sus posibles deficiencias en materia de acceso, escalabilidad y privacidad. Los investigadores, los médicos y los desarrolladores de IA tendrían libertad para innovar sin comprometer la privacidad del paciente ni los estándares éticos. Con la innovación continua en modelos generativos, incluidas las GAN, las VAE y las redes bayesianas, los datos sintéticos serán fundamentales para dar forma al futuro de la atención médica, desde los ensayos clínicos y los diagnósticos hasta la medicina personalizada.
Al utilizar esta tecnología de manera responsable, el sector de la salud puede abrir posibilidades sin precedentes en la atención al paciente, la investigación y la innovación.