Datos sintéticos en la atención sanitaria.

Datos sintéticos en la atención sanitaria: definición, beneficios y desafíos

Imagine un escenario en el que los investigadores estén desarrollando un nuevo fármaco. Necesitan una gran cantidad de datos de los pacientes para realizar las pruebas, pero existen importantes preocupaciones sobre la privacidad y la disponibilidad de los datos.

Aquí, los datos sintéticos ofrecen una solución. Proporciona conjuntos de datos realistas pero completamente artificiales que imitan las propiedades estadísticas de los datos de pacientes reales. Este enfoque permite una investigación exhaustiva sin comprometer la confidencialidad del paciente.

Donald Rubin fue pionero en el concepto de datos sintéticos a principios de los años 90. Generó un conjunto de datos anónimos de respuestas al censo de EE. UU., que refleja las propiedades estadísticas de los datos reales del censo. Esto marcó el creación de uno de los primeros conjuntos de datos sintéticos que se alinea estrechamente con las estadísticas reales de población del censo.

La aplicación de datos sintéticos está ganando impulso rápidamente. Accenture lo reconoce como una tendencia clave en Ciencias de la Vida y MedTech. Similarmente, Pronósticos de Gartner que para 2024, los datos sintéticos constituirán el 60% del uso de datos.

En este artículo, hablaremos sobre datos sintéticos en la atención sanitaria. Exploraremos su definición, cómo se genera y sus posibles aplicaciones.

¿Qué son los datos sintéticos en la atención sanitaria?

Datos originales:

ID del paciente: 987654321
Años: 35
Género: Hombre
Raza: Blanco
Origen étnico: Hispano
Historial médico: hipertensión, diabetes
Medicamentos actuales: lisinopril, metformina
Resultados de laboratorio: Presión arterial 140/90 mmHg, azúcar en sangre 200 mg/dL
Diagnóstico: Diabetes tipo 2

Datos sintéticos:

ID del paciente: 123456789
Años: 38
Género: Mujer
Raza: Negro
Origen étnico: No hispano
Historial médico: Asma, depresión
Medicamentos actuales: Albuterol, fluoxetina
Resultados de laboratorio: Presión arterial 120/80 mmHg, azúcar en sangre 100 mg/dL
Diagnóstico: Asma

Datos sintéticos en atención médica se refiere a datos generados artificialmente que simulan datos reales de salud del paciente. Este tipo de datos se crea mediante algoritmos y modelos estadísticos. Está diseñado para reflejar los patrones y características complejos de los datos sanitarios reales. Sin embargo, no corresponde a ninguna persona real, lo que protege la privacidad del paciente.

La creación de datos sintéticos implica analizar conjuntos de datos de pacientes reales para comprender sus propiedades estadísticas. Luego, utilizando estos conocimientos, se generan nuevos puntos de datos. Estos imitan el comportamiento estadístico de los datos originales pero no replican la información específica de ningún individuo.

Los datos sintéticos son cada vez más importantes en la atención sanitaria. Equilibra el aprovechamiento del poder de los big data y el respeto a la confidencialidad del paciente.

Estado actual de los datos en el sector sanitario

La atención médica lucha continuamente por equilibrar los beneficios de los datos con las preocupaciones sobre la privacidad del paciente. Obtener datos de atención médica para fines comerciales o académicos es particularmente desafiante y costoso.

Por ejemplo, obtener la aprobación para utilizar datos del sistema de salud puede llevar hasta dos años. El acceso a datos a nivel de paciente a menudo genera costos de cientos de miles, si no más, dependiendo de la escala del proyecto. Estos obstáculos obstaculizan significativamente el progreso en este campo.

El sector sanitario se encuentra en las primeras etapas de sofisticación y aplicación de datos. Varios factores, incluidas las preocupaciones sobre la privacidad, la ausencia de formatos de datos estandarizados y la existencia de silos de datos, han impedido la innovación y el avance. Sin embargo, este escenario está cambiando rápidamente, particularmente con el auge de las tecnologías de inteligencia artificial generativa.

A pesar de estos obstáculos, el uso de datos en la atención sanitaria está aumentando. Plataformas como Snowflake y AWS están en una carrera para ofrecer herramientas que aprovechen el potencial de estos datos. El crecimiento de la computación en la nube está facilitando análisis de datos más avanzados y acelerando el desarrollo de productos.

En este contexto, los datos sintéticos emergen como una solución prometedora a los desafíos de la accesibilidad a los datos en la atención sanitaria.

¿Cómo se utilizan los datos sintéticos en la atención sanitaria?

Los datos sintéticos son la revolución actual en el ámbito de la atención sanitaria, ya que permiten a las organizaciones innovar respetando los límites establecidos por la seguridad y la privacidad. Dado que se asemejan a los datos del mundo real, los conjuntos de datos sintéticos permiten a los investigadores, médicos y desarrolladores impulsar innovaciones sin que la confidencialidad del paciente los impida.

A continuación se presentan algunos casos reales y sencillos que muestran cómo los datos sintéticos están transformando la atención médica:

1. Probar nuevos tratamientos sin poner en riesgo la privacidad

Imaginemos un equipo de investigadores que desarrolla un tratamiento para la diabetes. En lugar de acceder a registros confidenciales de pacientes, utilizan datos sintéticos que imitan las características de los pacientes reales, como la edad, los niveles de azúcar en sangre y el historial médico. Pueden desarrollar hipótesis y refinarlas para convertirlas en protocolos sobre cómo adaptar los tratamientos sin perder la confidencialidad del paciente.

2. Entrenamiento de la IA para diagnósticos más rápidos

Pensemos en una herramienta de aprendizaje automático diseñada para detectar el cáncer de pulmón a partir de radiografías. Las imágenes médicas sintéticas podrían incluir muchos escenarios: ordenar las formas, tamaños y ubicaciones de los tumores de cualquier forma divertida podría ayudar a la máquina a aprender con precisión para identificar un caso de recaída de cáncer. Esto facilita el diagnóstico y evita por completo las preocupaciones éticas en torno al uso de imágenes de pacientes reales.

3. Practicando cirugías en realidad virtual

Muchos estudiantes de medicina necesitan práctica real antes de poder tratar a pacientes reales. Los datos sintéticos crean una transposición interactiva completa en la que se simula un paciente virtual basado en datos con diversas historias clínicas y afecciones, lo que permite a los estudiantes experimentar cirugías o procedimientos de diagnóstico de forma repetida y muy segura.

4. Facilitación de la planificación de la salud pública

Simular el curso de enfermedades como la COVID-19 o la gripe con datos sintéticos es importante para permitir a los investigadores del epicentro modelar la propagación epidémica de un virus a través de áreas urbanas versus áreas rurales mientras estiman y prueban estrategias de vacunación, evitando así la ignorancia de datos poblacionales sensibles.

5. Pruebas seguras de dispositivos médicos

Pensemos en una empresa que está desarrollando un nuevo dispositivo portátil para controlar la frecuencia cardíaca. Los conjuntos de datos sintéticos que imitan una variedad de cardiopatías permiten a las empresas probar sus dispositivos en múltiples escenarios antes de ingresar a la economía.

Cómo crear datos sintéticos para la atención sanitaria

La creación de datos sintéticos en el ámbito sanitario es, en efecto, un proceso largo que traza una delgada línea entre la experiencia técnica y un conocimiento sólido de los sistemas sanitarios. Para simplificar los conceptos, así es como se puede interpretar, en general, la creación de datos sintéticos en el ámbito sanitario.

1. Comprenda los datos reales

Las organizaciones de salud examinan datos reales de pacientes, comenzando por los registros hospitalarios, los resultados de laboratorio o los detalles de los ensayos clínicos. Por ejemplo, un hospital podría analizar la demografía de sus pacientes, su historial de tratamiento y los resultados para obtener información sobre las tendencias o patrones subyacentes.

2. Detener la exposición de datos de pacientes mediante la eliminación de información de identificación personal

Después de eso, por el bien de la privacidad, el conjunto de datos ya no contiene información de identificación personal (PII, por sus siglas en inglés): nombres, direcciones o números de la Seguridad Social. Puede relacionar esto con el proceso de anonimización de algunas notas médicas, que, si se imprimen ahora, no se podrán rastrear hasta una persona.

3. Identificación de patrones clave

Un científico de datos analiza minuciosamente un conjunto de datos depurados y descubre los patrones y las interrelaciones que constituyen otro elemento fundamental para una investigación exitosa. Por ejemplo, puede descubrir que ciertos medicamentos son utilizados habitualmente por adultos mayores con diabetes o que ciertos grupos de edad tienden a presentar determinados síntomas.

4. Construcción de modelos utilizando los patrones

Una vez determinados estos patrones, los conocimientos obtenidos permiten construir modelos matemáticos que emulan las asociaciones estadísticas encontradas en los datos reales. Por ejemplo, si el 30% de los pacientes del conjunto de datos tienen presión arterial alta, podemos suponer que los datos sintéticos reflejarán aproximadamente estas afecciones en proporciones similares.

6. Validación de los datos sintéticos

A continuación, se compara el conjunto de datos sintéticos con los datos originales para que conserven las mismas estadísticas que definen las propiedades y las relaciones. Por ejemplo, si existe una correlación dependiente entre la obesidad y las enfermedades cardíacas en el conjunto de datos original, debería existir lo mismo para este conjunto de datos sintéticos.

7. Pruebas de uso en el mundo real

Por último, los datos sintéticos se extraen para probarlos en varios escenarios y así poder afirmar que se pueden utilizar para los fines previstos en ese momento, como por ejemplo para permitir a los investigadores entrenar un modelo de IA para diagnosticar enfermedades o simular variaciones de recursos operativos en el servicio de urgencias asociadas a la temporada de gripe.

Cómo validar datos sintéticos para la atención sanitaria

Los responsables de la toma de decisiones en las organizaciones deben examinar la validez de los datos sintéticos antes de aplicarlos en el ámbito sanitario. Este paradigma se aplica a todos los datos utilizados bajo protocolos de confidencialidad. A continuación, se indican algunas formas de evaluar la validez de los datos sintéticos:

  • Comparación con datos reales:Los datos sintéticos se comparan con los datos reales para confirmar que las tendencias principales que definen, por ejemplo, la relación entre la edad y la enfermedad, se reflejan correctamente. Por ejemplo, si el 20 por ciento de los pacientes reales tienen diabetes, entonces una proporción similar debería manifestarse en pacientes sintéticos.
  • Realización de pruebas estadísticas: Las pruebas estadísticas nos permiten comprobar si los datos sintéticos están en línea con los originales en términos de distribuciones y correlación, confirmando así que son razonables y confiables para el análisis.
  • Validación en tareas reales: Las tareas del mundo real, como el ejercicio de entrenamiento con modelos de IA, se utilizarían para comparar si los resultados obtenidos del entrenamiento con datos sintéticos también producirían un resultado similar al del entrenamiento con datos reales.
  • Revisión de expertos: Los conjuntos de datos sintéticos son revisados ​​por médicos y expertos en atención médica para determinar sus atributos auténticos, como historias y tratamientos estándar que debe cumplir un estudio de investigación realista.
  • Controles de privacidad implementados: Esta evaluación garantizará que los datos sintéticos no puedan rastrearse hasta pacientes reales y mantendrá intacta la privacidad de los pacientes reales, evitando al mismo tiempo la pérdida de usabilidad del conjunto de datos.

El potencial de los datos sintéticos en la atención sanitaria y la industria farmacéutica

El potencial de los datos sintéticos en la atención sanitaria

La integración de datos sintéticos en la atención sanitaria y la industria farmacéutica abre un mundo de posibilidades. Este enfoque innovador está remodelando varios aspectos de la industria. La capacidad de los datos sintéticos para reflejar conjuntos de datos del mundo real manteniendo la privacidad está revolucionando múltiples sectores.

  1. Mejore la accesibilidad de los datos manteniendo la privacidad

    Uno de los obstáculos más importantes en el sector sanitario y farmacéutico es el acceso a una gran cantidad de datos respetando las leyes de privacidad. Los datos sintéticos ofrecen una solución innovadora. Proporciona conjuntos de datos que conservan las características estadísticas de los datos reales sin exponer información privada. Este avance permite una investigación y capacitación más exhaustiva de modelos de aprendizaje automático. Fomenta avances en el tratamiento y el desarrollo de fármacos.

  2. Mejor atención al paciente mediante análisis predictivo

    Los datos sintéticos pueden mejorar enormemente la atención al paciente. Los modelos de aprendizaje automático entrenados con datos sintéticos ayudan a los profesionales de la salud a predecir las respuestas de los pacientes a los tratamientos. Este avance conduce a estrategias de atención más personalizadas y efectivas. La medicina de precisión se vuelve más factible para mejorar la eficacia del tratamiento y los resultados de los pacientes.

  3. Optimice los costos con la utilización avanzada de datos

    La aplicación de datos sintéticos en la atención sanitaria y la industria farmacéutica también conduce a importantes reducciones de costes. Minimiza los riesgos y costos asociados con las violaciones de datos. Además, las capacidades predictivas mejoradas de los modelos de aprendizaje automático ayudan a optimizar los recursos. Esta eficiencia se traduce en menores costos de atención médica y operaciones más optimizadas.

  4. Pruebas y validación

    Los datos sintéticos permiten probar de forma segura y práctica nuevas tecnologías, incluidos sistemas de registros médicos electrónicos y herramientas de diagnóstico. Los proveedores de atención médica pueden evaluar rigurosamente las innovaciones utilizando datos sintéticos sin poner en riesgo la privacidad del paciente o la seguridad de los datos. Garantiza que las nuevas soluciones sean eficientes y confiables antes de implementarlas en escenarios del mundo real.

  5. Fomentar las innovaciones colaborativas en la atención sanitaria

    Los datos sintéticos abren nuevas puertas para la colaboración en la investigación farmacéutica y sanitaria. Las organizaciones pueden compartir conjuntos de datos sintéticos con socios. Permite realizar estudios conjuntos sin comprometer la privacidad del paciente. Este enfoque allana el camino para asociaciones innovadoras. Estas colaboraciones aceleran los avances médicos y crean un entorno de investigación más dinámico.

Desafíos con datos sintéticos

Si bien los datos sintéticos tienen un inmenso potencial, también presentan desafíos que deben abordarse.

Garantizar la precisión y representatividad de los datos

Los conjuntos de datos sintéticos deben reflejar fielmente las propiedades estadísticas de los datos del mundo real. Sin embargo, lograr este nivel de precisión es complejo y a menudo requiere algoritmos sofisticados. Puede dar lugar a ideas engañosas y conclusiones falsas si no se hace correctamente.

Gestión del sesgo y la diversidad de datos

Dado que los conjuntos de datos sintéticos se generan a partir de datos existentes, cualquier sesgo inherente a los datos originales puede replicarse. Garantizar la diversidad y eliminar los sesgos es crucial para que los datos sintéticos sean confiables y universalmente aplicables.

Equilibrio entre privacidad y utilidad

Si bien los datos sintéticos son elogiados por su capacidad para proteger la privacidad, lograr el equilibrio adecuado entre privacidad y utilidad de los datos es una tarea delicada. Es necesario garantizar que los datos sintéticos, aunque anónimos, conserven suficientes detalles y especificidad para un análisis significativo.

Consideraciones éticas y legales

Las cuestiones sobre el consentimiento y el uso ético de datos sintéticos, especialmente cuando se derivan de información de salud sensible, siguen siendo áreas de discusión y regulación activa.

Privacidad y seguridad con datos sintéticos en el sector sanitario

Si bien se sabe que los datos sintéticos protegen la privacidad de los pacientes mediante la sustitución de datos reales por una alternativa artificial, aunque realista, aún abundan los dilemas de privacidad y seguridad. Uno de los principales riesgos asociados es la reidentificación, en la que los datos sintéticos exponen inadvertidamente patrones que podrían ayudar a descifrar a los pacientes reales en estudio. El cumplimiento de las normas y regulaciones supone un nivel adicional de obstáculo para mitigar dichos problemas: consideraciones al trabajar con datos sintéticos: HIPAA y GDPR.

Para solucionar estos problemas, las organizaciones de atención sanitaria deben adoptar técnicas de preservación de la privacidad más sólidas (como la privacidad diferencial y los algoritmos seguros) para evitar ese uso. Si se incorporan a las medidas preventivas esos gestores de riesgos complejos y en constante evolución, los datos sintéticos seguirán innovando, respetando al mismo tiempo los principios de confidencialidad en torno al paciente y el sentido común de la ética.

Conclusión

Los datos sintéticos están transformando la atención sanitaria y la industria farmacéutica al equilibrar la privacidad con el uso práctico. Aunque enfrenta desafíos, su capacidad para mejorar la investigación, la atención al paciente y la colaboración es significativa. Esto hace que los datos sintéticos sean una innovación clave para el futuro de la atención sanitaria.

Social Share