Desidentificar datos sanitarios no estructurados

Guía completa para desidentificar datos sanitarios no estructurados

El análisis de datos estructurados puede ayudar a mejorar el diagnóstico y la atención al paciente. Sin embargo, el análisis de datos no estructurados puede impulsar avances y descubrimientos médicos revolucionarios.

Esta es la esencia del tema que vamos a tratar hoy. Es muy interesante observar que tantos avances radicales en el campo de la tecnología sanitaria se han producido con tan solo el 10-20% de los datos sanitarios utilizables.

Las estadísticas revelan que más del 90% de los datos de este espectro no están estructurados, lo que se traduce en datos menos utilizables y más difíciles de entender, interpretar y aplicar. Desde datos analógicos como la receta de un médico hasta datos digitales en forma de imágenes médicas y datos audiovisuales, los datos no estructurados son de distintos tipos.

Estos enormes fragmentos de datos no estructurados albergan información increíble que puede acelerar los avances en el ámbito sanitario durante décadas. Ya sea para ayudar en el descubrimiento de fármacos para enfermedades autoinmunes críticas que acaban con la vida o para ayudar a las compañías de seguros sanitarios en las evaluaciones de riesgos, los datos no estructurados pueden allanar el camino a posibilidades desconocidas.

Cuando se tienen tales ambiciones, la interpretabilidad y la interoperabilidad de los datos sanitarios se vuelven cruciales. Con unas directrices estrictas y la aplicación de cumplimiento regulatorio como el RGPD y la HIPAA, lo que se vuelve inevitable es Desidentificación de datos sanitarios.

Ya hemos publicado un artículo extenso sobre la desmitificación datos sanitarios estructurados y datos sanitarios no estructuradosHay un artículo dedicado (léase extenso) sobre Desidentificación de datos sanitarios También te recomendamos que los leas para obtener información integral, ya que publicaremos este artículo en una edición especial. Desidentificación de datos no estructurados

Desafíos en la desidentificación de datos no estructurados

Como sugiere el nombre, los datos no estructurados no están organizados. Están dispersos en términos de formatos, tipos de archivos, tamaños, contexto y más. El mero hecho de que los datos no estructurados existan en forma de audio, texto, imágenes médicas, entradas analógicas y más hace que sea aún más difícil comprender los identificadores de información personal (PII), que son esenciales en Desidentificación de datos no estructurados.

Para darle una idea de los desafíos fundamentales, aquí hay una lista rápida:

Desafíos en la desidentificación de datos no estructurados

  • Comprensión contextual – cuando a una parte interesada en la IA le resulta difícil comprender el contexto específico detrás de una parte o aspecto particular de los datos no estructurados. Por ejemplo, comprender si un nombre es el nombre de una empresa, el nombre de una persona o el nombre de un producto puede generar un dilema sobre si se debe desidentificar.  
  • Datos no textuales – donde identificar señales auditivas o visuales para nombres o información de identificación personal puede ser una tarea abrumadora ya que una parte interesada puede tener que sentarse a ver horas y horas de material de archivo o grabación tratando de desidentificar aspectos críticos. 
  • Ambigüedad – Esto es especialmente cierto en el contexto de datos analógicos, como una receta médica o una entrada de un hospital en un registro. Desde la escritura a mano hasta las limitaciones de expresión en el lenguaje natural, la desidentificación de datos puede ser una tarea compleja. 

Prácticas recomendadas para la desidentificación de datos no estructurados

El proceso de eliminación de información de identificación personal de datos no estructurados es bastante diferente de Desidentificación de datos estructurados Pero no es imposible. Mediante un enfoque sistemático y contextual, se puede aprovechar sin problemas el potencial de los datos no estructurados. Veamos las diferentes formas de lograrlo. 

Prácticas recomendadas para la desidentificación de datos no estructurados

Redacción de imagen: Esto se refiere a los datos de imágenes médicas e implica la eliminación de los identificadores de los pacientes y el desenfoque de las referencias y partes anatómicas de las imágenes. Estas se reemplazan por caracteres especiales para conservar la funcionalidad y utilidad de los datos de imágenes para el diagnóstico. 

La coincidencia de patrones: Algunos de los datos de identificación personal más comunes, como nombres, datos de contacto y direcciones, se pueden detectar y eliminar mediante el estudio inteligente de patrones predefinidos. 

Privacidad diferencial o alteración de datos: implica la inclusión de ruido controlado para ocultar datos o atributos que puedan rastrearse hasta un individuo. Este método ideal no solo garantiza la desidentificación de los datos, sino también la conservación de las propiedades estadísticas del conjunto de datos para los análisis. 

Desidentificación de datos: Esta es una de las formas más confiables y efectivas de eliminar información de identificación personal de datos no estructurados. Esto se puede implementar de una de dos maneras:

  • Aprendizaje supervisado – donde se entrena un modelo para clasificar texto o datos como PII o no PII
  • Aprendizaje sin supervisión – donde se entrena a un modelo para que aprenda de manera autónoma a detectar patrones en la identificación de información de identificación personal (PII)

Este método garantiza la protección de privacidad del paciente Al mismo tiempo, se mantiene la intervención humana para los aspectos más redundantes de la tarea. Las partes interesadas y los proveedores de datos de atención médica que implementan técnicas de aprendizaje automático para desidentificar datos no estructurados pueden simplemente tener un proceso de control de calidad habilitado por humanos para garantizar la imparcialidad, la relevancia y la precisión de los resultados. 

Enmascaramiento de datos: El enmascaramiento de datos es el juego de palabras digital para desidentificar los datos de atención médica, donde los identificadores específicos se vuelven genéricos o vagos a través de técnicas de nicho como:

  • Tokenización – que implica el reemplazo de PII con caracteres o tokens
  • Generalización – reemplazando valores PII específicos por otros genéricos o vagos
  • Barajando – Al mezclar los datos de identificación personal para hacerlos ambiguos

Sin embargo, este método tiene una limitación: con un modelo o enfoque sofisticado, los datos pueden volverse a identificar.

Subcontratación a actores del mercado

El único enfoque correcto para garantizar el proceso de Desidentificación de datos no estructurados es hermético, infalible y cumple con las pautas de HIPAA es subcontratar las tareas a un proveedor de servicios confiable como SaipCon modelos de vanguardia y rígidos protocolos de garantía de calidad, garantizamos Supervisión humana en la privacidad de los datos se mitiga en todo momento.

Como empresa líder en el mercado desde hace años, entendemos la importancia de sus proyectos. Póngase en contacto con nosotros hoy mismo para optimizar sus ambiciones en materia de atención médica con datos de atención médica anónimos proporcionados por Shaip.

Social Share