Estudio de caso: Licencias de conjuntos de datos médicos

Transformando la atención pediátrica y ginecológica mediante la formación en anotación y curación de datos de precisión

Desbloqueo del poder de los datos médicos: curación integral de datos, desidentificación, ICD-10 CM y anotación para un entrenamiento superior de modelos de IA.

Licencias de conjuntos de datos médicos

Descripción general del proyecto

Shaip se asoció con una empresa líder en inteligencia artificial (IA) en el sector sanitario para seleccionar y anotar conjuntos de datos médicos anónimos de alta calidad para el entrenamiento de modelos avanzados de PLN. El proyecto se centró en las especialidades de pediatría y ginecología, y generó registros ambulatorios anotados con códigos CIE-10 CM mediante una sólida plataforma API.

El conjunto de datos se estructuró para facilitar el entrenamiento de IA en la documentación sanitaria del mundo real, mejorando la capacidad del modelo para comprender las narrativas clínicas.

Licencias de conjuntos de datos médicos

Estadísticas clave

750 paginas / ~ 300 registros de pacientes ambulatorios

375 páginas Pediatría
375 páginas de obstetricia y ginecología
Clasificación internacional de la CIE-10 2023 anotaciones de código médico

Alcance del proyecto

Tipo de conjunto de datosEspecialidadesVolumen Metadatos capturadosNotas
Notas médicasPediatría375 páginas
(~150 registros)
Nombre del archivo, especialidad,
Tipo de documento, clase de paciente (ambulatorio)
Incluye secciones de Evaluación/Plan
Gineco-obstetra375 páginas
(~150 registros)
AnotacionesCIE-10 CM (2023)Conjunto de datos completoMapeo de código mediante APILa validación del código por parte de los codificadores está fuera del alcance

Desafíos

El proyecto presentó varios desafíos críticos que requirieron una planificación y ejecución meticulosa:

1. Recopilación de datos específicos de la especialidad

Obtener registros ambulatorios de alta calidad, exclusivamente de las especialidades de pediatría y ginecología, fue un desafío. Cada documento debía incluir secciones clínicas clave, como la evaluación y el plan, para facilitar la precisión de las anotaciones.

2. Desidentificación integral de PHI

Garantizar la eliminación completa de toda la información de identificación personal (PII), manteniendo al mismo tiempo el contexto médico, fue esencial para el cumplimiento de la HIPAA. Esto requirió revisiones exhaustivas para evitar cualquier violación de la privacidad.

3. Anotación compleja de la CIE-10 CM

La aplicación precisa de códigos CIE-10 CM (2023) mediante API resultó compleja debido a la diversidad de estilos narrativos y terminología médica. La consistencia y la precisión en la codificación fueron cruciales para garantizar un entrenamiento fiable del modelo de IA.

4. Precisión y consistencia de los metadatos

La captura y validación de metadatos, como la especialidad, el tipo de documento y la clase de paciente, sin discrepancias fue vital. Cualquier discrepancia podría afectar el entrenamiento del modelo y la usabilidad de los datos.

5. Filtrado estricto de pacientes ambulatorios

Asegurarse de que todos los registros fueran estrictamente ambulatorios agregó complejidad, ya que muchos documentos clínicos pueden contener clases de pacientes mixtas o secciones incompletas.

6. Estándares de garantía de calidad y precisión

Para alcanzar el umbral de precisión del 90 % se requirieron revisiones de varios niveles para eliminar duplicados, validar la alineación de especialidades y garantizar la desidentificación, con disposiciones para volver a trabajar cuando fuera necesario.

Solución

Licencias y anotaciones de datos integrales

  • Registros ambulatorios de pediatría y ginecología con licencia
  • Se aseguró la inclusión de secciones críticas: Queja principal, Historial, ROS, Evaluación, Plan
  • Anotación CM de la CIE-10 basada en API (versión 2023)

Desidentificación y cumplimiento

  • Se reemplazó PHI con marcadores de posición (NOMBRE DE LA PERSONA, FECHA, UBICACIÓN, etc.)
  • Se garantizó el cumplimiento de los estándares de privacidad de datos de atención médica

Etiquetado de metadatos

  • Metadatos detallados capturados por archivo:
    • Nombre de archivo
    • Especialidad (Pediatría o Ginecología-Obstetricia)
    • Tipo de documento (Seguimiento, H&P, Consulta)
    • Clase de paciente (solo para pacientes ambulatorios)

Control de calidad

  • Evaluaciones de calidad rigurosas con:

    • No hay registros duplicados
    • Validación de coincidencias de especialidad
    • Chequeo solo para pacientes ambulatorios
    • Comprobación de la coherencia de los metadatos
  • Sustitución o corrección de registros por debajo del umbral de precisión del 90 %

Resultado

Shaip entregó un conjunto de datos de notas médicas estructuradas y anotadas que permitió al cliente:

  • Entrene modelos de IA para una predicción precisa del código CM de la CIE-10
  • Mejorar las capacidades de PNL en escenarios de atención médica del mundo real
  • Mantener el cumplimiento de los estándares regulatorios y de privacidad.
  • Escalar modelos de IA de atención médica en los dominios de pediatría y obstetricia y ginecología

El enfoque estructurado de Shaip para la curación y anotación de conjuntos de datos superó nuestras expectativas. La precisión, la desidentificación y la precisión de los metadatos han fortalecido significativamente nuestro proceso de entrenamiento de modelos de IA.

Oro-5 estrellas