Estudio de caso: Licencias de conjuntos de datos médicos
Transformando la atención pediátrica y ginecológica mediante la formación en anotación y curación de datos de precisión
Desbloqueo del poder de los datos médicos: curación integral de datos, desidentificación, ICD-10 CM y anotación para un entrenamiento superior de modelos de IA.
Descripción general del proyecto
Shaip se asoció con una empresa líder en inteligencia artificial (IA) en el sector sanitario para seleccionar y anotar conjuntos de datos médicos anónimos de alta calidad para el entrenamiento de modelos avanzados de PLN. El proyecto se centró en las especialidades de pediatría y ginecología, y generó registros ambulatorios anotados con códigos CIE-10 CM mediante una sólida plataforma API.
El conjunto de datos se estructuró para facilitar el entrenamiento de IA en la documentación sanitaria del mundo real, mejorando la capacidad del modelo para comprender las narrativas clínicas.

Estadísticas clave
750 paginas / ~ 300 registros de pacientes ambulatorios
Alcance del proyecto
Tipo de conjunto de datos | Especialidades | Volumen | Metadatos capturados | Notas |
---|---|---|---|---|
Notas médicas | Pediatría | 375 páginas (~150 registros) | Nombre del archivo, especialidad, Tipo de documento, clase de paciente (ambulatorio) | Incluye secciones de Evaluación/Plan |
Gineco-obstetra | 375 páginas (~150 registros) | |||
Anotaciones | CIE-10 CM (2023) | Conjunto de datos completo | Mapeo de código mediante API | La validación del código por parte de los codificadores está fuera del alcance |
Desafíos
El proyecto presentó varios desafíos críticos que requirieron una planificación y ejecución meticulosa:
Obtener registros ambulatorios de alta calidad, exclusivamente de las especialidades de pediatría y ginecología, fue un desafío. Cada documento debía incluir secciones clínicas clave, como la evaluación y el plan, para facilitar la precisión de las anotaciones.
Garantizar la eliminación completa de toda la información de identificación personal (PII), manteniendo al mismo tiempo el contexto médico, fue esencial para el cumplimiento de la HIPAA. Esto requirió revisiones exhaustivas para evitar cualquier violación de la privacidad.
La aplicación precisa de códigos CIE-10 CM (2023) mediante API resultó compleja debido a la diversidad de estilos narrativos y terminología médica. La consistencia y la precisión en la codificación fueron cruciales para garantizar un entrenamiento fiable del modelo de IA.
La captura y validación de metadatos, como la especialidad, el tipo de documento y la clase de paciente, sin discrepancias fue vital. Cualquier discrepancia podría afectar el entrenamiento del modelo y la usabilidad de los datos.
Asegurarse de que todos los registros fueran estrictamente ambulatorios agregó complejidad, ya que muchos documentos clínicos pueden contener clases de pacientes mixtas o secciones incompletas.
Para alcanzar el umbral de precisión del 90 % se requirieron revisiones de varios niveles para eliminar duplicados, validar la alineación de especialidades y garantizar la desidentificación, con disposiciones para volver a trabajar cuando fuera necesario.
Solución
Licencias y anotaciones de datos integrales
- Registros ambulatorios de pediatría y ginecología con licencia
- Se aseguró la inclusión de secciones críticas: Queja principal, Historial, ROS, Evaluación, Plan
- Anotación CM de la CIE-10 basada en API (versión 2023)
Desidentificación y cumplimiento
- Se reemplazó PHI con marcadores de posición (NOMBRE DE LA PERSONA, FECHA, UBICACIÓN, etc.)
- Se garantizó el cumplimiento de los estándares de privacidad de datos de atención médica
Etiquetado de metadatos
- Metadatos detallados capturados por archivo:
-
- Nombre de archivo
- Especialidad (Pediatría o Ginecología-Obstetricia)
- Tipo de documento (Seguimiento, H&P, Consulta)
- Clase de paciente (solo para pacientes ambulatorios)
Control de calidad
- Evaluaciones de calidad rigurosas con:
- No hay registros duplicados
- Validación de coincidencias de especialidad
- Chequeo solo para pacientes ambulatorios
- Comprobación de la coherencia de los metadatos
- Sustitución o corrección de registros por debajo del umbral de precisión del 90 %
Resultado
Shaip entregó un conjunto de datos de notas médicas estructuradas y anotadas que permitió al cliente:
- Entrene modelos de IA para una predicción precisa del código CM de la CIE-10
- Mejorar las capacidades de PNL en escenarios de atención médica del mundo real
- Mantener el cumplimiento de los estándares regulatorios y de privacidad.
- Escalar modelos de IA de atención médica en los dominios de pediatría y obstetricia y ginecología
El enfoque estructurado de Shaip para la curación y anotación de conjuntos de datos superó nuestras expectativas. La precisión, la desidentificación y la precisión de los metadatos han fortalecido significativamente nuestro proceso de entrenamiento de modelos de IA.