Anotación de datos – NER

Anotación de reconocimiento de entidad nombrada (NER) para PNL clínica

anotación nerviosa

Datos de textos clínicos bien anotados y estándar de oro para capacitar/desarrollar PNL clínica para crear la próxima versión de la API de atención médica.

La importancia del procesamiento clínico del lenguaje natural (PNL) ha sido cada vez más reconocida en los últimos años y ha dado lugar a avances transformadores. La PNL clínica permite a las computadoras comprender el rico significado que se esconde detrás del análisis escrito de un paciente por parte de un médico. La PNL clínica puede tener múltiples casos de uso que van desde análisis de la salud de la población hasta la mejora de la documentación clínica, el reconocimiento de voz y la comparación de ensayos clínicos, etc.

Para desarrollar y entrenar cualquier modelo clínico de PNL, se necesitan conjuntos de datos precisos, imparciales y bien anotados en volúmenes enormes. Gold Standard y diversos datos ayudan a mejorar la precisión y la recuperación de los motores de PNL.

Volumen

No. de documentos anotados
10
No. de páginas anotadas
10 +
Duración del proyecto
< 1 meses

Desafios

El cliente esperaba capacitar y desarrollar su plataforma de procesamiento del lenguaje natural (NLP) con nuevos tipos de entidades y también identificar la relación entre varios tipos. Además, estaban evaluando proveedores que ofrecían alta precisión, cumplían con las leyes locales y tenían el conocimiento médico necesario para anotar un gran conjunto de datos.

La tarea consistía en etiquetar y anotar hasta 20,000 15,000 registros etiquetados, incluidos hasta 5,000 1 registros etiquetados de datos de registros médicos electrónicos (EHR) de pacientes hospitalizados y ambulatorios y hasta 2 registros etiquetados de dictados médicos transcritos, distribuidos equitativamente en (XNUMX) procedencias geográficas y ( XNUMX) especialidades médicas disponibles.

Entonces, para resumir los desafíos:

  • Organice datos clínicos heterogéneos para entrenar la plataforma PNL
  • Identificar la relación entre diferentes entidades para obtener información crítica.
  • Capacidad y experiencia para etiquetar/anotar un amplio conjunto de documentos clínicos complejos.
  • Mantener el costo bajo control para etiquetar/anotar un gran volumen de datos para entrenar PNL clínica dentro del plazo estipulado.
  • Anote entidades en el conjunto de datos clínicos que consta de un 75 % de EHR y un 25 % de registros de dictado.
  • Desidentificación de datos en el momento de la entrega

Otros desafíos en la comprensión del lenguaje natural

Ambigüedad

Las palabras son únicas pero pueden tener diferentes significados según el contexto, lo que genera ambigüedad en los niveles léxico, sintáctico y semántico.

Sinonimia

Podemos expresar la misma idea con diferentes términos que también son sinónimos: grande y grande significan lo mismo cuando describen un objeto.

Coreferencia

El proceso de encontrar todas las expresiones que hacen referencia a la misma entidad en un texto se llama resolución de correferencia.

Personalidad, Intención, Emociones

Dependiendo de la personalidad del hablante, su intención y emociones, podrían expresarse de manera diferente ante una misma idea.

Solución

Se encuentra disponible un gran volumen de datos y conocimientos médicos, en forma de documentos médicos, pero principalmente en un formato no estructurado. Con la anotación de entidad médica/reconocimiento de entidad nombrada (NER), Shaip pudo convertir datos no estructurados en un formato estructurado al anotar información útil de diversos tipos de registros clínicos. Una vez identificadas las entidades, también se mapeó la relación entre ellas para identificar información crítica.

Alcance del trabajo: Anotación de mención de entidad de atención médica

9 tipos de entidades

  • Condición médica
  • Procedimiento médico
  • Estructura anatómica
  • Medicina
  • Dispositivo médico
  • Medición corporal
  • Abuso de Sustancias
  • Los datos de laboratorio
  • Función del cuerpo

17 modificadores

  • Modificadores de medicación: concentración, unidad, dosis, origen, frecuencia, vía, duración, estado
  • Modificadores de medidas corporales: valor, unidad, resultado
  • Modificadores de procedimiento: método
    • Modificador de datos de laboratorio: Valor de laboratorio, Unidad de laboratorio, Resultado de laboratorio
  • Gravedad
  • Resultado del procedimiento

27 Relaciones y estado del paciente

Resultado

Los datos anotados se utilizarían para desarrollar y capacitar la plataforma clínica de PNL del Cliente, que se incorporaría en la próxima versión de su API de atención médica. Los beneficios que obtuvo el cliente fueron:

  • Los datos etiquetados/anotados cumplieron con las pautas de anotación de datos estándar del Cliente.
  • Se utilizaron conjuntos de datos heterogéneos para entrenar la plataforma PNL para lograr una mayor precisión.
  • Se identificaron relaciones entre diferentes entidades, es decir, estructura anatómica del cuerpo <> dispositivo médico, condición médica <> dispositivo médico, condición médica <> medicación, condición médica <> procedimiento para derivar información médica crítica.
  • El amplio conjunto de datos que fueron etiquetados/anotados también fueron anonimizados en el momento de la entrega.

Nuestra colaboración con Shaip avanzó significativamente en nuestro proyecto de tecnología ambiental e IA conversacional en el ámbito de la atención sanitaria. Su experiencia en la creación y transcripción de diálogos sintéticos sobre atención médica proporcionó una base sólida, mostrando el potencial de los datos sintéticos para superar los desafíos regulatorios. Con Shaip, superamos estos obstáculos y ahora estamos un paso más cerca de hacer realidad nuestra visión de soluciones de atención médica intuitivas.

Oro-5 estrellas

Acelere su IA conversacional
desarrollo de aplicaciones al 100%