Conjuntos de datos anonimizados de registros electrónicos de salud (EHR) para proyectos de IA y aprendizaje automático.

Datos de historiales clínicos electrónicos con licencia comercial y que cumplen con la normativa HIPAA, listos para la inteligencia artificial clínica, el procesamiento del lenguaje natural y la modelización predictiva.

Datos de registros médicos electrónicos (ehr)

¿Qué son los datos de los registros electrónicos de salud (EHR) y por qué son importantes para la inteligencia artificial?

Conjuntos de datos de EHR en IA/ML

Los registros electrónicos de salud (EHR, por sus siglas en inglés) son registros digitales longitudinales de pacientes que los proveedores de atención médica mantienen a lo largo de todo el proceso asistencial: hospitales, clínicas ambulatorias, consultorios de especialistas y laboratorios. A diferencia de los registros médicos electrónicos (EMR, por sus siglas en inglés), que son instantáneas de un solo proveedor, los datos de los EHR abarcan todo el recorrido del paciente, registrando las interacciones en múltiples entornos de atención médica.

El catálogo de datos de historias clínicas electrónicas anonimizadas de Shaip abarca ambos aspectos, lo que proporciona a su equipo una única fuente, lista para cumplir con la normativa, para todo el espectro del desarrollo de IA en el sector sanitario.

Los conjuntos de datos de registros electrónicos de salud (EHR) contienen dos tipos de datos críticos para el desarrollo de la IA: datos estructurados (datos demográficos, códigos de diagnóstico ICD-10, códigos DRG, listas de medicamentos, valores de laboratorio, signos vitales) y datos no estructurados (notas clínicas, resúmenes de alta, informes radiológicos, dictados médicos). Aproximadamente el 80 % de la información de la historia clínica electrónica no está estructurada, lo que la convierte en la principal fuente de información para el entrenamiento de modelos de PLN clínicos.

Encuentre los datos correctos de registros médicos electrónicos (EHR) para su IA de atención médica

Mejore sus modelos de aprendizaje automático con los mejores datos de entrenamiento de su clase. Shaip ofrece conjuntos de datos de registros médicos electrónicos (EHR) anonimizados y disponibles comercialmente, diseñados específicamente para equipos de IA y aprendizaje automático. Nuestro catálogo de datos EHR listos para usar proporciona registros de pacientes estructurados y preparados para la investigación en más de 20 especialidades médicas, que abarcan diagnósticos, recetas, resultados de laboratorio, informes radiológicos, historial de vacunación y notas clínicas, todo ello completamente anonimizado según los estándares de HIPAA Safe Harbor y GDPR.

Ya sea que esté creando sistemas de apoyo a la toma de decisiones clínicas, entrenando modelos de PLN con notas médicas, desarrollando algoritmos de predicción de enfermedades o impulsando herramientas de automatización sanitaria, los conjuntos de datos de HCE de Shaip le brindan la profundidad, la diversidad y la garantía de cumplimiento que su proyecto de IA requiere. Disponibles para licencia inmediata, selección de cohorte personalizada o descarga de muestra.

Expedientes médicos electrónicos (EHR) listos para usar:

  • Más de 5.1 millones de registros y archivos de audio de médicos en 31 especialidades
  • Registros médicos estándar de oro del mundo real para entrenar NLP clínico y otros modelos de Document AI
  • Información de metadatos como MRN (anonimizado), fecha de ingreso, fecha de alta, días de estadía, género, clase de paciente, pagador, clase financiera, estado, disposición de alta, edad, DRG, descripción de DRG, reembolso de $, AMLOS, GMLOS, riesgo de mortalidad, gravedad de la enfermedad, mero, código postal del hospital, etc.
  • Registros médicos de varios estados y regiones de EE. UU.: noreste (46 %), sur (9 %), medio oeste (3 %), oeste (28 %), otros (14 %)
  • Expedientes médicos pertenecientes a todas las clases de pacientes cubiertas: pacientes hospitalizados, pacientes ambulatorios (clínicos, de rehabilitación, recurrentes, de día quirúrgicos), de emergencia.
  • Registros médicos pertenecientes a todos los grupos de edad de pacientes <10 años (7.9 %), 11-20 años (5.7 %), 21-30 años (10.9 %), 31-40 años (11.7 %), 41-50 años (10.4 %) ), 51-60 años (13.8 %), 61-70 años (16.1 %), 71-80 años (13.3 %), 81-90 años (7.8 %), 90+ años (2.4 %)
  • Proporción de género del paciente de 46% (hombre) y 54% (mujer)
  • Documentos redactados de PII que se adhieren a las pautas de puerto seguro de conformidad con HIPAA
Datos de HCE por ubicación
Ubicación Documentos de texto
Noreste 4,473,573
Sur 1,801,716
Medio Oeste 781,701
West 1,509,109
Datos de HCE por categoría de diagnóstico principal
Categoría de diagnóstico principal Documentos de texto
Uso de alcohol / drogas y trastornos mentales orgánicos inducidos por alcohol / drogas48,717
Total incluyendo todo (Casos con y sin categoría MDC)8,566,687
Casos sin reembolso generado (MDC no especificado)790,697
Casos ambulatorios (MDC no especificado)1,980,606
Casos que utilizan un mero de especialidad como 3M (no se especifica MDC)1,619,682
Total con MDC4,175,702
Consumo de alcohol/drogas o trastornos mentales inducidos48,717
Quemaduras444
Ojo3,549
Sistema reproductor masculino9,230
Infecciones por el virus de la inmunodeficiencia humana12,422
Enfermedades y trastornos mieloproliferativos, neoplasias poco diferenciadas15,620
Factores que influyen en el estado de salud y otros contactos con los servicios de salud21,294
Sistema reproductivo femenino17,010
Oído, nariz, boca y garganta22,987
Trauma significativo múltiple27,902
Sistema Circulatorio589,730
Sangre, órganos hematopoyéticos y trastornos inmunológicos48,990
Lesiones, intoxicaciones y efectos tóxicos de las drogas64,097
Piel, tejido subcutáneo y mama89,577
Sistema hepatobiliar y páncreas127,172
Enfermedades y trastornos endocrinos, nutricionales y metabólicos142,808
Recién nacidos y otros recién nacidos con afecciones que se originan en el período perinatal163,605
Embarazo, parto y puerperio165,303
Riñón y tracto urinario209,561
Enfermedades y trastornos mentales282,501
Sistema nervioso316,243
Sistema Digestivo346,369
Sistema musculoesquelético y tejido conectivo329,344
Sistema Respiratorio561,983
Enfermedades infecciosas y parasitarias559,244

Nos ocupamos de todo tipo de licencias de datos, es decir, texto, audio, video o imagen. Los conjuntos de datos consisten en conjuntos de datos médicos para ML: conjunto de datos de dictado médico, notas clínicas del médico, conjunto de datos de conversación médica, conjunto de datos de transcripción médica, conversación médico-paciente, datos de texto médico, imágenes médicas: tomografía computarizada, resonancia magnética, ultrasonido (requisitos personalizados de base recopilada) .

Aplicaciones reales de los conjuntos de datos de EHR en IA/ML

  • Predicción y diagnóstico de enfermedades:Entrene modelos de IA para predecir enfermedades como diabetes, cáncer y afecciones cardiovasculares.
  • Apoyo a la decisión clínica: Entrenar modelos para generar recomendaciones de diagnóstico, señalar interacciones farmacológicas y ayudar en la planificación del tratamiento utilizando datos estructurados de la historia clínica electrónica.
  • Medicina personalizada:Utilice datos demográficos y de diagnóstico para recomendar planes de tratamiento personalizados.
  • Automatización sanitaria:Automatice tareas administrativas como la programación de citas o la facturación con herramientas impulsadas por PNL entrenadas en conjuntos de datos EHR.
  • Modelado predictivo en el sector sanitario — Elaborar modelos de estratificación de riesgos y predicción de enfermedades utilizando registros longitudinales de pacientes, códigos DRG y puntuaciones de gravedad de la enfermedad. 

  • Estudios de evidencia del mundo real (RWE) — Generar evidencia posterior a la comercialización e información sobre farmacovigilancia mediante el análisis de datos de resultados de historias clínicas electrónicas en cohortes de pacientes.

  • Procesamiento del lenguaje natural para notas clínicas — Extraer entidades, afecciones y procedimientos de notas médicas no estructuradas y resúmenes de alta utilizando datos de entrenamiento de historias clínicas electrónicas anotados.

¿Por qué elegir Shaip para los conjuntos de datos EHR?

Mano de obra experta

Profesionales cualificados garantizan una anotación de datos precisa y de alta calidad.

Cumplimiento de la normativa

Conjuntos de datos totalmente desidentificados que cumplen con HIPAA y GDPR.

Precios competitivos

Soluciones rentables entregadas sin comprometer la calidad.

Datos sin sesgos

Los protocolos estrictos eliminan los sesgos y garantizan resultados de IA confiables.

Rápido y preciso

Los procesos optimizados garantizan la entrega rápida de datos diversos y de alta calidad.

Disponibilidad y entrega

Alto tiempo de actividad de la red y entrega puntual de datos, servicios y soluciones.

Probado a escala

Con la confianza de Google y las principales empresas de IA aplicada a la salud. Control de calidad mediante procesos Six Sigma Black Belt y revisión por expertos médicos.

Listo para su comercialización

El catálogo de sistemas de registros médicos electrónicos (EHR) de Shaip, listo para usar, cuenta con licencia, está anonimizado y se puede descargar o acceder a través de Databricks Marketplace hoy mismo.

Soporte completo del ciclo de vida

¿Necesitas añadir anotaciones a los datos sin procesar? Shaip ofrece servicios de anonimización, etiquetado clínico NER y aumento de datos, todo ello a través de un único socio.

Shaip contáctanos

¿No encuentras lo que estás buscando?

Se recopilan nuevos conjuntos de datos médicos listos para usar en todos los tipos de datos 

Contáctenos ahora para dejar de lado sus preocupaciones sobre la recopilación de datos de capacitación en atención médica

  • Este campo es para fines de validación y debe dejarse sin cambios.
  • Al registrarme, estoy de acuerdo con Shaip Política de privacidad y Términos de Servicio y dar mi consentimiento para recibir comunicaciones de marketing B2B de Shaip.

Los conjuntos de datos de EHR se utilizan para entrenar modelos de IA para la predicción de enfermedades, la toma de decisiones clínicas y los tratamientos personalizados.

Los datos de EHR se utilizan para entrenar modelos de IA para el apoyo a la toma de decisiones clínicas, la predicción de enfermedades, la planificación de tratamientos personalizados y la automatización de la atención médica.

Sí, todos los datos de EHR se desidentifican para eliminar la información de identificación personal (PII) y cumplir con las regulaciones de privacidad.

Los datos de EHR contienen detalles como datos demográficos del paciente, historial médico, diagnósticos, planes de tratamiento, resultados de pruebas de laboratorio, imágenes radiológicas (por ejemplo, tomografía computarizada, resonancia magnética, radiografías), recetas y registros de vacunación.

Sí, los datos cumplen con HIPAA, GDPR y otros estándares de privacidad globales para garantizar un uso seguro y ético.

Sí, los conjuntos de datos se pueden adaptar en función de especialidades médicas específicas, regiones, datos demográficos de los pacientes o requisitos del proyecto.

Sí, los conjuntos de datos se proporcionan en formatos estándar (por ejemplo, JSON, CSV) para una fácil integración en los flujos de trabajo de IA y ML.

Los datos se someten a rigurosos controles de validación y calidad para garantizar su precisión, consistencia y confiabilidad.

Los costos dependen de factores como el volumen de datos, la personalización y el alcance del proyecto. Le solicitamos que complete el formulario "Contáctenos" con sus requisitos para recibir la mejor cotización.

Los plazos de entrega varían según el tamaño y la complejidad del proyecto, pero están diseñados para cumplir con los plazos acordados.

Los conjuntos de datos de EHR permiten que los sistemas de IA proporcionen mejores diagnósticos, conocimientos predictivos y tratamientos personalizados, mejorando los resultados de los pacientes y la eficiencia de la atención médica.

Sí, Shaip ofrece conjuntos de datos EHR personalizados según la especialidad, el grupo de edad, la geografía o los requisitos del proyecto.

Los registros médicos electrónicos (RME) contienen datos clínicos de un único profesional sanitario; los registros electrónicos de salud (RES) abarcan todo el proceso asistencial a través de múltiples profesionales, entornos y periodos de tiempo. Shaip ofrece variantes de conjuntos de datos tanto de RES como de RME, con registros longitudinales de múltiples profesionales disponibles para requisitos complejos de entrenamiento de IA.

Todos los registros se anonimizan mediante el método de protección de datos de la HIPAA, eliminando los 18 identificadores de información de salud protegida (PHI), incluidos el nombre, la fecha de nacimiento, la dirección y los números de historia clínica. El campo MRN anonimizado se conserva para la vinculación de registros dentro del conjunto de datos, lo que permite realizar análisis longitudinales sin riesgo de reidentificación.