Conjuntos de datos anonimizados de registros electrónicos de salud (EHR) para proyectos de IA y aprendizaje automático.
Datos de historiales clínicos electrónicos con licencia comercial y que cumplen con la normativa HIPAA, listos para la inteligencia artificial clínica, el procesamiento del lenguaje natural y la modelización predictiva.
¿Qué son los datos de los registros electrónicos de salud (EHR) y por qué son importantes para la inteligencia artificial?
Los registros electrónicos de salud (EHR, por sus siglas en inglés) son registros digitales longitudinales de pacientes que los proveedores de atención médica mantienen a lo largo de todo el proceso asistencial: hospitales, clínicas ambulatorias, consultorios de especialistas y laboratorios. A diferencia de los registros médicos electrónicos (EMR, por sus siglas en inglés), que son instantáneas de un solo proveedor, los datos de los EHR abarcan todo el recorrido del paciente, registrando las interacciones en múltiples entornos de atención médica.
El catálogo de datos de historias clínicas electrónicas anonimizadas de Shaip abarca ambos aspectos, lo que proporciona a su equipo una única fuente, lista para cumplir con la normativa, para todo el espectro del desarrollo de IA en el sector sanitario.
Los conjuntos de datos de registros electrónicos de salud (EHR) contienen dos tipos de datos críticos para el desarrollo de la IA: datos estructurados (datos demográficos, códigos de diagnóstico ICD-10, códigos DRG, listas de medicamentos, valores de laboratorio, signos vitales) y datos no estructurados (notas clínicas, resúmenes de alta, informes radiológicos, dictados médicos). Aproximadamente el 80 % de la información de la historia clínica electrónica no está estructurada, lo que la convierte en la principal fuente de información para el entrenamiento de modelos de PLN clínicos.
Encuentre los datos correctos de registros médicos electrónicos (EHR) para su IA de atención médica
Mejore sus modelos de aprendizaje automático con los mejores datos de entrenamiento de su clase. Shaip ofrece conjuntos de datos de registros médicos electrónicos (EHR) anonimizados y disponibles comercialmente, diseñados específicamente para equipos de IA y aprendizaje automático. Nuestro catálogo de datos EHR listos para usar proporciona registros de pacientes estructurados y preparados para la investigación en más de 20 especialidades médicas, que abarcan diagnósticos, recetas, resultados de laboratorio, informes radiológicos, historial de vacunación y notas clínicas, todo ello completamente anonimizado según los estándares de HIPAA Safe Harbor y GDPR.
Ya sea que esté creando sistemas de apoyo a la toma de decisiones clínicas, entrenando modelos de PLN con notas médicas, desarrollando algoritmos de predicción de enfermedades o impulsando herramientas de automatización sanitaria, los conjuntos de datos de HCE de Shaip le brindan la profundidad, la diversidad y la garantía de cumplimiento que su proyecto de IA requiere. Disponibles para licencia inmediata, selección de cohorte personalizada o descarga de muestra.
Expedientes médicos electrónicos (EHR) listos para usar:
- Más de 5.1 millones de registros y archivos de audio de médicos en 31 especialidades
- Registros médicos estándar de oro del mundo real para entrenar NLP clínico y otros modelos de Document AI
- Información de metadatos como MRN (anonimizado), fecha de ingreso, fecha de alta, días de estadía, género, clase de paciente, pagador, clase financiera, estado, disposición de alta, edad, DRG, descripción de DRG, reembolso de $, AMLOS, GMLOS, riesgo de mortalidad, gravedad de la enfermedad, mero, código postal del hospital, etc.
- Registros médicos de varios estados y regiones de EE. UU.: noreste (46 %), sur (9 %), medio oeste (3 %), oeste (28 %), otros (14 %)
- Expedientes médicos pertenecientes a todas las clases de pacientes cubiertas: pacientes hospitalizados, pacientes ambulatorios (clínicos, de rehabilitación, recurrentes, de día quirúrgicos), de emergencia.
- Registros médicos pertenecientes a todos los grupos de edad de pacientes <10 años (7.9 %), 11-20 años (5.7 %), 21-30 años (10.9 %), 31-40 años (11.7 %), 41-50 años (10.4 %) ), 51-60 años (13.8 %), 61-70 años (16.1 %), 71-80 años (13.3 %), 81-90 años (7.8 %), 90+ años (2.4 %)
- Proporción de género del paciente de 46% (hombre) y 54% (mujer)
- Documentos redactados de PII que se adhieren a las pautas de puerto seguro de conformidad con HIPAA
| Ubicación | Documentos de texto |
|---|---|
| Noreste | 4,473,573 |
| Sur | 1,801,716 |
| Medio Oeste | 781,701 |
| West | 1,509,109 |
| Categoría de diagnóstico principal | Documentos de texto |
|---|---|
| Uso de alcohol / drogas y trastornos mentales orgánicos inducidos por alcohol / drogas | 48,717 |
| Total incluyendo todo (Casos con y sin categoría MDC) | 8,566,687 |
| Casos sin reembolso generado (MDC no especificado) | 790,697 |
| Casos ambulatorios (MDC no especificado) | 1,980,606 |
| Casos que utilizan un mero de especialidad como 3M (no se especifica MDC) | 1,619,682 |
| Total con MDC | 4,175,702 |
| Consumo de alcohol/drogas o trastornos mentales inducidos | 48,717 |
| Quemaduras | 444 |
| Ojo | 3,549 |
| Sistema reproductor masculino | 9,230 |
| Infecciones por el virus de la inmunodeficiencia humana | 12,422 |
| Enfermedades y trastornos mieloproliferativos, neoplasias poco diferenciadas | 15,620 |
| Factores que influyen en el estado de salud y otros contactos con los servicios de salud | 21,294 |
| Sistema reproductivo femenino | 17,010 |
| Oído, nariz, boca y garganta | 22,987 |
| Trauma significativo múltiple | 27,902 |
| Sistema Circulatorio | 589,730 |
| Sangre, órganos hematopoyéticos y trastornos inmunológicos | 48,990 |
| Lesiones, intoxicaciones y efectos tóxicos de las drogas | 64,097 |
| Piel, tejido subcutáneo y mama | 89,577 |
| Sistema hepatobiliar y páncreas | 127,172 |
| Enfermedades y trastornos endocrinos, nutricionales y metabólicos | 142,808 |
| Recién nacidos y otros recién nacidos con afecciones que se originan en el período perinatal | 163,605 |
| Embarazo, parto y puerperio | 165,303 |
| Riñón y tracto urinario | 209,561 |
| Enfermedades y trastornos mentales | 282,501 |
| Sistema nervioso | 316,243 |
| Sistema Digestivo | 346,369 |
| Sistema musculoesquelético y tejido conectivo | 329,344 |
| Sistema Respiratorio | 561,983 |
| Enfermedades infecciosas y parasitarias | 559,244 |
Nos ocupamos de todo tipo de licencias de datos, es decir, texto, audio, video o imagen. Los conjuntos de datos consisten en conjuntos de datos médicos para ML: conjunto de datos de dictado médico, notas clínicas del médico, conjunto de datos de conversación médica, conjunto de datos de transcripción médica, conversación médico-paciente, datos de texto médico, imágenes médicas: tomografía computarizada, resonancia magnética, ultrasonido (requisitos personalizados de base recopilada) .
Aplicaciones reales de los conjuntos de datos de EHR en IA/ML
- Predicción y diagnóstico de enfermedades:Entrene modelos de IA para predecir enfermedades como diabetes, cáncer y afecciones cardiovasculares.
- Apoyo a la decisión clínica: Entrenar modelos para generar recomendaciones de diagnóstico, señalar interacciones farmacológicas y ayudar en la planificación del tratamiento utilizando datos estructurados de la historia clínica electrónica.
- Medicina personalizada:Utilice datos demográficos y de diagnóstico para recomendar planes de tratamiento personalizados.
- Automatización sanitaria:Automatice tareas administrativas como la programación de citas o la facturación con herramientas impulsadas por PNL entrenadas en conjuntos de datos EHR.
Modelado predictivo en el sector sanitario — Elaborar modelos de estratificación de riesgos y predicción de enfermedades utilizando registros longitudinales de pacientes, códigos DRG y puntuaciones de gravedad de la enfermedad.
Estudios de evidencia del mundo real (RWE) — Generar evidencia posterior a la comercialización e información sobre farmacovigilancia mediante el análisis de datos de resultados de historias clínicas electrónicas en cohortes de pacientes.
Procesamiento del lenguaje natural para notas clínicas — Extraer entidades, afecciones y procedimientos de notas médicas no estructuradas y resúmenes de alta utilizando datos de entrenamiento de historias clínicas electrónicas anotados.
¿Por qué elegir Shaip para los conjuntos de datos EHR?
Mano de obra experta
Profesionales cualificados garantizan una anotación de datos precisa y de alta calidad.
Cumplimiento de la normativa
Conjuntos de datos totalmente desidentificados que cumplen con HIPAA y GDPR.
Precios competitivos
Soluciones rentables entregadas sin comprometer la calidad.
Datos sin sesgos
Los protocolos estrictos eliminan los sesgos y garantizan resultados de IA confiables.
Rápido y preciso
Los procesos optimizados garantizan la entrega rápida de datos diversos y de alta calidad.
Disponibilidad y entrega
Alto tiempo de actividad de la red y entrega puntual de datos, servicios y soluciones.
Probado a escala
Con la confianza de Google y las principales empresas de IA aplicada a la salud. Control de calidad mediante procesos Six Sigma Black Belt y revisión por expertos médicos.
Listo para su comercialización
El catálogo de sistemas de registros médicos electrónicos (EHR) de Shaip, listo para usar, cuenta con licencia, está anonimizado y se puede descargar o acceder a través de Databricks Marketplace hoy mismo.
Soporte completo del ciclo de vida
¿Necesitas añadir anotaciones a los datos sin procesar? Shaip ofrece servicios de anonimización, etiquetado clínico NER y aumento de datos, todo ello a través de un único socio.
¿No encuentras lo que estás buscando?
Se recopilan nuevos conjuntos de datos médicos listos para usar en todos los tipos de datos
Contáctenos ahora para dejar de lado sus preocupaciones sobre la recopilación de datos de capacitación en atención médica
Preguntas Frecuentes (FAQ)
1. ¿Para qué se utilizan los conjuntos de datos EHR en IA?
Los conjuntos de datos de EHR se utilizan para entrenar modelos de IA para la predicción de enfermedades, la toma de decisiones clínicas y los tratamientos personalizados.
2. ¿Cómo se utilizan los datos de EHR en proyectos de IA/ML?
Los datos de EHR se utilizan para entrenar modelos de IA para el apoyo a la toma de decisiones clínicas, la predicción de enfermedades, la planificación de tratamientos personalizados y la automatización de la atención médica.
3. ¿Los datos del EHR están desidentificados?
Sí, todos los datos de EHR se desidentifican para eliminar la información de identificación personal (PII) y cumplir con las regulaciones de privacidad.
4. ¿Cuáles son los componentes clave de los datos del EHR?
Los datos de EHR contienen detalles como datos demográficos del paciente, historial médico, diagnósticos, planes de tratamiento, resultados de pruebas de laboratorio, imágenes radiológicas (por ejemplo, tomografía computarizada, resonancia magnética, radiografías), recetas y registros de vacunación.
5. ¿Los datos cumplen con la HIPAA y otras regulaciones?
Sí, los datos cumplen con HIPAA, GDPR y otros estándares de privacidad globales para garantizar un uso seguro y ético.
6. ¿Se pueden personalizar los conjuntos de datos de EHR?
Sí, los conjuntos de datos se pueden adaptar en función de especialidades médicas específicas, regiones, datos demográficos de los pacientes o requisitos del proyecto.
7. ¿Pueden los datos integrarse en mis modelos de IA?
Sí, los conjuntos de datos se proporcionan en formatos estándar (por ejemplo, JSON, CSV) para una fácil integración en los flujos de trabajo de IA y ML.
8. ¿Cómo se asegura la calidad de los datos?
Los datos se someten a rigurosos controles de validación y calidad para garantizar su precisión, consistencia y confiabilidad.
9. ¿Cuál es el costo de los conjuntos de datos de EHR?
Los costos dependen de factores como el volumen de datos, la personalización y el alcance del proyecto. Le solicitamos que complete el formulario "Contáctenos" con sus requisitos para recibir la mejor cotización.
10. ¿Cuáles son los plazos de entrega de los conjuntos de datos de EHR?
Los plazos de entrega varían según el tamaño y la complejidad del proyecto, pero están diseñados para cumplir con los plazos acordados.
11. ¿Cómo pueden los conjuntos de datos de EHR mejorar las soluciones de IA de atención médica?
Los conjuntos de datos de EHR permiten que los sistemas de IA proporcionen mejores diagnósticos, conocimientos predictivos y tratamientos personalizados, mejorando los resultados de los pacientes y la eficiencia de la atención médica.
12. ¿Puedo obtener conjuntos de datos EHR personalizados?
Sí, Shaip ofrece conjuntos de datos EHR personalizados según la especialidad, el grupo de edad, la geografía o los requisitos del proyecto.
13. ¿Cuál es la diferencia entre un conjunto de datos EHR y un conjunto de datos EMR?
Los registros médicos electrónicos (RME) contienen datos clínicos de un único profesional sanitario; los registros electrónicos de salud (RES) abarcan todo el proceso asistencial a través de múltiples profesionales, entornos y periodos de tiempo. Shaip ofrece variantes de conjuntos de datos tanto de RES como de RME, con registros longitudinales de múltiples profesionales disponibles para requisitos complejos de entrenamiento de IA.
14. ¿Cómo se anonimizan los datos de la historia clínica electrónica?
Todos los registros se anonimizan mediante el método de protección de datos de la HIPAA, eliminando los 18 identificadores de información de salud protegida (PHI), incluidos el nombre, la fecha de nacimiento, la dirección y los números de historia clínica. El campo MRN anonimizado se conserva para la vinculación de registros dentro del conjunto de datos, lo que permite realizar análisis longitudinales sin riesgo de reidentificación.