En el mundo actual, la atención médica se ve cada vez más impulsada por el aprendizaje automático (ML). Desde la predicción de enfermedades hasta la mejora de los diagnósticos, el ML está transformando los resultados de la atención médica. Sin embargo, todo proyecto de ML parte de un pilar fundamental: conjuntos de datos de calidad.
En este blog, hemos recopilado conjuntos de datos médicos gratuitos y abiertos de categorías como atención médica general, imágenes médicas, genómica y hospitalaria. Tanto si eres investigador como desarrollador, estos conjuntos de datos te ayudarán a crear modelos de atención médica robustos e innovadores.
¿Qué son los conjuntos de datos de atención sanitaria?
Un conjunto de datos médicos o de atención médica es una recopilación de información relacionada con la salud, como historiales clínicos, resultados de laboratorio, imágenes médicas o historiales de tratamiento. Los conjuntos de datos de atención médica suelen organizarse en colecciones de datos, que son repositorios cuidadosamente seleccionados y diseñados para la investigación, la salud pública y el uso clínico.
Estos conjuntos de datos se utilizan para estudiar enfermedades, mejorar tratamientos y desarrollar herramientas como modelos de IA para un mejor diagnóstico y atención. Muchos conjuntos de datos de atención médica contienen datos de salud anónimos, lo que garantiza la protección de la privacidad del paciente y, al mismo tiempo, permite investigaciones y análisis valiosos.
Desempeñan un papel clave en el avance de la investigación y la mejora de los resultados de los pacientes.
Importancia de los conjuntos de datos de atención médica para entrenar su modelo de aprendizaje automático

Los conjuntos de datos de atención médica son recopilaciones de información de pacientes, como historiales médicos, diagnósticos, tratamientos, datos genéticos y detalles sobre el estilo de vida. La ciencia de datos desempeña un papel crucial en el análisis de estos conjuntos de datos, permitiendo a los investigadores descubrir información valiosa e impulsar la innovación en la atención al paciente. Son muy importantes en el mundo actual, donde la IA se utiliza cada vez más. He aquí por qué: Los conjuntos de datos de referencia son esenciales para evaluar y comparar el rendimiento de los modelos de aprendizaje automático en la atención médica.
[También lea: Por qué los conjuntos de datos sanitarios son importantes para dar forma al futuro de la IA médica]
Comprender la salud del paciente:
Los conjuntos de datos de notas médicas ofrecen a los médicos una visión completa de la salud de un paciente. Por ejemplo, los datos sobre su historial médico, medicamentos y estilo de vida pueden ayudar a predecir la posibilidad de que desarrolle una enfermedad crónica. Esto permite a los médicos intervenir de forma temprana y elaborar un plan de tratamiento específico para ese paciente.
Ayudando a la investigación médica:
Al estudiar conjuntos de datos de atención médica, los investigadores médicos pueden observar cómo se trata a los pacientes con cáncer y cómo se recuperan. Pueden identificar los tratamientos que mejor funcionan en la práctica. Por ejemplo, al observar muestras tumorales en biobancos, los investigadores suelen analizar la expresión génica y utilizar conjuntos de datos relacionados con tipos específicos de tumores y perfiles genéticos para comprender la progresión del cáncer, así como la reacción de mutaciones y proteínas cancerosas específicas a diferentes tratamientos. Este enfoque basado en datos ayuda a identificar tendencias que conducen a mejores resultados para los pacientes.
Mejor diagnóstico y tratamiento:
Las herramientas basadas en IA utilizan conjuntos de datos de diagnóstico médico, que pueden incluir signos vitales como la frecuencia cardíaca y la presión arterial, para descubrir patrones que ayudan a los médicos a diagnosticar y tratar enfermedades con mayor eficacia. En radiología, la IA puede identificar rápidamente anomalías en las exploraciones con una precisión impresionante, lo que permite una detección temprana de enfermedades. A medida que estos conjuntos de datos siguen evolucionando, innovaciones como... anotación de imagen médica Estamos perfeccionando aún más los procesos de diagnóstico, e incluir la demografía de los pacientes en estos conjuntos de datos ayuda a adaptar las herramientas de diagnóstico a diversas poblaciones, lo que conduce a mejores resultados de atención médica para los pacientes.
Ayudando a las iniciativas de salud pública:
Imagine un pequeño pueblo donde expertos en salud usaron conjuntos de datos para rastrear un brote de gripe. Analizaron patrones e identificaron las zonas afectadas. Con estos datos, iniciaron campañas de vacunación y educación sanitaria específicas. Este enfoque basado en datos ayudó a contener la gripe. Conjuntos de datos como estos también son esenciales para las iniciativas de control de enfermedades y para monitorear las tendencias de nutrición infantil en salud pública. Esto demuestra cómo los conjuntos de datos de salud pueden guiar y mejorar activamente las iniciativas de salud pública, siendo el seguimiento de la nutrición infantil un componente fundamental de muchos conjuntos de datos de salud pública.
Fuentes de datos clínicos
Los datos clínicos constituyen la base de los conjuntos de datos de la atención médica moderna, ofreciendo una recopilación completa de información que impulsa los avances en la atención al paciente y la investigación médica. Estos datos provienen de diversos canales, como las historias clínicas electrónicas (HCE), las imágenes médicas y la secuenciación genómica. La Organización Mundial de la Salud (OMS) gestiona un repositorio global de datos de salud que proporciona acceso a datos clínicos de sistemas de salud de todo el mundo. Esta riqueza de datos permite a los investigadores realizar análisis de la atención médica, revelando información valiosa sobre los patrones de enfermedades, la eficacia de los tratamientos y los resultados de los pacientes.
Conjuntos de datos especializados, como la Iniciativa de Neuroimagen de la Enfermedad de Alzheimer (ADNI) y el Atlas del Genoma del Cáncer (TCGA), enriquecen aún más el panorama al ofrecer datos clínicos detallados sobre la progresión de la enfermedad, marcadores genéticos y respuestas terapéuticas. Estos recursos son fundamentales para el desarrollo de modelos de aprendizaje automático que pueden predecir resultados clínicos, personalizar tratamientos y, en última instancia, mejorar los resultados de los pacientes, a la vez que reducen los costos de la atención médica. Al aprovechar una recopilación tan completa de datos clínicos, el sector de la salud está mejor preparado para abordar los desafíos de salud global e impulsar la innovación en la investigación médica.
[También lea: El papel de los conjuntos de datos médicos multimodales en el avance de la investigación en IA]
Explora 22 conjuntos de datos abiertos y gratuitos para el aprendizaje en ciencias médicas y biológicas
Los conjuntos de datos abiertos son esenciales para el correcto funcionamiento de cualquier modelo de aprendizaje automático. Muchos de ellos provienen de grandes bases de datos de salud mantenidas por institutos nacionales y organizaciones de servicios humanos. El aprendizaje automático ya se utiliza en ciencias de la vida, atención médica y medicina, y está mostrando excelentes resultados. Ayuda a predecir enfermedades y a comprender cómo se propagan. El aprendizaje automático también aporta ideas sobre cómo podemos cuidar adecuadamente a las personas enfermas, mayores y con problemas de salud en una comunidad. Sin buenos conjuntos de datos, estos modelos de aprendizaje automático no serían posibles.
Salud General y Pública:
- data.gov: Se centra en datos de atención médica orientados a EE. UU. que se pueden buscar fácilmente utilizando múltiples parámetros. Los conjuntos de datos están diseñados para mejorar el bienestar de las personas que residen en los EE. UU.; sin embargo, la información también podría resultar beneficiosa para otros conjuntos de formación en investigación o dominios adicionales de salud pública.
- OMS: Ofrece conjuntos de datos centrados en las prioridades de salud global. La plataforma incorpora una función de búsqueda fácil de usar y proporciona información valiosa junto con los conjuntos de datos para una comprensión integral de los temas en cuestión.
- Re3Data: Ofrece datos que abarcan más de 2,000 temas de investigación categorizados en varias áreas amplias. Si bien no todos los conjuntos de datos son de libre acceso, la plataforma indica claramente la estructura y permite una búsqueda sencilla basada en factores como tarifas, requisitos de membresía y restricciones de derechos de autor.
- Base de datos de mortalidad humana ofrece acceso a datos sobre tasas de mortalidad, cifras de población y diversas estadísticas demográficas y de salud de 35 países.
- CHDS: Los conjuntos de datos de Estudios de desarrollo y salud infantil tienen como objetivo investigar la transmisión intergeneracional de enfermedades y salud. Abarca conjuntos de datos para investigar no sólo la expresión genómica sino también la influencia de factores sociales, ambientales y culturales en las enfermedades y la salud.
- Desafío de actividad molecular de Merck: Presenta conjuntos de datos diseñados para promover la aplicación del aprendizaje automático en el descubrimiento de fármacos mediante la simulación de posibles interacciones entre varias combinaciones de moléculas.
- Proyecto Genoma 1000: Contiene datos de secuenciación de 2,500 individuos en 26 poblaciones diferentes, lo que lo convierte en uno de los repositorios de genoma accesibles más grandes. Se puede acceder a esta colaboración internacional a través de AWS. (Tenga en cuenta que hay subvenciones disponibles para proyectos genómicos).
Conjuntos de datos de imágenes médicas para ciencias biológicas, atención médica y medicina:
- Neuro abierto: Como plataforma abierta y gratuita, OpenNeuro comparte una amplia gama de imágenes médicas, incluidos datos de MRI, MEG, EEG, iEEG, ECoG, ASL y PET. Con 563 conjuntos de datos médicos que cubren a 19,187 participantes, constituye un recurso invaluable para investigadores y profesionales de la salud.
- Oasis: Originado a partir de la Serie de Estudios de Imágenes de Acceso Abierto (OASIS), este conjunto de datos se esfuerza por proporcionar datos de neuroimagen al público de forma gratuita para beneficio de la comunidad científica. Abarca 1,098 sujetos en 2,168 sesiones de RM y 1,608 sesiones de PET, lo que ofrece una gran cantidad de información para los investigadores.
- Iniciativa de neuroimagen de la enfermedad de Alzheimer: La Iniciativa de Neuroimagen de la Enfermedad de Alzheimer (ADNI) muestra datos recopilados por investigadores de todo el mundo que se dedican a definir la progresión de la enfermedad de Alzheimer. El conjunto de datos incluye una colección completa de imágenes de resonancia magnética y PET, información genética, pruebas cognitivas y biomarcadores de sangre y LCR, lo que facilita un enfoque multifacético para comprender esta afección compleja.
- MÍMICA-III: MIMIC-III ofrece una base de datos completa de pacientes de UCI, que incluye informes de imágenes e información clínica. Este recurso, desidentificado, apoya la investigación en cuidados críticos y el modelado predictivo.
- CheXpertoPara la interpretación automatizada de radiografías de tórax, CheXpert proporciona un vasto conjunto de datos de más de 224,000 XNUMX imágenes de radiografías de tórax con etiquetas de incertidumbre. Desempeña un papel crucial en la investigación radiológica y la detección de enfermedades.
- HAM10000:Para avanzar en la investigación dermatológica y la predicción del cáncer de piel, HAM10000 ofrece 10,000 XNUMX imágenes dermatoscópicas para detectar lesiones cutáneas pigmentadas.
Conjuntos de datos hospitalarios:
- Catálogo de datos de proveedores: Acceda y descargue conjuntos de datos integrales de proveedores en áreas que incluyen centros de diálisis, consultorios médicos, servicios de salud domiciliaria, cuidados paliativos, hospitales, rehabilitación de pacientes hospitalizados, hospitales de atención a largo plazo, hogares de ancianos con servicios de rehabilitación, costos de visitas al consultorio médico y directorios de proveedores.
- Proyecto de utilización y costo de atención médica (HCUP): Esta base de datos integral a nivel nacional se creó para identificar, rastrear y analizar las tendencias nacionales en la utilización, el acceso, los costos, la calidad y los resultados de la atención médica. Cada conjunto de datos médicos dentro de HCUP contiene información a nivel de encuentro sobre todas las estadías de pacientes, visitas al departamento de emergencias y cirugías ambulatorias en hospitales de EE. UU., lo que proporciona una gran cantidad de datos para investigadores y formuladores de políticas.
- Base de datos de cuidados intensivos MIMIC: Desarrollado por el MIT con fines de fisiología computacional, este conjunto de datos médicos disponibles abiertamente comprende datos de salud no identificados de más de 40,000 pacientes de cuidados críticos. El conjunto de datos MIMIC sirve como un recurso valioso para los investigadores que estudian cuidados críticos y desarrollan nuevos métodos computacionales.
Conjuntos de datos sobre cáncer:
- Imágenes médicas de TC: Diseñado para facilitar métodos alternativos para examinar tendencias en datos de imágenes de TC, este conjunto de datos presenta exploraciones por TC de pacientes con cáncer, centrándose en factores como el contraste, la modalidad y la edad del paciente. Los investigadores pueden aprovechar estos datos para desarrollar nuevas técnicas de imágenes y analizar patrones en el diagnóstico y tratamiento del cáncer.
- Colaboración internacional para la presentación de informes sobre el cáncer (ICCR)Los conjuntos de datos médicos del ICCR se han desarrollado y proporcionado para promover un enfoque basado en la evidencia para la notificación del cáncer a nivel mundial. Al estandarizar la notificación del cáncer, el ICCR busca mejorar la calidad y la comparabilidad de los datos sobre el cáncer entre instituciones y países.
- SEER Incidencia de cáncer: Proporcionados por el gobierno de EE. UU., estos datos sobre el cáncer están segmentados utilizando distinciones demográficas básicas como raza, género y edad. El conjunto de datos SEER permite a los investigadores investigar las tasas de incidencia y supervivencia del cáncer en diferentes subgrupos de población, informando iniciativas de salud pública y prioridades de investigación.
- Conjunto de datos sobre cáncer de pulmón: Este conjunto de datos gratuito presenta información sobre casos de cáncer de pulmón que se remontan a 1995. Los investigadores pueden utilizar estos datos para estudiar tendencias a largo plazo en la incidencia, el tratamiento y los resultados del cáncer de pulmón, así como para desarrollar nuevas herramientas de diagnóstico y pronóstico.
Recursos adicionales para datos de atención médica:
- Kaggle: Un repositorio de conjuntos de datos versátil: Kaggle sigue siendo una plataforma excepcional para una amplia gama de conjuntos de datos, que no se limita al sector de la salud. Ideal para quienes se diversifican en diversos temas o necesitan diversos conjuntos de datos para el entrenamiento de modelos, Kaggle es un recurso de referencia.
- Subreddit: Un tesoro escondido impulsado por la comunidad: las discusiones de subreddit adecuadas pueden ser una mina de oro para conjuntos de datos abiertos. Para consultas específicas o de nicho que no se abordan en conjuntos de datos públicos, la comunidad de Reddit podría tener la respuesta.
Los pros y contras de las plataformas de datos de acceso abierto
Las plataformas de datos de acceso abierto ofrecen recursos invaluables para los investigadores, fomentando la innovación, la colaboración y el acceso rentable a los datos sanitarios. Sin embargo, desafíos como la calidad de los datos, las preocupaciones sobre la privacidad y las barreras técnicas pueden limitar su eficacia. Es fundamental equilibrar estas ventajas y desventajas para maximizar su potencial e impulsar avances en la investigación sanitaria.
| Ventajas | Desventajas |
|---|---|
| AccesibilidadLos conjuntos de datos disponibles gratuitamente facilitan que los investigadores y científicos de datos accedan a información valiosa. | Cuestiones de calidad de datos:Los conjuntos de datos de acceso abierto pueden carecer de estandarización o contener datos incompletos u obsoletos. |
| Colaboración:Fomenta la colaboración intersectorial e interdisciplinaria en investigación e innovación. | Preocupaciones sobre la privacidad:Incluso los conjuntos de datos anonimizados pueden suponer riesgos de reidentificación de información confidencial. |
| Innovación:Impulsa el desarrollo de modelos y herramientas de aprendizaje automático para la investigación y el análisis de la atención médica. | Alcance limitado:Es posible que algunos conjuntos de datos no representen poblaciones diversas o no cubran todas las áreas de atención médica necesarias. |
| Económico:Permite ahorrar costes proporcionando recursos gratuitos, eliminando así la necesidad de contar con datos propietarios costosos. | Uso excesivo de datos sintéticos:La dependencia excesiva de datos sintéticos podría generar imprecisiones o sesgos en los modelos. |
| El intercambio de conocimientos:Promueve la transparencia y acelera la difusión de los resultados de la investigación. | Barreras Técnicas:El acceso y análisis de grandes conjuntos de datos puede requerir habilidades y recursos técnicos avanzados. |
Calidad y seguridad de los datos en conjuntos de datos médicos
Mantener altos estándares de calidad y seguridad de los datos es fundamental al trabajar con conjuntos de datos médicos. Garantizar la calidad de los datos implica rigurosos procesos de validación y limpieza para eliminar errores e inconsistencias, lo cual es esencial para obtener resultados de investigación fiables. En cuanto a la seguridad, medidas robustas como el cifrado, los controles de acceso y el almacenamiento seguro son cruciales para proteger la información sanitaria confidencial.
La desidentificación de los conjuntos de datos es una práctica clave que permite a los investigadores utilizar datos de salud desidentificados para análisis, preservando al mismo tiempo la privacidad del paciente. Técnicas avanzadas como la indexación semántica biomédica mejoran la usabilidad y la precisión de los conjuntos de datos médicos, facilitando la organización y la recuperación de información relevante. Al priorizar la calidad y la seguridad de los datos, las instituciones sanitarias pueden fomentar la confianza, promover el cumplimiento normativo y facilitar el uso seguro y eficaz de los conjuntos de datos médicos para la investigación y la innovación.
Acelere sus proyectos de IA para el cuidado de la salud con los conjuntos de datos médicos premium listos para usar de Shaip
Conjunto de datos de conversaciones entre médicos y pacientes
Nuestro conjunto de datos tiene archivos de audio de conversaciones entre médicos y pacientes sobre su salud y planes de tratamiento. Los expedientes cubren 31 especialidades médicas diferentes.
¿Qué incluye?
- 257,977 horas de audio de dictado médico real para entrenar modelos de habla de atención médica
- Audio desde varios dispositivos como teléfonos, grabadoras digitales, micrófonos de voz y teléfonos inteligentes
- Audio y transcripciones con información personal eliminadas para cumplir con las leyes de privacidad.
Conjunto de datos de imágenes de CT SCAN
Ofrecemos conjuntos de datos de imágenes de tomografía computarizada de primer nivel para investigación y diagnóstico médico. Disponemos de miles de imágenes de alta calidad de pacientes reales, procesadas utilizando las últimas técnicas. Nuestros conjuntos de datos ayudan a los médicos e investigadores a comprender mejor diversos problemas de salud, como el cáncer, los trastornos cerebrales y las enfermedades cardíacas.
Los datos indican que las tomografías computarizadas más comunes son las del tórax (6000) y la cabeza (4350), y también se realizan un número significativo de exploraciones del abdomen, la pelvis y otras partes del cuerpo. La tabla también revela que ciertas exploraciones especializadas, como la TC Covid-HRCT y la angiopulmonar, se realizan principalmente en India, Asia, Europa y otros.
Conjunto de datos de registros médicos electrónicos (EHR)
Los registros médicos electrónicos (EHR) son versiones digitales del historial médico de un paciente. Incluyen información como diagnósticos, medicamentos, planes de tratamiento, fechas de vacunación, alergias, imágenes médicas (como tomografías computarizadas, resonancias magnéticas y radiografías), pruebas de laboratorio y más.
Nuestro conjunto de datos EHR listo para usar incluye:
- Más de 5.1 millones de registros y archivos de audio de médicos que abarcan 31 especialidades médicas
- Registros médicos auténticos ideales para la formación de PNL clínica y otros modelos de IA de documentos
- Metadatos que incluyen MRN anónimo, fechas de admisión y alta, duración de la estadía, sexo, clase de paciente, pagador, clase financiera, estado, disposición de alta, edad, DRG, descripción de DRG, reembolso, AMLOS, GMLOS, riesgo de mortalidad, gravedad de la enfermedad, mero y código postal del hospital
- Registros que cubren todas las clases de pacientes: pacientes hospitalizados, ambulatorios (clínicos, de rehabilitación, recurrentes, de atención ambulatoria quirúrgica) y de emergencia.
- Documentos con información de identificación personal (PII) redactada, que cumplen con las pautas de puerto seguro de HIPAA
Conjunto de datos de imágenes de resonancia magnética
Ofrecemos conjuntos de datos de imágenes de resonancia magnética de primera calidad para respaldar la investigación y el diagnóstico médicos. Nuestra extensa colección incluye miles de imágenes de alta resolución de pacientes reales, todas procesadas utilizando métodos de vanguardia. Al utilizar nuestros conjuntos de datos, los investigadores y los profesionales de la salud pueden profundizar su comprensión de una amplia gama de afecciones médicas, lo que en última instancia conduce a mejores resultados para los pacientes.
Conjunto de datos de imágenes de resonancia magnética de varias partes del cuerpo, donde la columna y el cerebro tienen los recuentos más altos, 5000 cada uno. Los datos se distribuyen en las regiones de India, Asia central y Europa y Asia central.
Conjunto de datos de imágenes de rayos X
Conjuntos de datos de imágenes de rayos X de la mejor calidad para investigación y diagnóstico médico. Disponemos de miles de imágenes de alta resolución de pacientes reales, procesadas utilizando las últimas técnicas. Con Shaip, puede acceder a datos médicos confiables para mejorar su investigación y los resultados de sus pacientes.
Distribución del conjunto de datos de rayos X en varias partes del cuerpo, y el tórax tiene el recuento más alto con 1000 en Asia Central. Las extremidades inferiores y superiores tienen un total de 850 cada una, distribuidas entre las regiones de Asia Central y Asia Central y Europa.
Conclusión
En resumen, los conjuntos de datos sanitarios son un recurso invaluable para impulsar mejoras en los resultados de los pacientes, reducir los costes sanitarios y promover la investigación médica y sanitaria. Al aprovechar diversas fuentes de datos clínicos, como las historias clínicas electrónicas (HCE), las imágenes médicas y los repositorios de salud global, los científicos de datos y los investigadores pueden crear potentes modelos de aprendizaje automático que predicen la progresión de la enfermedad e identifican a los pacientes en riesgo. Las plataformas de datos de acceso abierto y los proyectos de utilización ofrecen nuevas oportunidades para analizar los costes y la utilización de la atención médica, ofreciendo información valiosa que fundamenta las políticas y la práctica clínica.
Garantizar la calidad y la seguridad de los conjuntos de datos sanitarios es esencial para mantener la confianza y obtener resultados fiables. A medida que el sector sanitario continúa adoptando la innovación basada en datos, el uso responsable de los conjuntos de datos médicos será clave para mejorar la equidad sanitaria, optimizar los costes y la utilización de la atención médica, y ofrecer mejores resultados para todos. Al priorizar la accesibilidad, la calidad y la seguridad de los datos, podemos aprovechar al máximo el potencial de los conjuntos de datos sanitarios y forjar un futuro más prometedor para el análisis sanitario y la investigación médica.