Conjuntos de datos sanitarios

Los mejores conjuntos de datos sanitarios de código abierto para proyectos de aprendizaje automático

  • El sistema sanitario mundial produce diariamente grandes cantidades de datos médicos, que tienen el potencial de utilizarse para aplicaciones de aprendizaje automático. En todas las industrias, los datos se consideran un activo valioso que permite a las empresas obtener una ventaja competitiva, y el sector de la salud no es diferente.

Este artículo abordará de manera concisa los obstáculos encontrados al tratar con datos médicos y proporcionará un resumen de los conjuntos de datos sanitarios de acceso público.

Importancia de los conjuntos de datos sanitarios

Importancia de los conjuntos de datos sanitarios

Los conjuntos de datos de atención médica son colecciones de información de pacientes, como registros médicos, diagnósticos, tratamientos, datos genéticos y detalles de estilo de vida. Son muy importantes en el mundo actual, donde la IA se utiliza cada vez más. Este es el por qué:

Comprender la salud del paciente:

Los conjuntos de datos sanitarios ofrecen a los médicos una imagen completa de la salud de un paciente. Por ejemplo, los datos sobre el historial médico, los medicamentos y el estilo de vida de un paciente pueden ayudar a predecir si podría contraer una enfermedad crónica. Esto permite a los médicos intervenir temprano y elaborar un plan de tratamiento solo para ese paciente.

Ayudando a la investigación médica:

Al estudiar los conjuntos de datos de atención médica, los investigadores médicos pueden observar cómo se trata a los pacientes con cáncer y cómo se recuperan. Pueden encontrar los tratamientos que funcionan mejor en el mundo real. Por ejemplo, al observar muestras de tumores en biobancos y los historiales de tratamiento de pacientes, los investigadores pueden aprender cómo reaccionan mutaciones específicas y proteínas cancerosas a diferentes tratamientos. Este enfoque basado en datos ayuda a encontrar tendencias que conduzcan a mejores resultados para los pacientes.

Mejor diagnóstico y tratamiento:

Los médicos utilizan herramientas de inteligencia artificial para observar conjuntos de datos de atención médica y encontrar patrones importantes. Esto les ayuda a diagnosticar y tratar mejor las enfermedades. En radiología, la IA puede encontrar problemas en las exploraciones de forma más rápida y precisa que los humanos. Esto significa que los médicos pueden encontrar enfermedades antes y comenzar antes el tratamiento adecuado. La anotación de imágenes médicas puede conducir a un diagnóstico mejor y más rápido, lo que mejora la salud del paciente.

Ayudando a las iniciativas de salud pública:

Imagine una pequeña ciudad donde los expertos en atención médica utilizaron conjuntos de datos para rastrear un brote de gripe. Observaron patrones y encontraron las áreas afectadas. Con estos datos, iniciaron campañas de vacunación específicas y campañas de educación sanitaria. Este enfoque basado en datos ayudó a contener la gripe. Muestra cómo los conjuntos de datos sanitarios pueden guiar y mejorar activamente las iniciativas de salud pública.

Conjuntos de datos médicos de código abierto para aprendizaje automático

Los conjuntos de datos abiertos son esenciales para que cualquier modelo de aprendizaje automático funcione bien. El aprendizaje automático ya se utiliza en ciencias biológicas, atención médica y medicina, y está mostrando excelentes resultados. Está ayudando a predecir enfermedades y comprender cómo se propagan. El aprendizaje automático también brinda ideas sobre cómo podemos cuidar adecuadamente a las personas enfermas, ancianas y enfermas de una comunidad. Sin buenos conjuntos de datos, estos modelos de aprendizaje automático no serían posibles.

Salud General y Pública:

  • data.gov: Se centra en datos de atención médica orientados a EE. UU. que se pueden buscar fácilmente utilizando múltiples parámetros. Los conjuntos de datos están diseñados para mejorar el bienestar de las personas que residen en los EE. UU.; sin embargo, la información también podría resultar beneficiosa para otros conjuntos de formación en investigación o dominios adicionales de salud pública.
  • QUIENES: Ofrece conjuntos de datos centrados en las prioridades de salud global. La plataforma incorpora una función de búsqueda fácil de usar y proporciona información valiosa junto con los conjuntos de datos para una comprensión integral de los temas en cuestión.
  • Re3Data: Ofrece datos que abarcan más de 2,000 temas de investigación categorizados en varias áreas amplias. Si bien no todos los conjuntos de datos son de libre acceso, la plataforma indica claramente la estructura y permite una búsqueda sencilla basada en factores como tarifas, requisitos de membresía y restricciones de derechos de autor.
  • Base de datos de mortalidad humana ofrece acceso a datos sobre tasas de mortalidad, cifras de población y diversas estadísticas demográficas y de salud de 35 países.
  • CHDS: Los conjuntos de datos de Estudios de desarrollo y salud infantil tienen como objetivo investigar la transmisión intergeneracional de enfermedades y salud. Abarca conjuntos de datos para investigar no sólo la expresión genómica sino también la influencia de factores sociales, ambientales y culturales en las enfermedades y la salud.
  • Desafío de actividad molecular de Merck: Presenta conjuntos de datos diseñados para promover la aplicación del aprendizaje automático en el descubrimiento de fármacos mediante la simulación de posibles interacciones entre varias combinaciones de moléculas.
  • Proyecto Genoma 1000: Contiene datos de secuenciación de 2,500 individuos en 26 poblaciones diferentes, lo que lo convierte en uno de los repositorios de genoma accesibles más grandes. Se puede acceder a esta colaboración internacional a través de AWS. (Tenga en cuenta que hay subvenciones disponibles para proyectos genómicos).

Conjuntos de datos de imágenes para ciencias biológicas, atención sanitaria y medicina:

  • Neuro abierto: Como plataforma abierta y gratuita, OpenNeuro comparte una amplia gama de imágenes médicas, incluidos datos de MRI, MEG, EEG, iEEG, ECoG, ASL y PET. Con 563 conjuntos de datos médicos que cubren a 19,187 participantes, constituye un recurso invaluable para investigadores y profesionales de la salud.
  • Oasis: Originado a partir de la Serie de Estudios de Imágenes de Acceso Abierto (OASIS), este conjunto de datos se esfuerza por proporcionar datos de neuroimagen al público de forma gratuita para beneficio de la comunidad científica. Abarca 1,098 sujetos en 2,168 sesiones de RM y 1,608 sesiones de PET, lo que ofrece una gran cantidad de información para los investigadores.
  • Iniciativa de neuroimagen de la enfermedad de Alzheimer: La Iniciativa de Neuroimagen de la Enfermedad de Alzheimer (ADNI) muestra datos recopilados por investigadores de todo el mundo que se dedican a definir la progresión de la enfermedad de Alzheimer. El conjunto de datos incluye una colección completa de imágenes de resonancia magnética y PET, información genética, pruebas cognitivas y biomarcadores de sangre y LCR, lo que facilita un enfoque multifacético para comprender esta afección compleja.

Conjuntos de datos hospitalarios:

  • Catálogo de datos de proveedores: Acceda y descargue conjuntos de datos integrales de proveedores en áreas que incluyen centros de diálisis, consultorios médicos, servicios de salud domiciliaria, cuidados paliativos, hospitales, rehabilitación de pacientes hospitalizados, hospitales de atención a largo plazo, hogares de ancianos con servicios de rehabilitación, costos de visitas al consultorio médico y directorios de proveedores.
  • Proyecto de utilización y costo de atención médica (HCUP): Esta base de datos integral a nivel nacional se creó para identificar, rastrear y analizar las tendencias nacionales en la utilización, el acceso, los costos, la calidad y los resultados de la atención médica. Cada conjunto de datos médicos dentro de HCUP contiene información a nivel de encuentro sobre todas las estadías de pacientes, visitas al departamento de emergencias y cirugías ambulatorias en hospitales de EE. UU., lo que proporciona una gran cantidad de datos para investigadores y formuladores de políticas.
  • Base de datos de cuidados intensivos MIMIC: Desarrollado por el MIT con fines de fisiología computacional, este conjunto de datos médicos disponibles abiertamente comprende datos de salud no identificados de más de 40,000 pacientes de cuidados críticos. El conjunto de datos MIMIC sirve como un recurso valioso para los investigadores que estudian cuidados críticos y desarrollan nuevos métodos computacionales.

Conjuntos de datos sobre cáncer:

  • Imágenes médicas de TC: Diseñado para facilitar métodos alternativos para examinar tendencias en datos de imágenes de TC, este conjunto de datos presenta exploraciones por TC de pacientes con cáncer, centrándose en factores como el contraste, la modalidad y la edad del paciente. Los investigadores pueden aprovechar estos datos para desarrollar nuevas técnicas de imágenes y analizar patrones en el diagnóstico y tratamiento del cáncer.
  • Colaboración internacional para la presentación de informes sobre el cáncer (ICCR): Los conjuntos de datos médicos dentro del ICCR se han desarrollado y proporcionado para promover un enfoque basado en evidencia para la notificación del cáncer en todo el mundo. Al estandarizar los informes sobre el cáncer, el ICCR tiene como objetivo mejorar la calidad y la comparabilidad de los datos sobre el cáncer entre instituciones y países.
  • SEER Incidencia de cáncer: Proporcionados por el gobierno de EE. UU., estos datos sobre el cáncer están segmentados utilizando distinciones demográficas básicas como raza, género y edad. El conjunto de datos SEER permite a los investigadores investigar las tasas de incidencia y supervivencia del cáncer en diferentes subgrupos de población, informando iniciativas de salud pública y prioridades de investigación.
  • Conjunto de datos sobre cáncer de pulmón: Este conjunto de datos gratuito presenta información sobre casos de cáncer de pulmón que se remontan a 1995. Los investigadores pueden utilizar estos datos para estudiar tendencias a largo plazo en la incidencia, el tratamiento y los resultados del cáncer de pulmón, así como para desarrollar nuevas herramientas de diagnóstico y pronóstico.

Recursos adicionales para datos de atención médica:

  • Kaggle: Un repositorio de conjuntos de datos versátil: Kaggle sigue siendo una plataforma excepcional para una amplia gama de conjuntos de datos, que no se limita al sector de la salud. Ideal para quienes se diversifican en diversos temas o necesitan diversos conjuntos de datos para el entrenamiento de modelos, Kaggle es un recurso de referencia.
  • Subreddit: Un tesoro escondido impulsado por la comunidad: las discusiones de subreddit adecuadas pueden ser una mina de oro para conjuntos de datos abiertos. Para consultas específicas o de nicho que no se abordan en conjuntos de datos públicos, la comunidad de Reddit podría tener la respuesta.

Acelere sus proyectos de IA para el cuidado de la salud con los conjuntos de datos médicos premium listos para usar de Shaip

Conjunto de datos de conversaciones entre médicos y pacientes

Nuestro conjunto de datos tiene archivos de audio de conversaciones entre médicos y pacientes sobre su salud y planes de tratamiento. Los expedientes cubren 31 especialidades médicas diferentes.

¿Qué incluye?

  • 257,977 horas de audio de dictado médico real para entrenar modelos de habla de atención médica
  • Audio desde varios dispositivos como teléfonos, grabadoras digitales, micrófonos de voz y teléfonos inteligentes
  • Audio y transcripciones con información personal eliminadas para cumplir con las leyes de privacidad.

Conjunto de datos de imágenes de CT SCAN

Ofrecemos conjuntos de datos de imágenes de tomografía computarizada de primer nivel para investigación y diagnóstico médico. Disponemos de miles de imágenes de alta calidad de pacientes reales, procesadas utilizando las últimas técnicas. Nuestros conjuntos de datos ayudan a los médicos e investigadores a comprender mejor diversos problemas de salud, como el cáncer, los trastornos cerebrales y las enfermedades cardíacas.

Los datos indican que las tomografías computarizadas más comunes son las del tórax (6000) y la cabeza (4350), y también se realizan un número significativo de exploraciones del abdomen, la pelvis y otras partes del cuerpo. La tabla también revela que ciertas exploraciones especializadas, como la TC Covid-HRCT y la angiopulmonar, se realizan principalmente en India, Asia, Europa y otros.

Conjunto de datos de registros médicos electrónicos (EHR)

Los registros médicos electrónicos (EHR) son versiones digitales del historial médico de un paciente. Incluyen información como diagnósticos, medicamentos, planes de tratamiento, fechas de vacunación, alergias, imágenes médicas (como tomografías computarizadas, resonancias magnéticas y radiografías), pruebas de laboratorio y más.

Nuestro conjunto de datos EHR listo para usar incluye:

  • Más de 5.1 millones de registros y archivos de audio de médicos que abarcan 31 especialidades médicas
  • Registros médicos auténticos ideales para la formación de PNL clínica y otros modelos de IA de documentos
  • Metadatos que incluyen MRN anónimo, fechas de admisión y alta, duración de la estadía, sexo, clase de paciente, pagador, clase financiera, estado, disposición de alta, edad, DRG, descripción de DRG, reembolso, AMLOS, GMLOS, riesgo de mortalidad, gravedad de la enfermedad, mero y código postal del hospital
  • Registros que cubren todas las clases de pacientes: pacientes hospitalizados, ambulatorios (clínicos, de rehabilitación, recurrentes, de atención ambulatoria quirúrgica) y de emergencia.
  • Documentos con información de identificación personal (PII) redactada, que cumplen con las pautas de puerto seguro de HIPAA

Conjunto de datos de imágenes de resonancia magnética

Ofrecemos conjuntos de datos de imágenes de resonancia magnética de primera calidad para respaldar la investigación y el diagnóstico médicos. Nuestra extensa colección incluye miles de imágenes de alta resolución de pacientes reales, todas procesadas utilizando métodos de vanguardia. Al utilizar nuestros conjuntos de datos, los investigadores y los profesionales de la salud pueden profundizar su comprensión de una amplia gama de afecciones médicas, lo que en última instancia conduce a mejores resultados para los pacientes.

Conjunto de datos de imágenes de resonancia magnética de varias partes del cuerpo, donde la columna y el cerebro tienen los recuentos más altos, 5000 cada uno. Los datos se distribuyen en las regiones de India, Asia central y Europa y Asia central.

Conjunto de datos de imágenes de rayos X

Conjuntos de datos de imágenes de rayos X de la mejor calidad para investigación y diagnóstico médico. Disponemos de miles de imágenes de alta resolución de pacientes reales, procesadas utilizando las últimas técnicas. Con Shaip, puede acceder a datos médicos confiables para mejorar su investigación y los resultados de sus pacientes.

Distribución del conjunto de datos de rayos X en varias partes del cuerpo, y el tórax tiene el recuento más alto con 1000 en Asia Central. Las extremidades inferiores y superiores tienen un total de 850 cada una, distribuidas entre las regiones de Asia Central y Asia Central y Europa.

Social Share