Visión por computador

31 conjuntos de datos de imágenes gratuitos para visión artificial que impulsarán tu proyecto [actualizado en 2025]

Un algoritmo de IA es tan bueno como los datos que le proporcionas.

No es una declaración audaz ni poco convencional. La IA podría haber parecido bastante descabellada hace un par de décadas, pero la inteligencia artificial y el aprendizaje automático han recorrido un largo camino desde entonces.

La visión artificial ayuda a las computadoras a comprender e interpretar etiquetas e imágenes. Al entrenar su computadora con los conjuntos de datos de imágenes adecuados, puede adquirir la capacidad de detectar, comprender e identificar diversos rasgos faciales, detectar enfermedades, conducir vehículos autónomos y, además, salvar vidas mediante el escaneo multidimensional de órganos.

Se prevé que el mercado de Visión por computadora alcance $ 144.46 Billion por 2028 de un modesto $ 7.04 mil millones en 2020, creciendo a CAGR de 45.64% entre 2021 y 2028.

El conjunto de datos de imágenes que alimenta y entrena sus tareas de aprendizaje automático y visión artificial es crucial para el éxito de su proyecto de IA. Un conjunto de datos de calidad es bastante difícil de conseguir. Usar una colección diversa de imágenes es esencial para garantizar un entrenamiento robusto del modelo y reflejar mejor la complejidad del mundo real.

Dependiendo de la complejidad de su proyecto, obtener conjuntos de datos fiables y relevantes para la visión artificial podría llevar desde unos días hasta varias semanas. Se necesita una gama diversa de conjuntos de datos para cubrir diversas tareas de visión artificial y escenarios reales. Los investigadores suelen buscar un conjunto de datos sustancial para fines de investigación, a fin de garantizar una evaluación exhaustiva del modelo y dar soporte a una amplia gama de aplicaciones.

Aquí le proporcionamos una variedad (clasificada para su facilidad) de conjuntos de datos de imágenes de código abierto que puede usar de inmediato.

Tareas de conjuntos de datos de imágenes: clasificación, segmentación, detección y más

Conjuntos de datos de imágenes Son la columna vertebral de la visión artificial moderna, impulsando una amplia gama de tareas que permiten a las máquinas interpretar y comprender la información visual. Ya sea que esté construyendo un modelo para vehículos autónomos, desarrollando tecnología de reconocimiento facial o trabajando en el análisis de imágenes médicas, el conjunto de datos de imágenes adecuado es una herramienta esencial para el éxito.

Clasificación de la imagen Es una de las tareas más fundamentales de la visión artificial. En este proceso, un modelo aprende a etiquetar una imagen completa según su contenido. Por ejemplo, un conjunto de datos de clasificación de imágenes podría ayudar a un modelo a distinguir entre imágenes de gatos y perros, o a identificar diferentes tipos de plantas. Esta tarea es crucial para aplicaciones como el etiquetado automático de fotos, el diagnóstico de enfermedades a partir de imágenes médicas y los puntos de referencia para la categorización de escenas.

Detección de objetos Va un paso más allá al identificar no solo la presencia de objetos en una imagen, sino también su ubicación mediante cuadros delimitadores. Los conjuntos de datos para la detección de objetos, como los que contienen imágenes anotadas con cuadros delimitadores, son vitales para aplicaciones como la detección de peatones en vehículos autónomos, la vigilancia de seguridad y el análisis de comercios minoristas. La detección de objetos también es un componente clave en el desarrollo de algoritmos robustos de visión artificial para situaciones reales.

Segmentación semántica Implica clasificar cada píxel de una imagen en una categoría específica, lo que proporciona una comprensión detallada de la escena. Esta segmentación de mapas de recorte a nivel de píxel es especialmente importante en tareas como la imagenología médica, donde se requiere la delineación precisa de órganos o tumores, y en entornos urbanos para la conducción autónoma, donde distinguir entre carreteras, aceras y vehículos es crucial.

Además de estas tareas principales, los conjuntos de datos de imágenes también permiten la segmentación de instancias (diferenciación entre objetos individuales de la misma clase), la creación de subtítulos (generación de texto descriptivo) y el reconocimiento facial (identificación o verificación de rostros humanos en imágenes). Cada una de estas tareas de visión artificial se basa en imágenes anotadas de alta calidad para entrenar y validar modelos de aprendizaje automático.

Al aprovechar conjuntos de datos de imágenes diversos y bien anotados, los científicos de datos y los profesionales del aprendizaje automático pueden abordar diversos desafíos de la visión artificial, desde tareas de reconocimiento y clasificación de imágenes hasta problemas complejos de segmentación y detección. El conjunto de datos adecuado no solo acelera la investigación y el desarrollo, sino que también garantiza que los sistemas de visión artificial funcionen con precisión en aplicaciones del mundo real.

Lista completa de conjuntos de datos de imágenes para entrenar su modelo de visión artificial

General:

  1. ImagenNet

    ImageNet es un conjunto de datos ampliamente utilizado y viene con la asombrosa cantidad de 1.2 millones de imágenes clasificadas en 1000 categorías. Este conjunto de datos está organizado según la jerarquía de WorldNet y se clasifica en tres partes: datos de entrenamiento, etiquetas de imágenes y datos de validación.

  2. Cinética 700

    Kinetics 700 es un enorme conjunto de datos de alta calidad con más de 650,000 700 clips de 700 clases diferentes de acción humana. Cada una de las acciones de clase tiene alrededor de XNUMX videoclips. Los clips en el conjunto de datos tienen interacciones humano-objeto y humano-humano, que están demostrando ser muy útiles para reconocer acciones humanas en videos.

  3. CIFAR-10

    CIFAR 10 es uno de los conjuntos de datos de visión por computadora más grandes que cuenta con 60000 imágenes en color de 32 x 32 que representan diez clases diferentes. Cada clase tiene alrededor de 6000 imágenes que se utilizan para entrenar algoritmos de visión por computadora y aprendizaje automático.

  4. Conjunto de datos de imágenes de mascotas de Oxford-IIIT

    El conjunto de datos de imágenes de mascotas comprende 37 categorías con 200 imágenes por clase. Estas imágenes varían en escala, pose e iluminación, y están acompañadas de anotaciones sobre la raza, el área de interés de la cabeza y la segmentación de mapas de recorte a nivel de píxeles.

  5. Imágenes abiertas de Google

    Con unas impresionantes 9 millones de URL, este es uno de los conjuntos de datos de imágenes más grandes de la lista y contiene millones de imágenes etiquetadas en 6,000 categorías.

  6. Imágenes de plantas

    Esta compilación incluye múltiples conjuntos de datos de imágenes que incluyen un impresionante millón de imágenes de plantas, que abarcan aproximadamente 1 especies.

  7. LSUN

    LSUN es un conjunto de datos de imágenes a gran escala con millones de imágenes etiquetadas en diversas categorías de escenas y objetos. El conjunto de datos incluye un conjunto de pruebas específico para la evaluación de modelos.

Reconocimiento facial:

Reconocimiento facial

  1. Rostros etiquetados en la naturaleza

    Labeled Faced in the Wild es un enorme conjunto de datos que contiene más de 13,230 imágenes de casi 5,750 personas detectadas en Internet. Este conjunto de datos de rostros está diseñado para facilitar el estudio de la detección de rostros sin restricciones.

  2. Cara web de CASIA

    CASIA Web face es un conjunto de datos bien diseñado que ayuda al aprendizaje automático y la investigación científica sobre el reconocimiento facial sin restricciones. Con más de 494,000 imágenes de casi 10,000 identidades reales, es ideal para tareas de identificación y verificación de rostros.

  3. Conjunto de datos de rostros UMD

    UMD se enfrenta a un conjunto de datos bien anotado que contiene dos partes: imágenes fijas y fotogramas de vídeo. El conjunto de datos tiene más de 367,800 anotaciones faciales y 3.7 millones de fotogramas de video anotados de sujetos.

  4. Detección de máscara facial

    Este conjunto de datos incluye 853 imágenes categorizadas en tres clases: “con máscara”, “sin máscara” y “máscara usada incorrectamente”, junto con sus cuadros delimitadores en formato PASCAL VOC.

  5. FERET

    FERET (Base de datos de tecnología de reconocimiento facial) es un conjunto de datos de imágenes completo que contiene más de 14,000 imágenes anotadas de rostros humanos.

Reconocimiento de escritura a mano:

  1. Base de datos MNIST

    MNIST es una base de datos que contiene muestras de dígitos escritos a mano del 0 al 9, y tiene 60,000 y 10,000 imágenes de entrenamiento y prueba. Lanzado en 1999, MNIST facilita la prueba de sistemas de procesamiento de imágenes en Deep Learning.

  2. Conjunto de datos de caracteres artificiales

    El conjunto de datos de caracteres artificiales es, como su nombre indica, datos generados artificialmente que describen la estructura del idioma inglés en diez letras mayúsculas. Viene con más de 6000 imágenes.

Detección de objetos:

  1. MS COCO

    MS COCO u Objetos comunes en contexto es un conjunto de datos de subtítulos y detección de objetos.

    Tiene más de 328,000 imágenes con detección de puntos clave, detección de múltiples objetos, subtítulos y anotaciones de máscara de segmentación. Viene con 80 categorías de objetos y cinco leyendas por imagen.

  2. LSUN

    LSUN, abreviatura de Comprensión de escenas a gran escala, tiene más de un millón de imágenes etiquetadas en 20 categorías de objetos y 10 de escenas. Algunas categorías tienen cerca de 300,000 300 imágenes, con 1000 imágenes específicas para validación y XNUMX imágenes para datos de prueba.

  3. Objetos de inicio

    El conjunto de datos de Home Objects contiene imágenes anotadas de objetos aleatorios de toda la casa: cocina, sala de estar y baño. Este conjunto de datos también tiene algunos videos anotados y 398 fotos sin anotaciones diseñadas para pruebas.

  4. Genoma visual

    Visual Genome es una completa base de conocimiento visual con más de 108,000 imágenes subtituladas. Ofrece amplias anotaciones para objetos, atributos y relaciones, lo que la hace muy útil para el reconocimiento de objetos, la subtitulación de imágenes y tareas de aprendizaje multimodal.

Automotor:

  1. Conjunto de datos de paisaje urbano

    Cityscape es el conjunto de datos al que acudir cuando se buscan varias secuencias de video grabadas de escenas callejeras de varias ciudades. Estas imágenes fueron capturadas durante mucho tiempo y en diferentes condiciones climáticas y de luz. Las anotaciones son para 30 clases de imágenes divididas en ocho categorías diferentes.

  2. Impulsión profunda de Barkley

    Barkley DeepDrive está diseñado específicamente para el entrenamiento de vehículos autónomos y cuenta con más de 100 mil secuencias de video anotadas. Es uno de los datos de entrenamiento más útiles para vehículos autónomos por las condiciones cambiantes de la carretera y la conducción.

  3. mapillary

    Mapillary tiene más de 750 millones de escenas de calles y señales de tráfico en todo el mundo, lo que es muy útil para entrenar modelos de percepción visual en aprendizaje automático y algoritmos de IA. Le permite desarrollar vehículos autónomos que se adaptan a diversas condiciones climáticas y de iluminación y puntos de vista.

Imagenes medicas:

  1. Conjunto de datos de investigación abierta de Covid-19

    Este conjunto de datos original tiene alrededor de 6500 segmentaciones de pulmón poligonales de píxeles sobre radiografías de tórax AP/PA. Además, están disponibles 517 imágenes de radiografías de pacientes con Covid-19 con etiquetas que contienen el nombre, la ubicación, los detalles de admisión, el resultado y más.

  2. Base de datos NIH de 100,000 radiografías de tórax

    La base de datos del NIH es uno de los conjuntos de datos disponibles públicamente más extensos que contiene 100,000 XNUMX imágenes de radiografías de tórax y datos relacionados útiles para la comunidad científica y de investigación. Incluso tiene imágenes de pacientes con condiciones pulmonares avanzadas.

  3. Atlas de Patología Digital

    Atlas of Digital Pathology ofrece varias imágenes de parches histopatológicos, más de 17,000 100 en total, de cerca de XNUMX diapositivas anotadas de diferentes órganos. Este conjunto de datos es útil para desarrollar software de visión artificial y reconocimiento de patrones.

Reconocimiento de escena:

Reconocimiento de escena

  1. Reconocimiento de escenas en interiores

    Indoor Scene Recognition es un conjunto de datos altamente categorizado con casi 15620 imágenes de objetos y escenarios interiores que se utilizarán en el aprendizaje automático y el entrenamiento de datos. Viene con más de 65 categorías, y cada categoría tiene un mínimo de 100 imágenes.

  2. xVer

    Como uno de los conjuntos de datos disponibles públicamente más conocidos, xView contiene toneladas de imágenes aéreas anotadas de varias escenas complejas y grandes. Con alrededor de 60 clases y más de un millón de instancias de objetos, el propósito de este conjunto de datos es brindar un mejor alivio en casos de desastre utilizando imágenes satelitales.

  3. Lugares

    Places, un conjunto de datos aportado por el MIT, tiene más de 1.8 millones de imágenes de 365 categorías de escenas diferentes. Hay alrededor de 50 imágenes en cada una de estas categorías para validación y 900 imágenes para prueba. Es posible aprender características profundas de la escena para establecer tareas de reconocimiento de escena o de reconocimiento visual.

  4. Base de datos SUN

    La base de datos SUN es un referente integral de categorización de escenas, ampliamente utilizado en visión artificial. Contiene miles de imágenes que abarcan una amplia gama de entornos interiores y exteriores, con anotaciones detalladas para cada escena. La base de datos SUN es reconocida por su cobertura de diferentes escenas y sirve como referencia estándar para la evaluación de algoritmos de comprensión de escenas.

Entretenimiento:

  1. Conjunto de datos IMDB WIKI

    IMDB – Wiki es una de las bases de datos públicas más populares de rostros etiquetados adecuadamente con edad, género y nombres. También tiene cerca de 20 mil rostros de celebridades y 62 mil de Wikipedia.

  2. caras de celebridades

    Celeb Faces es una base de datos a gran escala con 200,000 imágenes comentadas de celebridades. Las imágenes vienen con ruido de fondo y variaciones de pose, lo que las hace valiosas para entrenar conjuntos de prueba en tareas de visión por computadora. Es muy beneficioso para lograr una mayor precisión en el reconocimiento facial, la edición, la localización de partes faciales y más.

  3. Conjunto de datos de YouTube-8M

    YouTube-8M es un conjunto de datos de vídeo etiquetado a gran escala que contiene millones de identificadores de vídeo de YouTube con anotaciones de entidades visuales de alta calidad generadas por máquina. Este conjunto de datos se utiliza ampliamente para la comprensión de vídeo a gran escala y el entrenamiento de algoritmos de visión, ya que vincula el contenido de vídeo con metadatos mediante identificadores de vídeo de YouTube, lo que permite la recopilación y anotación escalable de datos de vídeo.

Ahora que cuenta con una enorme lista de conjuntos de datos de imágenes de código abierto para impulsar su maquinaria de inteligencia artificial, el resultado de sus modelos de IA y aprendizaje automático depende principalmente de la calidad de los conjuntos de datos con los que los alimenta y entrena. Si desea que su modelo de IA genere predicciones precisas, necesita conjuntos de datos de calidad, perfectamente agregados y etiquetados. Trabajar con estos conjuntos de datos es una excelente manera de desarrollar y mejorar sus habilidades de aprendizaje automático mediante proyectos prácticos del mundo real. Para potenciar el éxito de su sistema de visión artificial, debe utilizar bases de datos de imágenes de calidad relevantes para la visión de su proyecto.

Social Share