Conjuntos de datos abiertos
Descubra conjuntos de datos de código abierto que le ayudarán a entrenar modelos de AA
Conjuntos de datos de código abierto para comenzar con los modelos AI / ML
El resultado de sus modelos de IA y ML es tan bueno como los datos que usa para entrenarlo, por lo que la precisión que aplica a la agregación de datos y al etiquetado e identificación de esos datos es importante.
Entonces, si desea comenzar una nueva iniciativa de IA / ML y ahora se está dando cuenta rápidamente de que encontrar datos de entrenamiento de alta calidad será uno de los aspectos más desafiantes de su proyecto, ya que los conjuntos de datos de alta calidad son el combustible que mantiene la IA / Motor ML en marcha. Hemos acumulado una lista de conjuntos de datos abiertos que son de uso gratuito y entrenan sus modelos de IA / ML del futuro.
Especialización | Tipo de datos | Nombre del conjunto de datos | Industria / Dpto. | Anotación / Caso de uso | Descripción | Enlace |
---|---|---|---|---|---|---|
PNL | Texto | Reseñas de Amazon | E-commerce | Análisis de los sentimientos | Un conjunto de 35 millones de reseñas y valoraciones de los últimos 18 años en texto sin formato con detalles del usuario y del producto. | Enlace |
PNL | Texto | Datos de enlaces de Wikipedia | Admisiones | Más de 4 Mn. artículos que contengan 1.9 Bn. palabra que se compone de palabras y frases, así como de párrafos. | Enlace | |
PNL | Texto | Banco de árboles de sentimiento de Standford | Entretenimiento | Análisis de los sentimientos | Conjunto de datos de anotaciones de sentimiento para más de 10,000 piezas de reseñas de Rotten Tomatoes en formato de archivo HTML | Enlace |
PNL | Texto | Sentimiento de la aerolínea estadounidense en Twitter | Aerolínea | Análisis de los sentimientos | Los tweets de 2015 sobre US Airlines se bifurcaron en tonos positivos, negativos y neutrales | Enlace |
CV | Imagen | Caras etiquetadas en la naturaleza | Admisiones | Reconocimiento facial | Conjunto de datos que contiene más de 13,000 rostros recortados con dos imágenes diferentes para el entrenamiento de reconocimiento facial. | Enlace |
CV | Video, Imagen | Conjunto de datos UMDFaces | Admisiones | Reconocimiento facial | Conjunto de datos anotado que contiene más de 367,000 rostros de más de 8,000 sujetos que incluye imágenes fijas y de video. | Enlace |
CV | Imagen | Imagennet | Admisiones | Conjunto de datos con más de 14 Mn. imágenes en varios formatos de archivo, organizados según la jerarquía de WordNet. | Enlace | |
CV | Imagen | Imágenes abiertas de Google | Admisiones | 9 Mn. URL para categorizar imágenes públicas de más de 6,000 categorías. | Enlace | |
PNL | Texto | Base de datos de cuidados intensivos MIMIC | Cuidado de la Salud | Conjuntos de datos de fisiología computacional con datos desidentificados de 40,000 pacientes de cuidados intensivos. El conjunto de datos contiene información como datos demográficos, signos vitales, medicamentos, etc. | Enlace | |
CV | Imagen | Oficina Nacional de Viajes y Turismo de EE. UU. | Turismo | Proporciona amplias fotografías de la industria del turismo con bases de datos confiables, que cubren temas como viajes de ida y vuelta e información turística internacional. | Enlace | |
PNL | Texto | Departamento de transporte | Turismo | Conjuntos de datos turísticos que incluyen Parques Nacionales, registros de conductores, información sobre puentes y vías, etc. | Enlace | |
PNL | Audio | Cuerpo de subtítulos de audio de Flickr | Admisiones | Más de 40 subtítulos hablados de 8,000 fotografías diseñadas para patrones de habla sin supervisión | Enlace | |
PNL | Audio | Conjunto de datos de comandos de voz | Admisiones | Reconocimiento de voz, anotación de audio | Expresiones de 1 segundo de miles de personas para crear una interfaz de voz básica. | Enlace |
PNL | Audio | Conjuntos de datos de audio ambiental | Admisiones | Conjuntos de datos de audio del entorno que contienen tablas de sonido de eventos y tablas de escenas acústicas. | Enlace | |
PNL | Texto | Conjunto de datos de investigación abierta COVID-19 | Cuidado de la Salud | IA médica | Un conjunto de datos de investigación que consta de 45,000 artículos académicos sobre COVID-19 y la familia de virus coronavirus. | Enlace |
CV | Imagen | Conjunto de datos abierto de Waymo | Automotor | Los conjuntos de datos de conducción autónoma más diversos lanzados por Waymo | Enlace | |
CV | Imagen | Etiquetame | Gobierno Público. | Gran conjunto de imágenes anotadas accesibles a través de Labelme Matlab | Enlace | |
CV | Imagen | BOBINA 100 | Admisiones | Más de 100 objetos variados fotografiados desde múltiples ángulos (es decir, 360 grados) | Enlace | |
CV | Imagen | Conjunto de datos de Stanford Dogs | Admisiones | Más de 20,500 imágenes clasificadas en un conjunto de imágenes de 120 razas de perros diferentes | Enlace | |
CV | Imagen | Reconocimiento de escenas en interiores | Admisiones | Reconocimiento de escena | Un conjunto de datos específico que consta de 15620 imágenes de 67 categorías de interiores para construir modelos de reconocimiento de escenas | Enlace |
CV | Imagen | Control de calidad visual | Admisiones | Un conjunto de datos que incluye preguntas abiertas relacionadas con 265,016 fotos que requieren comprensión de la visión y del lenguaje para responder. | Enlace | |
PNL | Texto | Conjunto de datos de análisis de sentimiento multidominio | E-commerce | Análisis de los sentimientos | Conjunto de datos que contiene reseñas de productos de Amazon | Enlace |
PNL | Texto | Opiniones de IMDB | Entretenimiento | Análisis de los sentimientos | Conjunto de datos que contiene 25000 reseñas de películas para análisis de sentimientos | Enlace |
PNL | Texto | Cuerpo de Blogger | Admisiones | Análisis de palabras clave | Conjunto de datos que contiene 681,288 publicaciones de blog de blogger.com que consta de un mínimo de 200 apariciones de palabras en inglés ampliamente utilizadas. | Enlace |
PNL | Texto | Peligro | Admisiones | Entrenamiento de chatbot | Conjunto de datos con más de 200,000 preguntas que se pueden utilizar para entrenar modelos de aprendizaje automático para que respondan automáticamente de forma inteligente | Enlace |
PNL | Texto | Recopilación de mensajes no deseados por SMS en inglés | Operadores de | Reconocimiento de spam | Un conjunto de datos de mensajes de spam que consta de 5,574 SMS en inglés | Enlace |
PNL | Texto | Reseñas de Yelp | Admisiones | Análisis de los sentimientos | Un conjunto de datos con más de 5 millones de reseñas publicadas por Yelp | Enlace |
PNL | Texto | Spambase de UCI | Empresa | Reconocimiento de spam | Un gran conjunto de datos de correos electrónicos no deseados, útil para filtrar correo no deseado. | Enlace |
CV | Video, Imagen | Berkeley DeepDrive BDD100k | Automotor | Vehículos autónomos | Uno de los conjuntos de datos más grandes para la IA de conducción autónoma que contiene 1,100 horas de experiencias de conducción en más de 100,000 videos de diferentes momentos del día en el área de Nueva York y San Francisco. | Enlace |
CV | Video | Coma.ai | Automotor | Vehículos autónomos | Un conjunto de datos de conducción en carretera de 7 horas que consta de información sobre la velocidad, la aceleración, el ángulo de dirección y las coordenadas GPS del automóvil | Enlace |
CV | Video, Imagen | Conjunto de datos de paisaje urbano | Automotor | Etiqueta semántica para vehículo autónomo | Un conjunto de datos de 5,000 anotaciones a nivel de píxel más un conjunto más grande de 20,000 cuadros con anotaciones débiles en secuencias de video estéreo, grabadas desde 50 ciudades diferentes | Enlace |
CV | Imagen | Conjunto de datos de señales de tráfico de KUL Bélgica | Automotor | Vehículos autónomos | Más de 10000 anotaciones de señales de tráfico de la región de Flandes basadas en señales de tráfico físicamente distintas de toda Bélgica. | Enlace |
CV | Imagen | LISA: Laboratorio para automóviles inteligentes y seguros, conjuntos de datos de UC San Diego | Automotor | Vehículos autónomos | Un rico conjunto de datos que contiene señales de tráfico, detección de vehículos, semáforos y patrones de trayectoria. | Enlace |
CV | Imagen | CIFAR-10 | Admisiones | Reconocimiento de objetos | Un conjunto de datos que consta de 50,000 imágenes y 10,000 imágenes de prueba (es decir, 60,000 imágenes en color de 32 × 32 en 10 clases) para el reconocimiento de objetos. | Enlace |
CV | Imagen | Moda MNIST | Moda | Un conjunto de datos de imágenes que consta de 60,000 ejemplos y un conjunto de prueba de 10,000 ejemplos en imágenes en escala de grises de 28 × 28, asociado con una etiqueta de 10 clases. | Enlace | |
CV | Imagen | Conjunto de datos IMDB-Wiki | Entretenimiento | Reconocimiento facial | Un gran conjunto de datos de imágenes faciales con etiquetas como género y edad. Del total de 523,051 imágenes de caras, 460,723 imágenes se obtienen de 20,284 celebridades de IMDB y 62,328 de Wikipedia. | Enlace |
CV | Video | Cinética-700 | Admisiones | Para cada clase de acción, el conjunto de datos de alta calidad consta de 650,000 videoclips y abarca 700 clases de acción humana con al menos 600 videoclips. Aquí, cada clip dura unos 10 segundos. | Enlace | |
CV | Imagen | MS Coco | Admisiones | Detección de objetos, segmentación | El conjunto de datos contiene 328k imágenes y tiene un total de 2.5 Mn de instancias y 91 imágenes de objetos para entrenar modelos de ML relacionados con la detección, segmentación y subtítulos de datos de objetos a gran escala. | Enlace |
CV | Imagen | Conjunto de datos de pose humana MPII | Admisiones | Alrededor de 25 mil fotografías que contienen más de 40 mil individuos con articulaciones corporales anotadas se incluyen en el conjunto de datos, que se utiliza para articular la estimación de la pose humana. En general, el conjunto de datos cubre 410 actividades humanas y cada imagen se proporciona con una etiqueta de actividad. | Enlace | |
CV | Imagen | Abrir imágenes | Admisiones | Anotaciones de ubicación de objetos | Conjunto de datos de imágenes con alrededor de 9 Mn de imágenes anotadas con etiquetas a nivel de imagen, recuadros delimitadores de objetos, segmentación de objetos, etc. El conjunto de datos también consta de 16 Mn. cuadros delimitadores para 600 clases de objetos en imágenes de 1.9 Mn. | Enlace |
CV | Video, Imagen | Argo, de Argo, EE. UU. | Automotor | Cuadro delimitador, flujo óptico, etiqueta de comportamiento, etiqueta semántica, marcado de carril | Un conjunto de datos de conducción autónoma que consta de mapas HD con metadatos geométricos y semánticos, es decir, líneas centrales de carriles, dirección de carriles y área manejable. El conjunto de datos se utiliza para entrenar modelos ML, para hacer algoritmos de percepción más precisos, que ayudarán a los vehículos autónomos a navegar de forma segura. | Enlace |
CV | Video | Semáforos pequeños de Bosch, por Bosch North America Research | Automotor | Cuadro delimitador | Un conjunto de datos que consta de 13427 imágenes de cámara con una resolución de 1280 * 720 para construir un sistema de detección de semáforos basado en la visión. El conjunto de datos tiene más de 24000 semáforos anotados. | Enlace |
CV | Video | Brain4Cars, por Cornell Univ., Estados Unidos | Automotor | Etiqueta de comportamiento | Un conjunto de datos que consta de una serie de sensores de cabina (cámaras, sensores táctiles, dispositivos inteligentes, etc.) para extraer estadísticas útiles sobre el estado de alerta del conductor. Nuestros algoritmos pueden detectar conductores somnolientos o distraídos y activar las alarmas necesarias para mejorar la protección. | Enlace |
CV | Imagen | CULane, de la Universidad de China. de Hong Kong, Beijing, China | Automotor | Marcado de carril | Un conjunto de datos de Computer Vision sobre detección de carriles de tráfico, que consta de 55 horas de videos, de los cuales se extrajeron 133,235 (conjunto de entrenamiento 88880, conjunto de validación 9675 y conjunto de prueba 34680). Es recolectado por cámaras montadas en seis vehículos diferentes conducidos por diferentes conductores en Beijing. | Enlace |
CV | Video | DAVIS, por Univ. de Zúrich, ETH ¨ Zúrich, Alemania, Suiza | Automotor | Un conjunto de datos de entrenamiento de conducción de vehículos de extremo a extremo que utiliza una cámara DAVIS event + frame. Los datos del automóvil, como la dirección, el acelerador, el GPS, etc., se utilizan para evaluar la fusión de datos de cuadro y eventos para aplicaciones automotrices. | Enlace | |
CV | Video | DBNet, por Univ. De Shanghai Jiao Tong, Univ. De Xiamen, China | Automotor | Nube de puntos, LiDAR | Datos de conducción de 1000 KM del mundo real, que incluyen vídeo alineado, nube de puntos, GPS y comportamiento del conductor para una investigación en profundidad sobre los comportamientos de conducción. | Enlace |
CV | Video | Dr (ojo) ve, por Univ. de Modena y Reggio Emilia, Modena, Italia | Automotor | Etiqueta de comportamiento | Conjunto de datos que contiene 74 secuencias de video de 5 minutos cada una, que fueron anotadas en más de 500,000 cuadros. El conjunto de datos consta de ubicaciones georreferenciadas, velocidad de conducción, rumbo y también etiquetas, las fijaciones de la mirada de los conductores y su integración temporal, proporcionando mapas específicos de la tarea. | Enlace |
CV | Video | ETH Pedestrian (2009), por ETH Zurich, Zurich, Suiza | Admisiones | Cuadro delimitador | Un conjunto de datos de 74 secuencias de video de 5 minutos cada una, anotadas en más de 500,000 cuadros. El conjunto de datos proporciona posiciones georreferenciadas, velocidad de conducción, dirección y también etiquetas fijaciones de mirada para los conductores y su integración temporal, incluidos mapas específicos de la tarea. | Enlace |
CV | Video | Ford (2009), por Univ. de Michigan, Michigan, EE. UU. | Automotor | Caja delimitadora`` LiDAR | Un conjunto de datos compilado por un vehículo terrestre automatizado armado con un escáner Velodyne 3D-lidar, dos lidars Rieg orientados al futuro, una unidad de medición inercial (IMU) técnica y de consumo y un sistema de cámara omnidireccional Point Grey Ladybug3. | Enlace |
CV | Video | Estéreo desafiante HCI, Bosch Corporation Research, Hildesheim, Alemania | Admisiones | Un conjunto de datos de varios millones de fotogramas de escenas de video capturadas que incluyen una amplia gama de diversas condiciones climáticas, múltiples capas de movimiento y profundidad; situaciones en la ciudad y el campo, etc. | Enlace | |
CV | Video | JAAD, por la Universidad de York, Ucrania, Canadá | Automotor | Cuadro delimitador, etiqueta de comportamiento | "JAAD es un conjunto de datos para estudiar la atención conjunta en el contexto de la conducción autónoma. La atención se centra en los comportamientos de los peatones y los conductores en el punto de cruce y los factores que influyen en ellos. Con este fin, el conjunto de datos de JAAD proporciona una colección ricamente comentada de 346 videos cortos clips (de 5 a 10 segundos de duración) extraídos de más de 240 horas de metraje de conducción desde varios lugares de América del Norte y Europa del Este. Los cuadros delimitadores con etiquetas de oclusión se utilizan para todos los peatones, lo que hace que este conjunto de datos sea adecuado para la detección de peatones. Las anotaciones de comportamiento especifican los comportamientos de los peatones que interactúan con el conductor o requieren su atención. Para cada video hay varias etiquetas (clima, ubicaciones, etc.) y etiquetas de comportamiento con marca de tiempo (p. ej., detenido, caminando, mirando, etc.). Además, se incluye una lista de atributos demográficos proporcionado para cada peatón (por ejemplo, edad, sexo, dirección de movimiento, etc.), así como una lista de elementos visibles de la escena del tráfico (por ejemplo, señal de alto, semáforo, etc.) en cada cuadro ". | Enlace |
CV | Imagen | Señal de Tráfico LISA, de Univ. de California, San Diego, Estados Unidos | Automotor | Cuadro delimitador | El conjunto de datos que contiene videos y marcos anotados que contienen señales de tráfico de EE. UU. Se lanza en dos etapas, una con solo las imágenes y otra con imágenes y videos. | Enlace |
CV | Imagen | Vistas Mapillary, por Mapillary AB, Global | Automotor | Etiqueta semántica | Un conjunto de datos de fotografía a nivel de calle para interpretar escenas callejeras de todo el mundo con anotaciones humanas específicas de instancia y con precisión de píxeles. | Enlace |
CV | Video, Imagen | Semantic KITTI, por la Universidad de Bonn, Karlsruhe, Alemania | Automotor | Cuadro delimitador, Etiqueta semántica, Marcado de carril | Un conjunto de datos que incluye una anotación semántica para todas las secuencias de Odometry Benchmark. El conjunto de datos anota varios tipos de tráfico en movimiento y no en movimiento: incluidos automóviles, bicicletas, bicicletas, peatones y ciclistas, lo que permite estudiar los objetos en la escena. | Enlace |
CV | Video | Stanford Track, por Stanford Univ., Estados Unidos | Automotor | Detección / clasificación de objetos LiDAR, GPS, códigos | Un conjunto de datos que incluye 14,000 pistas de objetos etiquetadas observadas por un Velodyne HDL-64E S2 LIDAR en escenas naturales de la calle, que se puede utilizar para entrenar modelos de aprendizaje automático para el reconocimiento de objetos 3D. | Enlace |
CV | Video, Imagen | The Boxy Dataset, de Bosch, Estados Unidos | Automotor | Caja delimitadora / Detección de vehículos | Un conjunto de datos de detección de vehículos que contiene 2 millones de vehículos anotados para entrenar y analizar estrategias de reconocimiento de objetos para vehículos autónomos en autopistas. | Enlace |
CV | Video | Autopista TME, por la Univ. Técnica Checa, Norte de Italia | Automotor | Cuadro delimitador | Un conjunto de datos de 28 clips para un total de 27 minutos bifurcados en más de 30,000 marcos de anotaciones de vehículos. La anotación se produjo de forma semiautomática utilizando los datos del escáner láser. Esta recopilación de datos involucra escenarios de tráfico variables, número de carriles, curvatura e iluminación de la carretera, cubriendo gran parte de las condiciones de la adquisición completa. | Enlace |
CV | Video | Llamas sin supervisión, de Bosch, Estados Unidos | Automotor | Señalización de carril, LiDAR | El conjunto de datos de llamas no supervisadas se anotó mediante la generación de mapas de conducción automáticos de alta definición, incluidos los marcadores de carril basados en Lidar. El vehículo autónomo se puede alinear con estos mapas y las marcas de los carriles se proyectan en el marco de la cámara. La proyección 3D se optimiza minimizando la discrepancia entre los marcadores de imagen ya observados y predichos. | Enlace |
PNL | Audio | Facebook AI Multilingüe LibriSpeech (MLS) | Admisiones | Anotación de audio / Reconocimiento de voz | Facebook AI Multilingual LibriSpeech (MLS), es un conjunto de datos de código abierto a gran escala diseñado para ayudar a avanzar en la investigación sobre el reconocimiento automático de voz (ASR). MLS ofrece más de 50,000 horas de audio en 8 idiomas: inglés, alemán, holandés, francés, español, italiano, portugués y polaco. | Enlace |