Conjuntos de datos abiertos

Descubra conjuntos de datos de código abierto que le ayudarán a entrenar modelos de AA

Conjuntos de datos de código abierto para comenzar con los modelos AI / ML

El resultado de sus modelos de IA y ML es tan bueno como los datos que usa para entrenarlo, por lo que la precisión que aplica a la agregación de datos y al etiquetado e identificación de esos datos es importante.

Entonces, si desea comenzar una nueva iniciativa de IA / ML y ahora se está dando cuenta rápidamente de que encontrar datos de entrenamiento de alta calidad será uno de los aspectos más desafiantes de su proyecto, ya que los conjuntos de datos de alta calidad son el combustible que mantiene la IA / Motor ML en marcha. Hemos acumulado una lista de conjuntos de datos abiertos que son de uso gratuito y entrenan sus modelos de IA / ML del futuro.

Especialización	Tipo de datos	Nombre del conjunto de datos	Industria / Dpto.	Anotación / Caso de uso	Descripción	Enlace
PNL	Texto	Amazon comentarios	E-commerce	Análisis de los sentimientos	Un conjunto de 35 millones de reseñas y valoraciones de los últimos 18 años en texto sin formato con detalles del usuario y del producto.	Enlace
PNL	Texto	Datos de enlaces de Wikipedia	General		Más de 4 Mn. artículos que contengan 1.9 Bn. palabra que se compone de palabras y frases, así como de párrafos.	Enlace
PNL	Texto	Banco de árboles de sentimiento de Standford	Entretenimiento	Análisis de los sentimientos	Conjunto de datos de anotaciones de sentimiento para más de 10,000 piezas de reseñas de Rotten Tomatoes en formato de archivo HTML	Enlace
PNL	Texto	Sentimiento de la aerolínea estadounidense en Twitter	Aerolínea	Análisis de los sentimientos	Los tweets de 2015 sobre US Airlines se bifurcaron en tonos positivos, negativos y neutrales	Enlace
CV	Imagen	Caras etiquetadas en la naturaleza	General	Reconocimiento facial	Conjunto de datos que contiene más de 13,000 rostros recortados con dos imágenes diferentes para el entrenamiento de reconocimiento facial.	Enlace
CV	Video, Imagen	Conjunto de datos UMDFaces	General	Reconocimiento facial	Conjunto de datos anotado que contiene más de 367,000 rostros de más de 8,000 sujetos que incluye imágenes fijas y de video.	Enlace
CV	Imagen	Imagennet	General		Conjunto de datos con más de 14 Mn. imágenes en varios formatos de archivo, organizados según la jerarquía de WordNet.	Enlace
CV	Imagen	Imágenes abiertas de Google	General		9 Mn. URL para categorizar imágenes públicas de más de 6,000 categorías.	Enlace
PNL	Texto	Base de datos de cuidados intensivos MIMIC	Healthcare		Conjuntos de datos de fisiología computacional con datos desidentificados de 40,000 pacientes de cuidados intensivos. El conjunto de datos contiene información como datos demográficos, signos vitales, medicamentos, etc.	Enlace
CV	Imagen	Oficina Nacional de Viajes y Turismo de EE. UU.	Turismo		Proporciona amplias fotografías de la industria del turismo con bases de datos confiables, que cubren temas como viajes de ida y vuelta e información turística internacional.	Enlace
PNL	Texto	Departamento de transporte	Turismo		Conjuntos de datos turísticos que incluyen Parques Nacionales, registros de conductores, información sobre puentes y vías, etc.	Enlace
PNL	Audio	Cuerpo de subtítulos de audio de Flickr	General		Más de 40 subtítulos hablados de 8,000 fotografías diseñadas para patrones de habla sin supervisión	Enlace
PNL	Audio	Conjunto de datos de comandos de voz	General	Reconocimiento de voz, anotación de audio	Expresiones de 1 segundo de miles de personas para crear una interfaz de voz básica.	Enlace
PNL	Audio	Conjuntos de datos de audio ambiental	General		Conjuntos de datos de audio del entorno que contienen tablas de sonido de eventos y tablas de escenas acústicas.	Enlace
PNL	Texto	Conjunto de datos de investigación abierta COVID-19	Healthcare	IA médica	Un conjunto de datos de investigación que consta de 45,000 artículos académicos sobre COVID-19 y la familia de virus coronavirus.	Enlace
CV	Imagen	Conjunto de datos abierto de Waymo	Automotriz		Los conjuntos de datos de conducción autónoma más diversos lanzados por Waymo	Enlace
CV	Imagen	Genoma visual	General	Subtítulos de imágenes	Una base de conocimiento visual con subtítulos detallados de más de 100 imágenes	Enlace
CV	Imagen	Etiquetame	Gobierno Público.		Gran conjunto de imágenes anotadas accesibles a través de Labelme Matlab	Enlace
CV	Imagen	BOBINA 100	General		Más de 100 objetos variados fotografiados desde múltiples ángulos (es decir, 360 grados)	Enlace
CV	Imagen	Conjunto de datos de Stanford Dogs	General		Más de 20,500 imágenes clasificadas en un conjunto de imágenes de 120 razas de perros diferentes	Enlace
CV	Imagen	Reconocimiento de escenas en interiores	General	Reconocimiento de escena	Un conjunto de datos específico que consta de 15620 imágenes de 67 categorías de interiores para construir modelos de reconocimiento de escenas	Enlace
CV	Imagen	Control de calidad visual	General		Un conjunto de datos que incluye preguntas abiertas relacionadas con 265,016 fotos que requieren comprensión de la visión y del lenguaje para responder.	Enlace
PNL	Texto	Conjunto de datos de análisis de sentimiento multidominio	E-commerce	Análisis de los sentimientos	Conjunto de datos que contiene reseñas de productos de Amazon	Enlace
PNL	Texto	Opiniones de IMDB	Entretenimiento	Análisis de los sentimientos	Conjunto de datos que contiene 25000 reseñas de películas para análisis de sentimientos	Enlace
PNL	Texto	Sentimiento 140	General	Análisis de los sentimientos	Conjunto de datos que contiene 160,000 tweets con emoticonos previamente eliminados para una mayor precisión	Enlace
PNL	Texto	Cuerpo de Blogger	General	Análisis de palabras clave	Conjunto de datos que contiene 681,288 publicaciones de blog de blogger.com que consta de un mínimo de 200 apariciones de palabras en inglés ampliamente utilizadas.	Enlace
PNL	Texto	Peligro	General	Entrenamiento de chatbot	Conjunto de datos con más de 200,000 preguntas que se pueden utilizar para entrenar modelos de aprendizaje automático para que respondan automáticamente de forma inteligente	Enlace
PNL	Texto	Recopilación de mensajes no deseados por SMS en inglés	Operadores de	Reconocimiento de spam	Un conjunto de datos de mensajes de spam que consta de 5,574 SMS en inglés	Enlace
PNL	Texto	Reseñas de Yelp	General	Análisis de los sentimientos	Un conjunto de datos con más de 5 millones de reseñas publicadas por Yelp	Enlace
PNL	Texto	Spambase de UCI	Empresa	Reconocimiento de spam	Un gran conjunto de datos de correos electrónicos no deseados, útil para filtrar correo no deseado.	Enlace
CV	Video, Imagen	Berkeley DeepDrive BDD100k	Automotriz	Vehículos autónomos	Uno de los conjuntos de datos más grandes para la IA de conducción autónoma que contiene 1,100 horas de experiencias de conducción en más de 100,000 videos de diferentes momentos del día en el área de Nueva York y San Francisco.	Enlace
CV	Video	Coma.ai	Automotriz	Vehículos autónomos	Un conjunto de datos de conducción en carretera de 7 horas que consta de información sobre la velocidad, la aceleración, el ángulo de dirección y las coordenadas GPS del automóvil	Enlace
CV	Video, Imagen	Conjunto de datos de paisaje urbano	Automotriz	Etiqueta semántica para vehículo autónomo	Un conjunto de datos de 5,000 anotaciones a nivel de píxel más un conjunto más grande de 20,000 cuadros con anotaciones débiles en secuencias de video estéreo, grabadas desde 50 ciudades diferentes	Enlace
CV	Imagen	Conjunto de datos de señales de tráfico de KUL Bélgica	Automotriz	Vehículos autónomos	Más de 10000 anotaciones de señales de tráfico de la región de Flandes basadas en señales de tráfico físicamente distintas de toda Bélgica.	Enlace
CV	Imagen	LISA: Laboratorio para automóviles inteligentes y seguros, conjuntos de datos de UC San Diego	Automotriz	Vehículos autónomos	Un rico conjunto de datos que contiene señales de tráfico, detección de vehículos, semáforos y patrones de trayectoria.	Enlace
CV	Imagen	CIFAR-10	General	Reconocimiento de objetos	Un conjunto de datos que consta de 50,000 imágenes y 10,000 imágenes de prueba (es decir, 60,000 imágenes en color de 32 × 32 en 10 clases) para el reconocimiento de objetos.	Enlace
CV	Imagen	Moda MNIST	Moda		Un conjunto de datos de imágenes que consta de 60,000 ejemplos y un conjunto de prueba de 10,000 ejemplos en imágenes en escala de grises de 28 × 28, asociado con una etiqueta de 10 clases.	Enlace
CV	Imagen	Conjunto de datos IMDB-Wiki	Entretenimiento	Reconocimiento facial	Un gran conjunto de datos de imágenes faciales con etiquetas como género y edad. Del total de 523,051 imágenes de caras, 460,723 imágenes se obtienen de 20,284 celebridades de IMDB y 62,328 de Wikipedia.	Enlace
CV	Video	Cinética-700	General		Para cada clase de acción, el conjunto de datos de alta calidad consta de 650,000 videoclips y abarca 700 clases de acción humana con al menos 600 videoclips. Aquí, cada clip dura unos 10 segundos.	Enlace
CV	Imagen	MS Coco	General	Detección de objetos, segmentación	El conjunto de datos contiene 328k imágenes y tiene un total de 2.5 Mn de instancias y 91 imágenes de objetos para entrenar modelos de ML relacionados con la detección, segmentación y subtítulos de datos de objetos a gran escala.	Enlace
CV	Imagen	Conjunto de datos de pose humana MPII	General		Alrededor de 25 mil fotografías que contienen más de 40 mil individuos con articulaciones corporales anotadas se incluyen en el conjunto de datos, que se utiliza para articular la estimación de la pose humana. En general, el conjunto de datos cubre 410 actividades humanas y cada imagen se proporciona con una etiqueta de actividad.	Enlace
CV	Imagen	Abrir imágenes	General	Anotaciones de ubicación de objetos	Conjunto de datos de imágenes con alrededor de 9 Mn de imágenes anotadas con etiquetas a nivel de imagen, recuadros delimitadores de objetos, segmentación de objetos, etc. El conjunto de datos también consta de 16 Mn. cuadros delimitadores para 600 clases de objetos en imágenes de 1.9 Mn.	Enlace
CV	Video	Plataforma abierta Apollo, por Baidu Inc, China	Automotriz	Caja delimitadora, LiDAR	Un rico conjunto de datos de conducción autónoma, que proporciona a los desarrolladores los datos necesarios en conducción autónoma para acelerar la eficiencia de la iteración innovadora.	Enlace
CV	Video, Imagen	Argo, de Argo, EE. UU.	Automotriz	Cuadro delimitador, flujo óptico, etiqueta de comportamiento, etiqueta semántica, marcado de carril	Un conjunto de datos de conducción autónoma que consta de mapas HD con metadatos geométricos y semánticos, es decir, líneas centrales de carriles, dirección de carriles y área manejable. El conjunto de datos se utiliza para entrenar modelos ML, para hacer algoritmos de percepción más precisos, que ayudarán a los vehículos autónomos a navegar de forma segura.	Enlace
CV	Video	Semáforos pequeños de Bosch, por Bosch North America Research	Automotriz	Cuadro delimitador	Un conjunto de datos que consta de 13427 imágenes de cámara con una resolución de 1280 * 720 para construir un sistema de detección de semáforos basado en la visión. El conjunto de datos tiene más de 24000 semáforos anotados.	Enlace
CV	Video	Brain4Cars, por Cornell Univ., Estados Unidos	Automotriz	Etiqueta de comportamiento	Un conjunto de datos que consta de una serie de sensores de cabina (cámaras, sensores táctiles, dispositivos inteligentes, etc.) para extraer estadísticas útiles sobre el estado de alerta del conductor. Nuestros algoritmos pueden detectar conductores somnolientos o distraídos y activar las alarmas necesarias para mejorar la protección.	Enlace
CV	Imagen	CULane, de la Universidad de China. de Hong Kong, Beijing, China	Automotriz	Marcado de carril	Un conjunto de datos de Computer Vision sobre detección de carriles de tráfico, que consta de 55 horas de videos, de los cuales se extrajeron 133,235 (conjunto de entrenamiento 88880, conjunto de validación 9675 y conjunto de prueba 34680). Es recolectado por cámaras montadas en seis vehículos diferentes conducidos por diferentes conductores en Beijing.	Enlace
CV	Video	DAVIS, por Univ. de Zúrich, ETH ¨ Zúrich, Alemania, Suiza	Automotriz		Un conjunto de datos de entrenamiento de conducción de vehículos de extremo a extremo que utiliza una cámara DAVIS event + frame. Los datos del automóvil, como la dirección, el acelerador, el GPS, etc., se utilizan para evaluar la fusión de datos de cuadro y eventos para aplicaciones automotrices.	Enlace
CV	Video	DBNet, por Univ. De Shanghai Jiao Tong, Univ. De Xiamen, China	Automotriz	Nube de puntos, LiDAR	Datos de conducción de 1000 KM del mundo real, que incluyen vídeo alineado, nube de puntos, GPS y comportamiento del conductor para una investigación en profundidad sobre los comportamientos de conducción.	Enlace
CV	Video	Dr (ojo) ve, por Univ. de Modena y Reggio Emilia, Modena, Italia	Automotriz	Etiqueta de comportamiento	Conjunto de datos que contiene 74 secuencias de video de 5 minutos cada una, que fueron anotadas en más de 500,000 cuadros. El conjunto de datos consta de ubicaciones georreferenciadas, velocidad de conducción, rumbo y también etiquetas, las fijaciones de la mirada de los conductores y su integración temporal, proporcionando mapas específicos de la tarea.	Enlace
CV	Video	ETH Pedestrian (2009), por ETH Zurich, Zurich, Suiza	General	Cuadro delimitador	Un conjunto de datos de 74 secuencias de video de 5 minutos cada una, anotadas en más de 500,000 cuadros. El conjunto de datos proporciona posiciones georreferenciadas, velocidad de conducción, dirección y también etiquetas fijaciones de mirada para los conductores y su integración temporal, incluidos mapas específicos de la tarea.	Enlace
CV	Video	Ford (2009), por Univ. de Michigan, Michigan, EE. UU.	Automotriz	Caja delimitadora`` LiDAR	Un conjunto de datos compilado por un vehículo terrestre automatizado armado con un escáner Velodyne 3D-lidar, dos lidars Rieg orientados al futuro, una unidad de medición inercial (IMU) técnica y de consumo y un sistema de cámara omnidireccional Point Grey Ladybug3.	Enlace
CV	Video	Estéreo desafiante HCI, Bosch Corporation Research, Hildesheim, Alemania	General		Un conjunto de datos de varios millones de fotogramas de escenas de video capturadas que incluyen una amplia gama de diversas condiciones climáticas, múltiples capas de movimiento y profundidad; situaciones en la ciudad y el campo, etc.	Enlace
CV	Video	JAAD, por la Universidad de York, Ucrania, Canadá	Automotriz	Cuadro delimitador, etiqueta de comportamiento	"JAAD es un conjunto de datos para estudiar la atención conjunta en el contexto de la conducción autónoma. La atención se centra en los comportamientos de los peatones y los conductores en el punto de cruce y los factores que influyen en ellos. Con este fin, el conjunto de datos de JAAD proporciona una colección ricamente comentada de 346 videos cortos clips (de 5 a 10 segundos de duración) extraídos de más de 240 horas de metraje de conducción desde varios lugares de América del Norte y Europa del Este. Los cuadros delimitadores con etiquetas de oclusión se utilizan para todos los peatones, lo que hace que este conjunto de datos sea adecuado para la detección de peatones. Las anotaciones de comportamiento especifican los comportamientos de los peatones que interactúan con el conductor o requieren su atención. Para cada video hay varias etiquetas (clima, ubicaciones, etc.) y etiquetas de comportamiento con marca de tiempo (p. ej., detenido, caminando, mirando, etc.). Además, se incluye una lista de atributos demográficos proporcionado para cada peatón (por ejemplo, edad, sexo, dirección de movimiento, etc.), así como una lista de elementos visibles de la escena del tráfico (por ejemplo, señal de alto, semáforo, etc.) en cada cuadro ".	Enlace
CV	Video	KAIST Urban, por KAIST, Corea del Sur	General	LiDAR	La recopilación de datos incluye numerosos sensores de ubicación para datos LiDAR e imágenes estéreo dirigidas a un área urbana muy compleja (por ejemplo, áreas metropolitanas, edificios complejos y áreas residenciales).	Enlace
CV	Imagen	Señal de Tráfico LISA, de Univ. de California, San Diego, Estados Unidos	Automotriz	Cuadro delimitador	El conjunto de datos que contiene videos y marcos anotados que contienen señales de tráfico de EE. UU. Se lanza en dos etapas, una con solo las imágenes y otra con imágenes y videos.	Enlace
CV	Imagen	Vistas Mapillary, por Mapillary AB, Global	Automotriz	Etiqueta semántica	Un conjunto de datos de fotografía a nivel de calle para interpretar escenas callejeras de todo el mundo con anotaciones humanas específicas de instancia y con precisión de píxeles.	Enlace
CV	Video, Imagen	Semantic KITTI, por la Universidad de Bonn, Karlsruhe, Alemania	Automotriz	Cuadro delimitador, Etiqueta semántica, Marcado de carril	Un conjunto de datos que incluye una anotación semántica para todas las secuencias de Odometry Benchmark. El conjunto de datos anota varios tipos de tráfico en movimiento y no en movimiento: incluidos automóviles, bicicletas, bicicletas, peatones y ciclistas, lo que permite estudiar los objetos en la escena.	Enlace
CV	Video	Stanford Track, por Stanford Univ., Estados Unidos	Automotriz	Detección / clasificación de objetos LiDAR, GPS, códigos	Un conjunto de datos que incluye 14,000 pistas de objetos etiquetadas observadas por un Velodyne HDL-64E S2 LIDAR en escenas naturales de la calle, que se puede utilizar para entrenar modelos de aprendizaje automático para el reconocimiento de objetos 3D.	Enlace
CV	Video, Imagen	The Boxy Dataset, de Bosch, Estados Unidos	Automotriz	Caja delimitadora / Detección de vehículos	Un conjunto de datos de detección de vehículos que contiene 2 millones de vehículos anotados para entrenar y analizar estrategias de reconocimiento de objetos para vehículos autónomos en autopistas.	Enlace
CV	Video	Autopista TME, por la Univ. Técnica Checa, Norte de Italia	Automotriz	Cuadro delimitador	Un conjunto de datos de 28 clips para un total de 27 minutos bifurcados en más de 30,000 marcos de anotaciones de vehículos. La anotación se produjo de forma semiautomática utilizando los datos del escáner láser. Esta recopilación de datos involucra escenarios de tráfico variables, número de carriles, curvatura e iluminación de la carretera, cubriendo gran parte de las condiciones de la adquisición completa.	Enlace
CV	Video	Llamas sin supervisión, de Bosch, Estados Unidos	Automotriz	Señalización de carril, LiDAR	El conjunto de datos de llamas no supervisadas se anotó mediante la generación de mapas de conducción automáticos de alta definición, incluidos los marcadores de carril basados en Lidar. El vehículo autónomo se puede alinear con estos mapas y las marcas de los carriles se proyectan en el marco de la cámara. La proyección 3D se optimiza minimizando la discrepancia entre los marcadores de imagen ya observados y predichos.	Enlace
PNL	Audio	Facebook AI Multilingüe LibriSpeech (MLS)	General	Anotación de audio / Reconocimiento de voz	Facebook AI Multilingual LibriSpeech (MLS), es un conjunto de datos de código abierto a gran escala diseñado para ayudar a avanzar en la investigación sobre el reconocimiento automático de voz (ASR). MLS ofrece más de 50,000 horas de audio en 8 idiomas: inglés, alemán, holandés, francés, español, italiano, portugués y polaco.	Enlace

Conjuntos de datos abiertos

Conjuntos de datos de código abierto para comenzar con los modelos AI / ML

Servicios de datos de IA

Especialidad

Industria

Productos

Empresa

Recursos

Contáctenos