Conjuntos de datos abiertos

Descubra conjuntos de datos de código abierto que le ayudarán a entrenar modelos de AA

Conjuntos de datos abiertos

Conjuntos de datos de código abierto para comenzar con los modelos AI / ML

El resultado de sus modelos de IA y ML es tan bueno como los datos que usa para entrenarlo, por lo que la precisión que aplica a la agregación de datos y al etiquetado e identificación de esos datos es importante.

Entonces, si desea comenzar una nueva iniciativa de IA / ML y ahora se está dando cuenta rápidamente de que encontrar datos de entrenamiento de alta calidad será uno de los aspectos más desafiantes de su proyecto, ya que los conjuntos de datos de alta calidad son el combustible que mantiene la IA / Motor ML en marcha. Hemos acumulado una lista de conjuntos de datos abiertos que son de uso gratuito y entrenan sus modelos de IA / ML del futuro.

EspecializaciónTipo de datosNombre del conjunto de datosIndustria / Dpto.Anotación / Caso de usoDescripciónEnlace
PNLTextoAmazon comentariosE-commerceAnálisis de los sentimientosUn conjunto de 35 millones de reseñas y valoraciones de los últimos 18 años en texto sin formato con detalles del usuario y del producto.Enlace
PNLTextoDatos de enlaces de WikipediaGeneralMás de 4 Mn. artículos que contengan 1.9 Bn. palabra que se compone de palabras y frases, así como de párrafos.Enlace
PNLTextoBanco de árboles de sentimiento de StandfordEntretenimientoAnálisis de los sentimientosConjunto de datos de anotaciones de sentimiento para más de 10,000 piezas de reseñas de Rotten Tomatoes en formato de archivo HTMLEnlace
PNLTextoSentimiento de la aerolínea estadounidense en TwitterAerolíneaAnálisis de los sentimientosLos tweets de 2015 sobre US Airlines se bifurcaron en tonos positivos, negativos y neutralesEnlace
CVImagen Caras etiquetadas en la naturalezaGeneralReconocimiento facialConjunto de datos que contiene más de 13,000 rostros recortados con dos imágenes diferentes para el entrenamiento de reconocimiento facial.Enlace
CVVideo, ImagenConjunto de datos UMDFacesGeneralReconocimiento facialConjunto de datos anotado que contiene más de 367,000 rostros de más de 8,000 sujetos que incluye imágenes fijas y de video.Enlace
CVImagen ImagennetGeneralConjunto de datos con más de 14 Mn. imágenes en varios formatos de archivo, organizados según la jerarquía de WordNet.Enlace
CVImagen Imágenes abiertas de GoogleGeneral9 Mn. URL para categorizar imágenes públicas de más de 6,000 categorías.Enlace
PNLTextoBase de datos de cuidados intensivos MIMICHealthcareConjuntos de datos de fisiología computacional con datos desidentificados de 40,000 pacientes de cuidados intensivos. El conjunto de datos contiene información como datos demográficos, signos vitales, medicamentos, etc.Enlace
CVImagenOficina Nacional de Viajes y Turismo de EE. UU.TurismoProporciona amplias fotografías de la industria del turismo con bases de datos confiables, que cubren temas como viajes de ida y vuelta e información turística internacional.Enlace
PNLTextoDepartamento de transporteTurismoConjuntos de datos turísticos que incluyen Parques Nacionales, registros de conductores, información sobre puentes y vías, etc.Enlace
PNLAudioCuerpo de subtítulos de audio de FlickrGeneralMás de 40 subtítulos hablados de 8,000 fotografías diseñadas para patrones de habla sin supervisiónEnlace
PNLAudioConjunto de datos de comandos de vozGeneralReconocimiento de voz, anotación de audioExpresiones de 1 segundo de miles de personas para crear una interfaz de voz básica.Enlace
PNLAudioConjuntos de datos de audio ambientalGeneralConjuntos de datos de audio del entorno que contienen tablas de sonido de eventos y tablas de escenas acústicas.Enlace
PNLTextoConjunto de datos de investigación abierta COVID-19 HealthcareIA médicaUn conjunto de datos de investigación que consta de 45,000 artículos académicos sobre COVID-19 y la familia de virus coronavirus.Enlace
CVImagenConjunto de datos abierto de Waymo AutomotrizLos conjuntos de datos de conducción autónoma más diversos lanzados por WaymoEnlace
CVImagenGenoma visual GeneralSubtítulos de imágenesUna base de conocimiento visual con subtítulos detallados de más de 100 imágenesEnlace
CVImagenEtiquetame Gobierno Público.Gran conjunto de imágenes anotadas accesibles a través de Labelme MatlabEnlace
CVImagenBOBINA 100GeneralMás de 100 objetos variados fotografiados desde múltiples ángulos (es decir, 360 grados)Enlace
CVImagenConjunto de datos de Stanford DogsGeneralMás de 20,500 imágenes clasificadas en un conjunto de imágenes de 120 razas de perros diferentesEnlace
CVImagenReconocimiento de escenas en interioresGeneralReconocimiento de escenaUn conjunto de datos específico que consta de 15620 imágenes de 67 categorías de interiores para construir modelos de reconocimiento de escenasEnlace
CVImagenControl de calidad visualGeneralUn conjunto de datos que incluye preguntas abiertas relacionadas con 265,016 fotos que requieren comprensión de la visión y del lenguaje para responder.Enlace
PNLTextoConjunto de datos de análisis de sentimiento multidominioE-commerceAnálisis de los sentimientosConjunto de datos que contiene reseñas de productos de AmazonEnlace
PNLTextoOpiniones de IMDBEntretenimientoAnálisis de los sentimientosConjunto de datos que contiene 25000 reseñas de películas para análisis de sentimientosEnlace
PNLTextoSentimiento 140GeneralAnálisis de los sentimientosConjunto de datos que contiene 160,000 tweets con emoticonos previamente eliminados para una mayor precisiónEnlace
PNLTextoCuerpo de BloggerGeneralAnálisis de palabras claveConjunto de datos que contiene 681,288 publicaciones de blog de blogger.com que consta de un mínimo de 200 apariciones de palabras en inglés ampliamente utilizadas.Enlace
PNLTextoPeligroGeneralEntrenamiento de chatbotConjunto de datos con más de 200,000 preguntas que se pueden utilizar para entrenar modelos de aprendizaje automático para que respondan automáticamente de forma inteligenteEnlace
PNLTextoRecopilación de mensajes no deseados por SMS en inglésOperadores deReconocimiento de spamUn conjunto de datos de mensajes de spam que consta de 5,574 SMS en inglésEnlace
PNLTextoReseñas de YelpGeneralAnálisis de los sentimientosUn conjunto de datos con más de 5 millones de reseñas publicadas por YelpEnlace
PNLTextoSpambase de UCIEmpresaReconocimiento de spamUn gran conjunto de datos de correos electrónicos no deseados, útil para filtrar correo no deseado.Enlace
CVVideo, ImagenBerkeley DeepDrive BDD100kAutomotrizVehículos autónomosUno de los conjuntos de datos más grandes para la IA de conducción autónoma que contiene 1,100 horas de experiencias de conducción en más de 100,000 videos de diferentes momentos del día en el área de Nueva York y San Francisco.Enlace
CVVideoComa.aiAutomotrizVehículos autónomos Un conjunto de datos de conducción en carretera de 7 horas que consta de información sobre la velocidad, la aceleración, el ángulo de dirección y las coordenadas GPS del automóvilEnlace
CVVideo, ImagenConjunto de datos de paisaje urbanoAutomotrizEtiqueta semántica para vehículo autónomoUn conjunto de datos de 5,000 anotaciones a nivel de píxel más un conjunto más grande de 20,000 cuadros con anotaciones débiles en secuencias de video estéreo, grabadas desde 50 ciudades diferentesEnlace
CVImagenConjunto de datos de señales de tráfico de KUL BélgicaAutomotrizVehículos autónomosMás de 10000 anotaciones de señales de tráfico de la región de Flandes basadas en señales de tráfico físicamente distintas de toda Bélgica.Enlace
CVImagenLISA: Laboratorio para automóviles inteligentes y seguros, conjuntos de datos de UC San DiegoAutomotrizVehículos autónomosUn rico conjunto de datos que contiene señales de tráfico, detección de vehículos, semáforos y patrones de trayectoria.Enlace
CVImagenCIFAR-10GeneralReconocimiento de objetosUn conjunto de datos que consta de 50,000 imágenes y 10,000 imágenes de prueba (es decir, 60,000 imágenes en color de 32 × 32 en 10 clases) para el reconocimiento de objetos.Enlace
CVImagenModa MNISTModaUn conjunto de datos de imágenes que consta de 60,000 ejemplos y un conjunto de prueba de 10,000 ejemplos en imágenes en escala de grises de 28 × 28, asociado con una etiqueta de 10 clases.Enlace
CVImagenConjunto de datos IMDB-WikiEntretenimientoReconocimiento facialUn gran conjunto de datos de imágenes faciales con etiquetas como género y edad. Del total de 523,051 imágenes de caras, 460,723 imágenes se obtienen de 20,284 celebridades de IMDB y 62,328 de Wikipedia.Enlace
CVVideoCinética-700GeneralPara cada clase de acción, el conjunto de datos de alta calidad consta de 650,000 videoclips y abarca 700 clases de acción humana con al menos 600 videoclips. Aquí, cada clip dura unos 10 segundos.Enlace
CVImagenMS CocoGeneralDetección de objetos, segmentaciónEl conjunto de datos contiene 328k imágenes y tiene un total de 2.5 Mn de instancias y 91 imágenes de objetos para entrenar modelos de ML relacionados con la detección, segmentación y subtítulos de datos de objetos a gran escala.Enlace
CVImagenConjunto de datos de pose humana MPIIGeneralAlrededor de 25 mil fotografías que contienen más de 40 mil individuos con articulaciones corporales anotadas se incluyen en el conjunto de datos, que se utiliza para articular la estimación de la pose humana. En general, el conjunto de datos cubre 410 actividades humanas y cada imagen se proporciona con una etiqueta de actividad.Enlace
CVImagenAbrir imágenesGeneralAnotaciones de ubicación de objetosConjunto de datos de imágenes con alrededor de 9 Mn de imágenes anotadas con etiquetas a nivel de imagen, recuadros delimitadores de objetos, segmentación de objetos, etc. El conjunto de datos también consta de 16 Mn. cuadros delimitadores para 600 clases de objetos en imágenes de 1.9 Mn.Enlace
CVVideoPlataforma abierta Apollo, por Baidu Inc, ChinaAutomotrizCaja delimitadora, LiDARUn rico conjunto de datos de conducción autónoma, que proporciona a los desarrolladores los datos necesarios en conducción autónoma para acelerar la eficiencia de la iteración innovadora.Enlace
CVVideo, ImagenArgo, de Argo, EE. UU.AutomotrizCuadro delimitador, flujo óptico, etiqueta de comportamiento, etiqueta semántica, marcado de carrilUn conjunto de datos de conducción autónoma que consta de mapas HD con metadatos geométricos y semánticos, es decir, líneas centrales de carriles, dirección de carriles y área manejable. El conjunto de datos se utiliza para entrenar modelos ML, para hacer algoritmos de percepción más precisos, que ayudarán a los vehículos autónomos a navegar de forma segura.Enlace
CVVideoSemáforos pequeños de Bosch, por Bosch North America ResearchAutomotrizCuadro delimitadorUn conjunto de datos que consta de 13427 imágenes de cámara con una resolución de 1280 * 720 para construir un sistema de detección de semáforos basado en la visión. El conjunto de datos tiene más de 24000 semáforos anotados.Enlace
CVVideoBrain4Cars, por Cornell Univ., Estados UnidosAutomotrizEtiqueta de comportamientoUn conjunto de datos que consta de una serie de sensores de cabina (cámaras, sensores táctiles, dispositivos inteligentes, etc.) para extraer estadísticas útiles sobre el estado de alerta del conductor. Nuestros algoritmos pueden detectar conductores somnolientos o distraídos y activar las alarmas necesarias para mejorar la protección.Enlace
CVImagenCULane, de la Universidad de China. de Hong Kong, Beijing, ChinaAutomotrizMarcado de carrilUn conjunto de datos de Computer Vision sobre detección de carriles de tráfico, que consta de 55 horas de videos, de los cuales se extrajeron 133,235 (conjunto de entrenamiento 88880, conjunto de validación 9675 y conjunto de prueba 34680). Es recolectado por cámaras montadas en seis vehículos diferentes conducidos por diferentes conductores en Beijing.Enlace
CVVideoDAVIS, por Univ. de Zúrich, ETH ¨ Zúrich, Alemania, SuizaAutomotrizUn conjunto de datos de entrenamiento de conducción de vehículos de extremo a extremo que utiliza una cámara DAVIS event + frame. Los datos del automóvil, como la dirección, el acelerador, el GPS, etc., se utilizan para evaluar la fusión de datos de cuadro y eventos para aplicaciones automotrices.Enlace
CVVideoDBNet, por Univ. De Shanghai Jiao Tong, Univ. De Xiamen, ChinaAutomotrizNube de puntos, LiDARDatos de conducción de 1000 KM del mundo real, que incluyen vídeo alineado, nube de puntos, GPS y comportamiento del conductor para una investigación en profundidad sobre los comportamientos de conducción.Enlace
CVVideoDr (ojo) ve, por Univ. de Modena y Reggio Emilia, Modena, ItaliaAutomotrizEtiqueta de comportamientoConjunto de datos que contiene 74 secuencias de video de 5 minutos cada una, que fueron anotadas en más de 500,000 cuadros. El conjunto de datos consta de ubicaciones georreferenciadas, velocidad de conducción, rumbo y también etiquetas, las fijaciones de la mirada de los conductores y su integración temporal, proporcionando mapas específicos de la tarea.Enlace
CVVideoETH Pedestrian (2009), por ETH Zurich, Zurich, SuizaGeneralCuadro delimitadorUn conjunto de datos de 74 secuencias de video de 5 minutos cada una, anotadas en más de 500,000 cuadros. El conjunto de datos proporciona posiciones georreferenciadas, velocidad de conducción, dirección y también etiquetas fijaciones de mirada para los conductores y su integración temporal, incluidos mapas específicos de la tarea.Enlace
CVVideoFord (2009), por Univ. de Michigan, Michigan, EE. UU.AutomotrizCaja delimitadora`` LiDARUn conjunto de datos compilado por un vehículo terrestre automatizado armado con un escáner Velodyne 3D-lidar, dos lidars Rieg orientados al futuro, una unidad de medición inercial (IMU) técnica y de consumo y un sistema de cámara omnidireccional Point Grey Ladybug3.Enlace
CVVideoEstéreo desafiante HCI, Bosch Corporation Research, Hildesheim, AlemaniaGeneralUn conjunto de datos de varios millones de fotogramas de escenas de video capturadas que incluyen una amplia gama de diversas condiciones climáticas, múltiples capas de movimiento y profundidad; situaciones en la ciudad y el campo, etc.Enlace
CVVideoJAAD, por la Universidad de York, Ucrania, CanadáAutomotrizCuadro delimitador, etiqueta de comportamiento"JAAD es un conjunto de datos para estudiar la atención conjunta en el contexto de la conducción autónoma. La atención se centra en los comportamientos de los peatones y los conductores en el punto de cruce y los factores que influyen en ellos. Con este fin, el conjunto de datos de JAAD proporciona una colección ricamente comentada de 346 videos cortos clips (de 5 a 10 segundos de duración) extraídos de más de 240 horas de metraje de conducción desde varios lugares de América del Norte y Europa del Este. Los cuadros delimitadores con etiquetas de oclusión se utilizan para todos los peatones, lo que hace que este conjunto de datos sea adecuado para la detección de peatones. Las anotaciones de comportamiento especifican los comportamientos de los peatones que interactúan con el conductor o requieren su atención. Para cada video hay varias etiquetas (clima, ubicaciones, etc.) y etiquetas de comportamiento con marca de tiempo (p. ej., detenido, caminando, mirando, etc.). Además, se incluye una lista de atributos demográficos proporcionado para cada peatón (por ejemplo, edad, sexo, dirección de movimiento, etc.), así como una lista de elementos visibles de la escena del tráfico (por ejemplo, señal de alto, semáforo, etc.) en cada cuadro ".Enlace
CVVideoKAIST Urban, por KAIST, Corea del SurGeneralLiDARLa recopilación de datos incluye numerosos sensores de ubicación para datos LiDAR e imágenes estéreo dirigidas a un área urbana muy compleja (por ejemplo, áreas metropolitanas, edificios complejos y áreas residenciales).Enlace
CVImagenSeñal de Tráfico LISA, de Univ. de California, San Diego, Estados UnidosAutomotrizCuadro delimitadorEl conjunto de datos que contiene videos y marcos anotados que contienen señales de tráfico de EE. UU. Se lanza en dos etapas, una con solo las imágenes y otra con imágenes y videos.Enlace
CVImagenVistas Mapillary, por Mapillary AB, GlobalAutomotrizEtiqueta semánticaUn conjunto de datos de fotografía a nivel de calle para interpretar escenas callejeras de todo el mundo con anotaciones humanas específicas de instancia y con precisión de píxeles.Enlace
CVVideo, ImagenSemantic KITTI, por la Universidad de Bonn, Karlsruhe, AlemaniaAutomotrizCuadro delimitador, Etiqueta semántica, Marcado de carrilUn conjunto de datos que incluye una anotación semántica para todas las secuencias de Odometry Benchmark. El conjunto de datos anota varios tipos de tráfico en movimiento y no en movimiento: incluidos automóviles, bicicletas, bicicletas, peatones y ciclistas, lo que permite estudiar los objetos en la escena.Enlace
CVVideoStanford Track, por Stanford Univ., Estados UnidosAutomotrizDetección / clasificación de objetos LiDAR, GPS, códigosUn conjunto de datos que incluye 14,000 pistas de objetos etiquetadas observadas por un Velodyne HDL-64E S2 LIDAR en escenas naturales de la calle, que se puede utilizar para entrenar modelos de aprendizaje automático para el reconocimiento de objetos 3D.Enlace
CVVideo, ImagenThe Boxy Dataset, de Bosch, Estados UnidosAutomotrizCaja delimitadora / Detección de vehículosUn conjunto de datos de detección de vehículos que contiene 2 millones de vehículos anotados para entrenar y analizar estrategias de reconocimiento de objetos para vehículos autónomos en autopistas.Enlace
CVVideoAutopista TME, por la Univ. Técnica Checa, Norte de ItaliaAutomotrizCuadro delimitadorUn conjunto de datos de 28 clips para un total de 27 minutos bifurcados en más de 30,000 marcos de anotaciones de vehículos. La anotación se produjo de forma semiautomática utilizando los datos del escáner láser. Esta recopilación de datos involucra escenarios de tráfico variables, número de carriles, curvatura e iluminación de la carretera, cubriendo gran parte de las condiciones de la adquisición completa.Enlace
CVVideoLlamas sin supervisión, de Bosch, Estados UnidosAutomotrizSeñalización de carril, LiDAREl conjunto de datos de llamas no supervisadas se anotó mediante la generación de mapas de conducción automáticos de alta definición, incluidos los marcadores de carril basados ​​en Lidar. El vehículo autónomo se puede alinear con estos mapas y las marcas de los carriles se proyectan en el marco de la cámara. La proyección 3D se optimiza minimizando la discrepancia entre los marcadores de imagen ya observados y predichos.Enlace
PNLAudioFacebook AI Multilingüe LibriSpeech (MLS)GeneralAnotación de audio / Reconocimiento de vozFacebook AI Multilingual LibriSpeech (MLS), es un conjunto de datos de código abierto a gran escala diseñado para ayudar a avanzar en la investigación sobre el reconocimiento automático de voz (ASR). MLS ofrece más de 50,000 horas de audio en 8 idiomas: inglés, alemán, holandés, francés, español, italiano, portugués y polaco. Enlace