Conjuntos de datos abiertos
Descubra conjuntos de datos de código abierto que le ayudarán a entrenar modelos de AA
Conjuntos de datos de código abierto para comenzar con los modelos AI / ML
El resultado de sus modelos de IA y ML es tan bueno como los datos que usa para entrenarlo, por lo que la precisión que aplica a la agregación de datos y al etiquetado e identificación de esos datos es importante.
Entonces, si desea comenzar una nueva iniciativa de IA / ML y ahora se está dando cuenta rápidamente de que encontrar datos de entrenamiento de alta calidad será uno de los aspectos más desafiantes de su proyecto, ya que los conjuntos de datos de alta calidad son el combustible que mantiene la IA / Motor ML en marcha. Hemos acumulado una lista de conjuntos de datos abiertos que son de uso gratuito y entrenan sus modelos de IA / ML del futuro.
| Especialización | Tipo de datos | Nombre del conjunto de datos | Industria / Dpto. | Anotación / Caso de uso | Enlace |
|---|---|---|---|---|---|
| +PNL | Texto | Reseñas de Amazon | E-commerce | Análisis de los sentimientos | Enlace |
| Descripción | Un conjunto de 35 millones de reseñas y valoraciones de los últimos 18 años en texto sin formato con detalles del usuario y del producto. | ||||
| +PNL | Texto | Datos de enlaces de Wikipedia | General | Enlace | |
| Descripción | Más de 4 millones de artículos con 1.9 millones de palabras de Wikipedia. Cada artículo contiene hipervínculos a la entidad asociada. | ||||
| +PNL | Texto | Banco de árboles de sentimiento de Standford | Ocio y Entretenimiento | Análisis de los sentimientos | Enlace |
| Descripción | Conjunto de datos de anotaciones de sentimiento para más de 10 000 frases de reseñas de películas de Rotten Tomatoes. Disponible a nivel de frase: cada frase se analiza en subfrases mediante la binarización de los árboles de análisis en el formato Penn Treebank. | ||||
| +PNL | Texto | Sentimiento de la aerolínea estadounidense en Twitter | Aerolínea | Análisis de los sentimientos | Enlace |
| Descripción | Los tweets de 2015 sobre US Airlines se dividieron en sentimientos positivos, neutrales y negativos. | ||||
| +CV | Imagen | Imagennet | General | Enlace | |
| Descripción | Conjunto de datos con más de 14 millones de imágenes en diversos formatos de archivo, asignadas a aproximadamente 21 000 synsets. Los synsets son sinónimos con entidades asociadas presentes como una imagen. Un millón de imágenes tienen cuadros delimitadores y más de un millón de imágenes tienen funciones SIFT. | ||||
| +CV | Imagen | Imágenes abiertas de Google | General | Enlace | |
| Descripción | Un conjunto de datos similar a ImageNet con 600 categorías. Disponible en etapas de desarrollo, validación y entrenamiento. Algunas imágenes también incluyen cuadros delimitadores y relaciones visuales. | ||||
| +PNL | Texto | Diálogos de películas de Cornell | Ocio y Entretenimiento | Diálogos | Enlace |
| Descripción | Una colección de conversaciones ficticias, con metadatos de personajes y películas. Cada fila es un diálogo entre dos personas, en formato de pregunta-respuesta. | ||||
| Descripción | Un conjunto de datos de preguntas y respuestas con preguntas y respuestas del portal Yahoo Respuestas entre abril de 2007 y octubre de 2007. | ||||
| +PNL | Texto | Sra. Marco | General | Respuesta a preguntas | Enlace |
| Descripción | Un conjunto de datos de preguntas y respuestas con anotaciones de los registros de búsqueda web de Bing. Cada pregunta contiene una respuesta proporcionada por un usuario, así como fragmentos web que la contienen. | ||||
| +PNL | Texto | Conjunto de datos de preguntas naturales | General | Respuesta a preguntas | Enlace |
| Descripción | Publicado por Google, este conjunto de datos contiene consultas y respuestas de usuarios reales de artículos de Wikipedia. | ||||
| +PNL | Texto | DBPedia | General | Conocimiento Gráfico | Enlace |
| Descripción | Una representación estructurada de Wikipedia, con entidades y relaciones extraídas como un gráfico de conocimiento. | ||||
| +PNL | Texto | YAGO | General | Conocimiento Gráfico | Enlace |
| Descripción | Un gráfico de conocimiento que contiene entidades y relaciones de Wikipedia, WordNet y GeoNames. | ||||
| +PNL | Texto | Base libre | General | Conocimiento Gráfico | Enlace |
| Descripción | Una base de conocimiento colaborativa formada por entidades y relaciones, ahora incorporada al gráfico de conocimiento de Google. | ||||
| +PNL | Texto | Ontonotas | General | Etiquetado de roles semánticos | Enlace |
| Descripción | Un corpus con anotaciones sintácticas, semánticas y de nivel de discurso utilizadas en las tareas compartidas de CoNLL. | ||||
| +PNL | Texto | CoNLL 2003 | General | Reconocimiento de entidad nombrada | Enlace |
| Descripción | Un conjunto de datos en inglés anotado para entidades nombradas, como persona, organización y ubicación. | ||||
| +CV | Imagen | COCO | General | Detección de objetos | Enlace |
| Descripción | Objetos comunes en contexto: un conjunto de datos ricamente anotados para detección, segmentación y subtitulado de objetos. | ||||
| +CV | Imagen | VOC PASCAL | General | Detección de objetos | Enlace |
| Descripción | Un conjunto de datos de referencia para los desafíos de detección y segmentación de objetos. | ||||
| +CV | Imagen | Paisajes urbanos | Conducción autónoma | Segmentación semántica | Enlace |
| Descripción | Conjunto de datos para la comprensión de la escena urbana con anotaciones a nivel de píxel para 30 clases. | ||||
| +CV | Imagen | MNIST | General | Clasificación de dígitos | Enlace |
| Descripción | Conjunto de datos de dígitos escritos a mano con 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba de 28x28 píxeles. | ||||
| +CV | Imagen | Moda-MNIST | Sector Retail | Clasificación de imagen | Enlace |
| Descripción | Conjunto de datos de imágenes de artículos de Zalando en el mismo formato que MNIST, utilizado como reemplazo directo para la evaluación comparativa. | ||||
| +PNL | Audio | LibriDiscurso | General | ASR | Enlace |
| Descripción | Un corpus de discurso leído en inglés derivado de audiolibros, con 1000 horas de discurso y textos asociados. | ||||
| +PNL | Audio | TED-LIUM | General | ASR | Enlace |
| Descripción | Charlas TED transcritas con audio y transcripciones alineadas para la investigación de reconocimiento de voz. | ||||
| +PNL | Audio | TIMITAR | General | Reconocimiento de fonemas | Enlace |
| Descripción | Discurso transcrito fonéticamente de hablantes de inglés americano, ampliamente utilizado para tareas de reconocimiento de fonemas. | ||||
| +PNL | Audio | Voz común | General | ASR | Enlace |
| Descripción | Un corpus multilingüe de habla leída aportado por voluntarios de todo el mundo. | ||||
| +PNL | Audio | VoxCeleb | General | Reconocimiento de locutor | Enlace |
| Descripción | Un conjunto de datos de identificación de hablantes a gran escala recopilados a partir de videos de YouTube. | ||||
| +PNL | Texto | Volcado de Wikipedia | General | Modelado de lenguaje | Enlace |
| Descripción | Volcados de texto completo de artículos de Wikipedia, actualizados periódicamente, utilizados para el preentrenamiento de modelos de lenguaje. | ||||
| +PNL | Texto | Gigapalabra | Noticias | Modelado de lenguaje | Enlace |
| Descripción | Un archivo completo de datos de texto de noticias de múltiples agencias de noticias. | ||||
| +PNL | Texto | Opiniones de IMDB | Ocio y Entretenimiento | Análisis de los sentimientos | Enlace |
| Descripción | Gran conjunto de datos de reseñas de películas para la clasificación binaria de sentimientos. | ||||
| +CV | Vídeo | Cinética-700 | General | Reconocimiento de acción | Enlace |
| Descripción | Un conjunto de datos a gran escala y de alta calidad de videoclips de YouTube que abarcan 700 clases de acciones humanas. | ||||
| +CV | Vídeo | UCF101 | General | Reconocimiento de acción | Enlace |
| Descripción | Un conjunto de datos de vídeos de acción realistas, con 101 categorías de acción. | ||||
| +CV | Vídeo | HMDB51 | General | Reconocimiento de acción | Enlace |
| Descripción | Una gran base de datos de vídeos de movimiento humano con 51 categorías de acción. | ||||
| Descripción | Una base de datos de fotografías faciales diseñada para estudiar el reconocimiento facial sin restricciones. | ||||
| +CV | Imagen | CASIA-WebFace | General | Reconocimiento de rostros | Enlace |
| Descripción | Un conjunto de datos con millones de imágenes faciales para entrenar modelos de reconocimiento facial profundo. | ||||
| +PNL | Texto | Equipo | General | Comprensión lectora | Enlace |
| Descripción | Conjunto de datos de preguntas y respuestas de Stanford: preguntas planteadas por trabajadores colaborativos sobre un conjunto de artículos de Wikipedia. | ||||
| Descripción | Un conjunto de datos de comprensión de máquinas con preguntas y respuestas basadas en artículos de noticias de CNN. | ||||
| +PNL | Texto | MultiNLI | General | Inferencia del lenguaje natural | Enlace |
| Descripción | Un conjunto de datos para la inferencia del lenguaje natural a partir de pares de oraciones en múltiples géneros. | ||||
| +PNL | Texto | SNLI | General | Inferencia del lenguaje natural | Enlace |
| Descripción | Corpus de inferencia de lenguaje natural de Stanford con pares de oraciones etiquetadas como implicación, contradicción o neutralidad. | ||||
| Descripción | Una colección de más de 100 millones de tokens extraídos del conjunto de artículos buenos y destacados verificados en Wikipedia. | ||||
| Descripción | Un conjunto de datos de 16,185 imágenes de 196 clases de automóviles. | ||||
| +CV | Imagen | Flores de Oxford 102 | Botánica | Clasificación de grano fino | Enlace |
| Descripción | 102 categorías de flores que se encuentran comúnmente en el Reino Unido. | ||||
| +CV | Imagen | CIFAR-10 | General | Clasificación de imagen | Enlace |
| Descripción | Imágenes de 10 clases: avión, automóvil, pájaro, gato, ciervo, perro, rana, caballo, barco y camión. | ||||
| +CV | Imagen | CIFAR-100 | General | Clasificación de imagen | Enlace |
| Descripción | Un conjunto de datos similar a CIFAR-10, pero con 100 clases de grano fino. | ||||
| +CV | Imagen | Disposición de la persona de VOC | General | Estimación de poses | Enlace |
| Descripción | Parte de PASCAL VOC que se centra en las anotaciones de diseño de personas, como cabeza, manos y pies. | ||||
| +CV | Imagen | Pose humana MPII | General | Estimación de poses | Enlace |
| Descripción | Alrededor de 25,000 imágenes que contienen más de 40,000 personas con articulaciones corporales anotadas. | ||||
| Descripción | Recopilación de artículos de noticias de Reuters para investigación de categorización de textos. | ||||
| +PNL | Texto | 20 grupos de noticias | General | Clasificación de texto | Enlace |
| Descripción | Una colección de 20,000 documentos de grupos de noticias divididos en 20 grupos de noticias diferentes. | ||||