Conjunto de datos de PNL para ML

15 mejores conjuntos de datos de PNL para entrenar sus modelos de procesamiento de lenguaje natural

El procesamiento del lenguaje natural es una parte vital de la armadura del aprendizaje automático. Sin embargo, necesita una gran cantidad de datos y entrenamiento para que el modelo funcione bien. Uno de los problemas importantes de la PNL es la falta de conjuntos de datos de entrenamiento que puedan cubrir vastos campos de interés dentro del dominio.

Si está comenzando en este vasto campo, puede que le resulte desafiante y prácticamente redundante crear sus conjuntos de datos. Especialmente cuando hay calidad. PNL conjuntos de datos disponibles para entrenar sus modelos de aprendizaje automático en función de su propósito.

El mercado de PNL está programado para crecer a una tasa compuesta anual del 11.7% durante 2018 y 2026 para alcanzar $ 28.6 Billion por 2026. Gracias a la creciente demanda de PNL y aprendizaje automático, ahora es posible tener en sus manos conjuntos de datos de calidad que se adaptan al análisis de sentimientos, revisiones, análisis de preguntas y respuestas y conjuntos de datos de análisis de voz.

Los conjuntos de datos de PNL para el aprendizaje automático en los que puede confiar

Dado que casi todos los días se publican innumerables conjuntos de datos, que se centran en diversas necesidades, acceder a conjuntos de datos de calidad, confiables y mejores puede ser un desafío. Aquí, le facilitamos el trabajo, ya que le presentamos conjuntos de datos seleccionados segregados en función de las categorías a las que sirven.

General

Spambase, creado en Hewlett-Packard Labs, tiene una colección de correos electrónicos no deseados de los usuarios, con el objetivo de desarrollar un filtro de correo no deseado personalizado. Tiene más de 4600 observaciones de mensajes de correo electrónico, de las cuales cerca de 1820 son spam.

  • Conjunto de datos de Enron (Link)

El conjunto de datos de Enron tiene una vasta colección de correos electrónicos 'reales' anonimizados disponibles para que el público entrene sus modelos de aprendizaje automático. Cuenta con más de medio millón de correos electrónicos de más de 150 usuarios, principalmente la alta dirección de Enron. Este conjunto de datos está disponible para su uso en formatos estructurados y no estructurados. Para arreglar los datos no estructurados, debe aplicar técnicas de procesamiento de datos.

  • Conjunto de datos de sistemas de recomendación (Link)

El conjunto de datos del sistema de recomendación es una gran colección de varios conjuntos de datos que contienen diferentes características como,

  • Reseña del producto
  • Clasificaciones de estrellas
  • Seguimiento de la aptitud
  • Datos de la canción
  • Redes sociales
  • Timestamps
  • Interacciones de usuario / artículo
  • Datos del GPS

Análisis de los sentimientos

  • Diccionarios para cine y finanzas (Link)

Análisis de los sentimientos
El conjunto de datos de Diccionarios para películas y finanzas proporciona diccionarios de dominios específicos para la polaridad positiva o negativa en los rellenos de Finanzas y críticas de películas. Estos diccionarios se extraen de los formularios IMDb y US Form-8.

Sentiment 140 tiene más de 160,000 tweets con varios emoticonos categorizados en 6 campos diferentes: fecha del tweet, polaridad, texto, nombre de usuario, ID y consulta. Este conjunto de datos le permite descubrir el sentimiento de una marca, un producto o incluso un tema en función de la actividad de Twitter. Dado que este conjunto de datos se crea automáticamente, a diferencia de otros tweets anotados por humanos, clasifica los tweets con emociones positivas y negativas como desfavorables.

  • Conjunto de datos de sentimiento de varios dominios (Link)

Este conjunto de datos de sentimiento multidominio es un repositorio de reseñas de Amazon para varios productos. Algunas categorías de productos, como los libros, tienen miles de reseñas, mientras que otras solo tienen unos pocos cientos de reseñas. Además, las reseñas con calificaciones de estrellas se pueden convertir en etiquetas binarias.

Analicemos hoy sus requisitos de datos de entrenamiento de IA.

Texto

Creado para ayudar en la investigación de preguntas y respuestas de dominio abierto, WiKi QA Corpus es uno de los conjuntos de datos más extensos disponibles públicamente. Compilado a partir de los registros de consultas del motor de búsqueda Bing, viene con pares de preguntas y respuestas. Tiene más de 3000 preguntas y 1500 oraciones de respuesta etiquetadas.

  • Conjunto de datos de informes de casos legales (Link)

El conjunto de datos de informes de casos legales tiene una colección de 4000 casos legales y se puede utilizar para capacitar para el análisis automático de citas y resúmenes de texto. Se utilizan todos los documentos, eslóganes, clases de citas, eslóganes de citas y más.

El conjunto de datos Jeopardy es una colección de más de 200,000 preguntas que aparecen en el popular programa de televisión de preguntas y respuestas reunidas por un usuario de Reddit. Cada punto de datos se clasifica por su fecha de emisión, número de episodio, valor, ronda y pregunta / respuesta.

Discurso de audio

  • Wikipedia hablada Corpora (Link)

Discurso de audio Este conjunto de datos es perfecto para todos aquellos que buscan ir más allá del idioma inglés. Este conjunto de datos tiene una colección de artículos hablados en holandés, alemán e inglés. Tiene una amplia gama de temas y conjuntos de oradores que duran cientos de horas.

El conjunto de datos en inglés de 2000 HUB5 tiene 40 transcripciones de conversaciones telefónicas en inglés. Los datos son proporcionados por el Instituto Nacional de Estándares y Tecnología, y su enfoque principal es reconocer el habla conversacional y convertir el habla en texto.

El conjunto de datos de LibriSpeech es una colección de casi 1000 horas de habla en inglés tomadas y segmentadas adecuadamente por temas en capítulos de audiolibros, lo que lo convierte en una herramienta perfecta para el procesamiento del lenguaje natural.

Reseñas

El conjunto de datos de Yelp tiene una vasta colección de alrededor de 8.5 millones de reseñas de más de 160,000 empresas, sus reseñas y datos de usuarios. Las revisiones se pueden utilizar para entrenar a sus modelos en el análisis de sentimientos. Además, este conjunto de datos también tiene más de 200,000 imágenes que cubren ocho ubicaciones metropolitanas.

Las revisiones de IMDB se encuentran entre los conjuntos de datos más populares que contienen información del elenco, calificaciones, descripción y género de más de 50 mil películas. Este conjunto de datos se puede utilizar para probar y entrenar sus modelos de aprendizaje automático.

  • Conjunto de datos de valoraciones y reseñas de Amazon (Link)

El conjunto de datos de revisión y calificación de Amazon contiene una valiosa colección de metadatos y revisiones de diferentes productos de Amazon recopilados entre 1996 y 2014: alrededor de 142.8 millones de registros. Los metadatos incluyen el precio, la descripción del producto, la marca, la categoría y más, mientras que las reseñas tienen la calidad del texto, la utilidad del texto, las calificaciones y más.

Entonces, ¿en qué conjunto de datos ha elegido entrenar su modelo de aprendizaje automático?

A medida que avanzamos, te dejamos con un propina profesional 

Asegúrese de revisar detenidamente el archivo README antes de elegir un conjunto de datos de PNL para sus necesidades. El conjunto de datos contendrá toda la información necesaria que pueda necesitar, como el contenido del conjunto de datos, los diversos parámetros en los que se han categorizado los datos y los casos de uso probables del conjunto de datos.

Independientemente de los modelos que construya, existe una perspectiva emocionante de integrar nuestras máquinas de manera más cercana e intrínseca a nuestras vidas. Con NLP, las posibilidades de negocios, películas, reconocimiento de voz, finanzas y más se multiplican. Si está buscando más conjuntos de datos de este tipo Haga clic aquí.

Social Share

También te puede interesar