Enero 4, 2022

15 mejores conjuntos de datos de PNL para entrenar sus modelos de procesamiento de lenguaje natural

El procesamiento del lenguaje natural es una parte vital de la armadura del aprendizaje automático. Sin embargo, necesita una gran cantidad de datos y entrenamiento para que el modelo funcione bien. Uno de los problemas importantes de la PNL es la falta de conjuntos de datos de entrenamiento que puedan cubrir vastos campos de interés dentro del dominio.

Si está comenzando en este vasto campo, puede que le resulte desafiante y prácticamente redundante crear sus conjuntos de datos. Especialmente cuando hay calidad. PNL conjuntos de datos disponibles para entrenar sus modelos de aprendizaje automático en función de su propósito.

El mercado de PNL está programado para crecer a una tasa compuesta anual del 11.7% durante 2018 y 2026 para alcanzar $ 28.6 Billion por 2026. Gracias a la creciente demanda de PNL y aprendizaje automático, ahora es posible tener en sus manos conjuntos de datos de calidad que se adaptan al análisis de sentimientos, revisiones, análisis de preguntas y respuestas y conjuntos de datos de análisis de voz.

Los conjuntos de datos de PNL para el aprendizaje automático en los que puede confiar

Dado que casi todos los días se publican innumerables conjuntos de datos, que se centran en diversas necesidades, acceder a conjuntos de datos de calidad, confiables y mejores puede ser un desafío. Aquí, le facilitamos el trabajo, ya que le presentamos conjuntos de datos seleccionados segregados en función de las categorías a las que sirven.

General

Spambase de UCI (Link)

Spambase, creado en Hewlett-Packard Labs, tiene una colección de correos electrónicos no deseados de los usuarios, con el objetivo de desarrollar un filtro de correo no deseado personalizado. Tiene más de 4600 observaciones de mensajes de correo electrónico, de las cuales cerca de 1820 son spam.

Conjunto de datos de Enron (Link)

El conjunto de datos de Enron tiene una vasta colección de correos electrónicos 'reales' anonimizados disponibles para que el público entrene sus modelos de aprendizaje automático. Cuenta con más de medio millón de correos electrónicos de más de 150 usuarios, principalmente la alta dirección de Enron. Este conjunto de datos está disponible para su uso en formatos estructurados y no estructurados. Para arreglar los datos no estructurados, debe aplicar técnicas de procesamiento de datos.

Conjunto de datos de sistemas de recomendación (Link)

El conjunto de datos del sistema de recomendación es una gran colección de varios conjuntos de datos que contienen diferentes características como,

Reseña del producto
Clasificaciones de estrellas
Seguimiento de la aptitud
Datos de la canción
Redes sociales
Timestamps
Interacciones de usuario / artículo
Datos del GPS

Análisis de los sentimientos

Diccionarios para cine y finanzas (Link)

El conjunto de datos de Diccionarios para películas y finanzas proporciona diccionarios de dominios específicos para la polaridad positiva o negativa en los rellenos de Finanzas y críticas de películas. Estos diccionarios se extraen de los formularios IMDb y US Form-8.

Sentimiento 140 (Link)

Sentiment 140 tiene más de 160,000 tweets con varios emoticonos categorizados en 6 campos diferentes: fecha del tweet, polaridad, texto, nombre de usuario, ID y consulta. Este conjunto de datos le permite descubrir el sentimiento de una marca, un producto o incluso un tema en función de la actividad de Twitter. Dado que este conjunto de datos se crea automáticamente, a diferencia de otros tweets anotados por humanos, clasifica los tweets con emociones positivas y negativas como desfavorables.

Conjunto de datos de sentimiento de varios dominios (Link)

Este conjunto de datos de sentimiento multidominio es un repositorio de reseñas de Amazon para varios productos. Algunas categorías de productos, como los libros, tienen miles de reseñas, mientras que otras solo tienen unos pocos cientos de reseñas. Además, las reseñas con calificaciones de estrellas se pueden convertir en etiquetas binarias.

Analicemos hoy sus requisitos de datos de entrenamiento de IA.

Texto

El Corpus Wiki QA (Link)

Creado para ayudar en la investigación de preguntas y respuestas de dominio abierto, WiKi QA Corpus es uno de los conjuntos de datos más extensos disponibles públicamente. Compilado a partir de los registros de consultas del motor de búsqueda Bing, viene con pares de preguntas y respuestas. Tiene más de 3000 preguntas y 1500 oraciones de respuesta etiquetadas.

Conjunto de datos de informes de casos legales (Link)

El conjunto de datos de informes de casos legales tiene una colección de 4000 casos legales y se puede utilizar para capacitar para el análisis automático de citas y resúmenes de texto. Se utilizan todos los documentos, eslóganes, clases de citas, eslóganes de citas y más.

Peligro (Link)

El conjunto de datos Jeopardy es una colección de más de 200,000 preguntas que aparecen en el popular programa de televisión de preguntas y respuestas reunidas por un usuario de Reddit. Cada punto de datos se clasifica por su fecha de emisión, número de episodio, valor, ronda y pregunta / respuesta.

Discurso de audio

Wikipedia hablada Corpora (Link)

Este conjunto de datos es perfecto para todos aquellos que buscan ir más allá del idioma inglés. Este conjunto de datos tiene una colección de artículos hablados en holandés, alemán e inglés. Tiene una amplia gama de temas y conjuntos de oradores que duran cientos de horas.

2000 HUB5 Inglés (Link)

El conjunto de datos en inglés de 2000 HUB5 tiene 40 transcripciones de conversaciones telefónicas en inglés. Los datos son proporcionados por el Instituto Nacional de Estándares y Tecnología, y su enfoque principal es reconocer el habla conversacional y convertir el habla en texto.

LibriDiscurso (Link)

El conjunto de datos de LibriSpeech es una colección de casi 1000 horas de habla en inglés tomadas y segmentadas adecuadamente por temas en capítulos de audiolibros, lo que lo convierte en una herramienta perfecta para el procesamiento del lenguaje natural.

Reseñas

Reseñas de Yelp (Link)

El conjunto de datos de Yelp tiene una vasta colección de alrededor de 8.5 millones de reseñas de más de 160,000 empresas, sus reseñas y datos de usuarios. Las revisiones se pueden utilizar para entrenar a sus modelos en el análisis de sentimientos. Además, este conjunto de datos también tiene más de 200,000 imágenes que cubren ocho ubicaciones metropolitanas.

Opiniones de IMDB (Link)

Las revisiones de IMDB se encuentran entre los conjuntos de datos más populares que contienen información del elenco, calificaciones, descripción y género de más de 50 mil películas. Este conjunto de datos se puede utilizar para probar y entrenar sus modelos de aprendizaje automático.

Conjunto de datos de valoraciones y reseñas de Amazon (Link)

El conjunto de datos de revisión y calificación de Amazon contiene una valiosa colección de metadatos y revisiones de diferentes productos de Amazon recopilados entre 1996 y 2014: alrededor de 142.8 millones de registros. Los metadatos incluyen el precio, la descripción del producto, la marca, la categoría y más, mientras que las reseñas tienen la calidad del texto, la utilidad del texto, las calificaciones y más.

Entonces, ¿en qué conjunto de datos ha elegido entrenar su modelo de aprendizaje automático?

A medida que avanzamos, te dejamos con un propina profesional

Asegúrese de revisar detenidamente el archivo README antes de elegir un conjunto de datos de PNL para sus necesidades. El conjunto de datos contendrá toda la información necesaria que pueda necesitar, como el contenido del conjunto de datos, los diversos parámetros en los que se han categorizado los datos y los casos de uso probables del conjunto de datos.

Independientemente de los modelos que construya, existe una perspectiva emocionante de integrar nuestras máquinas de manera más cercana e intrínseca a nuestras vidas. Con NLP, las posibilidades de negocios, películas, reconocimiento de voz, finanzas y más se multiplican. Si está buscando más conjuntos de datos de este tipo Haga clic aquí.

Social Share

Contacta a un experto

Nombre *
Apellidos*
Correo electrónico*
Teléfono*
Empresa*
País*
País
Comentarios*
Al registrarme, estoy de acuerdo con Shaip Política de Privacidad y Términos de Servicio y dar mi consentimiento para recibir comunicaciones de marketing B2B de Shaip.
CAPTCHA

Descargar libro gratis

15 mejores conjuntos de datos de PNL para entrenar sus modelos de procesamiento de lenguaje natural

Los conjuntos de datos de PNL para el aprendizaje automático en los que puede confiar

General

Spambase de UCI (Link)

Conjunto de datos de Enron (Link)

Conjunto de datos de sistemas de recomendación (Link)

Análisis de los sentimientos

Diccionarios para cine y finanzas (Link)

Sentimiento 140 (Link)

Conjunto de datos de sentimiento de varios dominios (Link)

Texto

El Corpus Wiki QA (Link)

Conjunto de datos de informes de casos legales (Link)

Peligro (Link)

Discurso de audio

Wikipedia hablada Corpora (Link)

2000 HUB5 Inglés (Link)

LibriDiscurso (Link)

Reseñas

Reseñas de Yelp (Link)

Opiniones de IMDB (Link)

Conjunto de datos de valoraciones y reseñas de Amazon (Link)

Social Share

Contacta a un experto

Servicios de datos de IA

Especialidad

Industria

Productos

Empresa

Recursos

Contáctenos