¿Qué es la PNL?
El procesamiento del lenguaje natural (PLN) ayuda a las computadoras a comprender el lenguaje humano. Es como enseñarles a leer, comprender y responder al texto y al habla de la misma manera que lo hacen los humanos.
¿Qué puede hacer la PNL?
- Convierte texto desordenado en datos organizados
- Entender si los comentarios son positivos o negativos
- Traducir entre idiomas
- Crear resúmenes de textos largos
- ¡Y mucho más!
- Introducción a la PNL:
Para crear buenos sistemas de PNL, se necesitan muchos ejemplos para entrenarlos, al igual que los humanos aprenden mejor con más práctica. La buena noticia es que hay muchos recursos gratuitos donde puedes encontrar estos ejemplos: Abrazando la cara, Kaggle y GitHub
Tamaño y crecimiento del mercado de PNL:
En 2023, el mercado del procesamiento del lenguaje natural (PLN) estaba valorado en unos 26 30 millones de dólares. Se espera que crezca significativamente, con una tasa de crecimiento anual compuesta (CAGR) de alrededor del 2023 % entre 2030 y XNUMX. Este crecimiento está impulsado por la creciente demanda de aplicaciones de PLN en sectores como la atención sanitaria, las finanzas y la atención al cliente.
Para elegir un buen conjunto de datos de PNL, tenga en cuenta los siguientes factores:
- Relevancia:Asegúrese de que el conjunto de datos se alinee con su tarea o dominio específico.
- Tamaño:Los conjuntos de datos más grandes generalmente mejoran el rendimiento del modelo, pero equilibran el tamaño con la calidad.
- Diversity:Busque conjuntos de datos con estilos de lenguaje y contextos variados para mejorar la solidez del modelo.
- Calidad:Verifique que los datos estén bien etiquetados y sean precisos para evitar la introducción de errores.
- Accesibilidad:Asegúrese de que el conjunto de datos esté disponible para su uso y considere cualquier restricción de licencia.
- preprocesamiento:Determinar si el conjunto de datos requiere una limpieza o preprocesamiento significativo.
- Soporte en la Comunidad:Los conjuntos de datos populares suelen tener más recursos y apoyo de la comunidad, lo que puede resultar útil.
Al evaluar estos factores, puede seleccionar el conjunto de datos que mejor se adapte a las necesidades de su proyecto.
Los 33 conjuntos de datos abiertos más importantes que no te puedes perder para PNL
General
Spambase de UCI (Link)
Spambase, creado en Hewlett-Packard Labs, tiene una colección de correos electrónicos no deseados de los usuarios, con el objetivo de desarrollar un filtro de correo no deseado personalizado. Tiene más de 4600 observaciones de mensajes de correo electrónico, de las cuales cerca de 1820 son spam.
Conjunto de datos de Enron (Link)
El conjunto de datos de Enron tiene una vasta colección de correos electrónicos 'reales' anonimizados disponibles para que el público entrene sus modelos de aprendizaje automático. Cuenta con más de medio millón de correos electrónicos de más de 150 usuarios, principalmente la alta dirección de Enron. Este conjunto de datos está disponible para su uso en formatos estructurados y no estructurados. Para arreglar los datos no estructurados, debe aplicar técnicas de procesamiento de datos.
Conjunto de datos de sistemas de recomendación (Link)
El conjunto de datos del sistema de recomendación es una gran colección de varios conjuntos de datos que contienen diferentes características como,
- Reseña del producto
- Clasificaciones de estrellas
- Seguimiento de la aptitud
- Datos de la canción
- Redes sociales
- Timestamps
- Interacciones de usuario / artículo
- Datos del GPS
Banco de árboles de Penn (Link)
Este corpus, del Wall Street Journal, es popular para probar modelos de etiquetado de secuencias.
NLTK (Link)
Esta biblioteca de Python brinda acceso a más de 100 corpus y recursos léxicos para PNL. También incluye el libro NLTK, un curso de formación para el uso de la biblioteca.
Dependencias universales (Link)
UD proporciona una forma coherente de anotar gramática, con recursos en más de 100 idiomas, 200 bancos de árboles y el apoyo de más de 300 miembros de la comunidad.
Análisis de los sentimientos
Diccionarios para cine y finanzas (Link)
El conjunto de datos de Diccionarios para películas y finanzas proporciona diccionarios de dominios específicos para la polaridad positiva o negativa en los rellenos de Finanzas y críticas de películas. Estos diccionarios se extraen de los formularios IMDb y US Form-8.Sentimiento 140 (Link)
Sentiment 140 tiene más de 160,000 tweets con varios emoticonos categorizados en 6 campos diferentes: fecha del tweet, polaridad, texto, nombre de usuario, ID y consulta. Este conjunto de datos le permite descubrir el sentimiento de una marca, un producto o incluso un tema en función de la actividad de Twitter. Dado que este conjunto de datos se crea automáticamente, a diferencia de otros tweets anotados por humanos, clasifica los tweets con emociones positivas y negativas como desfavorables.
Conjunto de datos de sentimiento de varios dominios (Link)
Este conjunto de datos de sentimiento multidominio es un repositorio de reseñas de Amazon para varios productos. Algunas categorías de productos, como los libros, tienen miles de reseñas, mientras que otras solo tienen unos pocos cientos de reseñas. Además, las reseñas con calificaciones de estrellas se pueden convertir en etiquetas binarias.
Banco de sentimientos de Standford (Link)
Este conjunto de datos de PNL de Rotten Tomatoes incluye frases más largas y ejemplos de texto más detallados.
El corpus de autoría del blog (Link)
Esta colección tiene publicaciones de blog con casi 1.4 millones de palabras; cada blog es un conjunto de datos independiente.
Conjunto de datos de OpinRank (Link)
300,000 reseñas de Edmunds y TripAdvisor, organizadas por modelo de automóvil o destino de viaje y hotel.
Texto
-
El Corpus Wiki QA (Link)
Creado para ayudar en la investigación de preguntas y respuestas de dominio abierto, WiKi QA Corpus es uno de los conjuntos de datos más extensos disponibles públicamente. Compilado a partir de los registros de consultas del motor de búsqueda Bing, viene con pares de preguntas y respuestas. Tiene más de 3000 preguntas y 1500 oraciones de respuesta etiquetadas.
-
Conjunto de datos de informes de casos legales (Link)
El conjunto de datos de informes de casos legales tiene una colección de 4000 casos legales y se puede utilizar para capacitar para el análisis automático de citas y resúmenes de texto. Se utilizan todos los documentos, eslóganes, clases de citas, eslóganes de citas y más.
-
Peligro (Link)
El conjunto de datos Jeopardy es una colección de más de 200,000 preguntas que aparecen en el popular programa de televisión de preguntas y respuestas reunidas por un usuario de Reddit. Cada punto de datos se clasifica por su fecha de emisión, número de episodio, valor, ronda y pregunta / respuesta.
-
20 grupos de noticias (Link)
Una colección de 20,000 documentos abarca 20 grupos de noticias y temas, que detallan temas que van desde la religión hasta los deportes populares.
-
Conjunto de datos de noticias de Reuters (Link)
Este conjunto de datos, que apareció por primera vez en 1987, ha sido etiquetado, indexado y compilado con fines de aprendizaje automático.
-
ArXiv (Link)
Este importante conjunto de datos de 270 GB incluye el texto completo de todos los artículos de investigación de arXiv.
-
Corpus paralelo de las actas del Parlamento Europeo (Link)
Los pares de oraciones de las actas del Parlamento incluyen entradas de 21 idiomas europeos, con algunos idiomas menos comunes para los corpus de aprendizaje automático.
-
Benchmark de mil millones de palabras (Link)
Derivado del News Crawl de WMT 2011, este conjunto de datos de modelado de lenguaje comprende casi mil millones de palabras para probar técnicas innovadoras de modelado de lenguaje.
Discurso de audio
-
Wikipedia hablada Corpora (Link)
-
2000 HUB5 Inglés (Link)
El conjunto de datos en inglés de 2000 HUB5 tiene 40 transcripciones de conversaciones telefónicas en inglés. Los datos son proporcionados por el Instituto Nacional de Estándares y Tecnología, y su enfoque principal es reconocer el habla conversacional y convertir el habla en texto.
-
LibriDiscurso (Link)
El conjunto de datos de LibriSpeech es una colección de casi 1000 horas de habla en inglés tomadas y segmentadas adecuadamente por temas en capítulos de audiolibros, lo que lo convierte en una herramienta perfecta para el procesamiento del lenguaje natural.
-
Conjunto de datos de dígitos hablados gratuitos (Link)
Este conjunto de datos de PNL incluye más de 1,500 grabaciones de dígitos hablados en inglés.
-
Conjunto de datos de voz de M-AI Labs (Link)
El conjunto de datos ofrece casi 1,000 horas de audio con transcripciones, que abarcan varios idiomas y están categorizados por voces masculinas, femeninas y mixtas.
-
Base de datos de voz ruidosa (enlazar)
Este conjunto de datos presenta grabaciones de voz limpias y ruidosas paralelas, destinadas al desarrollo de software de mejora del habla, pero también beneficiosas para el entrenamiento del habla en condiciones difíciles.
Opiniones
-
Reseñas de Yelp (Link)
El conjunto de datos de Yelp tiene una vasta colección de alrededor de 8.5 millones de reseñas de más de 160,000 empresas, sus reseñas y datos de usuarios. Las revisiones se pueden utilizar para entrenar a sus modelos en el análisis de sentimientos. Además, este conjunto de datos también tiene más de 200,000 imágenes que cubren ocho ubicaciones metropolitanas.
-
Opiniones de IMDB (Link)
Las revisiones de IMDB se encuentran entre los conjuntos de datos más populares que contienen información del elenco, calificaciones, descripción y género de más de 50 mil películas. Este conjunto de datos se puede utilizar para probar y entrenar sus modelos de aprendizaje automático.
-
Conjunto de datos de valoraciones y reseñas de Amazon (Link)
El conjunto de datos de revisión y calificación de Amazon contiene una valiosa colección de metadatos y revisiones de diferentes productos de Amazon recopilados entre 1996 y 2014: alrededor de 142.8 millones de registros. Los metadatos incluyen el precio, la descripción del producto, la marca, la categoría y más, mientras que las reseñas tienen la calidad del texto, la utilidad del texto, las calificaciones y más.
Pregunta y respuesta
-
Conjunto de datos de preguntas y respuestas de Stanford (SQuAD) (Link)
Este conjunto de datos de comprensión lectora tiene 100,000 preguntas con respuesta y 50,000 sin respuesta, todas creadas por trabajadores colectivos de Wikipedia.
-
Preguntas naturales (Link)
Este conjunto de capacitación tiene más de 300,000 7,800 ejemplos de capacitación, 7,800 ejemplos de desarrollo y XNUMX ejemplos de prueba, cada uno con una consulta de Google y una página de Wikipedia correspondiente.
-
Trivia QA (Link)
Este desafiante conjunto de preguntas tiene 950,000 pares de control de calidad, incluidos subconjuntos verificados por humanos y generados por máquinas.
-
CLEVR (Lenguaje compositivo y razonamiento visual elemental) (Link)
Este conjunto de datos de respuesta a preguntas visuales presenta objetos renderizados en 3D y miles de preguntas con detalles sobre la escena visual.
Entonces, ¿en qué conjunto de datos ha elegido entrenar su modelo de aprendizaje automático?
A medida que avanzamos, te dejamos con un propina profesional
Asegúrese de revisar detenidamente el archivo README antes de elegir un conjunto de datos de PNL para sus necesidades. El conjunto de datos contendrá toda la información necesaria que pueda necesitar, como el contenido del conjunto de datos, los diversos parámetros en los que se han categorizado los datos y los casos de uso probables del conjunto de datos.
Independientemente de los modelos que construya, existe una perspectiva apasionante de integrar nuestras máquinas de forma más cercana e intrínseca a nuestras vidas. Con la PNL, las posibilidades para negocios, películas, reconocimiento de voz, finanzas y más se multiplican.