Recopilación de datos para IA conversacional

Cómo abordar la recopilación de datos para la IA conversacional

Hoy en día, tenemos algunos robots parlantes como chatbots, asistentes virtuales y más en nuestros hogares, sistemas de automóviles, dispositivos portátiles, soluciones de domótica, etc. Estos dispositivos escuchan con precisión lo que decimos y cómo decimos y recuperan resultados o ejecutan tareas específicas. .

Y si has estado usando un asistente como siri o alexa, también te darías cuenta de que se están volviendo más peculiares cada día. Sus respuestas son ingeniosas, replican, desairan, devuelven elogios y se comportan de manera más humana que algunos de los colegas que quizás conozcas. No estamos bromeando. Según PwC, El 27% de los usuarios que interactuaron con su asociado reciente de servicio al cliente no sabían si estaban hablando con un humano o un chatbot.

Desarrollar sistemas y dispositivos de conversación tan intrincados es muy complejo y abrumador. Es un juego de pelota completamente diferente con distintos enfoques de desarrollo. Es por eso que pensamos que deberíamos desglosarlo para que lo entiendas más fácilmente. Por lo tanto, si está buscando desarrollar un motor de inteligencia artificial conversacional o un asistente virtual, esta guía lo ayudará a obtener claridad.

Importancia de la IA conversacional

A medida que la tecnología se convierte en un aspecto más integral de nuestras vidas en forma de nuevos dispositivos y sistemas, surge la necesidad de empujar barreras, romper las convenciones y encontrar nuevas formas de interactuar con ellos. De simplemente usar periféricos conectados como el mouse y el teclado, pasamos a alfombrillas de mouse que ofrecían más conveniencia. Luego, migramos a pantallas táctiles que ofrecían una mayor comodidad para alimentar entradas y ejecutar tareas.

Con los dispositivos convirtiéndose en extensiones de nosotros mismos, ahora estamos desbloqueando un nuevo medio de mando a través de la voz. Ni siquiera necesitamos estar cerca de un dispositivo para operarlo. Todo lo que tenemos que hacer es usar nuestra voz para desbloquearlo y controlar nuestras entradas. Desde una habitación cercana, al conducir, mientras se usa otro dispositivo simultáneamente, la IA conversacional realiza nuestras tareas previstas sin problemas. Entonces, ¿por dónde comenzamos? Todo comienza con datos de voz de alta calidad para entrenar modelos de aprendizaje automático.

Los conceptos básicos de la recopilación de datos de entrenamiento del habla

Recopilar y anotar datos de entrenamiento de IA para IA conversacional es muy diferente. Hay toneladas de complejidades involucradas en los comandos humanos y se deben implementar diversas medidas para garantizar que cada aspecto se acomode para obtener resultados impactantes. Veamos cuáles son algunos de los fundamentos de los datos de voz.

Comprensión del lenguaje natural (NLU)

Para que los chatbots y los asistentes virtuales comprendan y respondan a lo que enviamos por mensaje de texto o mandamos, un proceso llamado NLU está implementado. Lo que representa Comprensión del lenguaje natural e involucra tres conceptos tecnológicos para interpretar y procesar diversos tipos de entrada.

  • Intención

    Todo comienza con la intención. ¿Qué está tratando de transmitir, comunicar o lograr un usuario en particular a través de un comando? ¿El usuario está buscando información? ¿Están esperando actualizaciones para una acción? ¿Están ordenando una instrucción para que se ejecute el sistema? ¿Cómo lo están mandando? ¿Es a través de una pregunta o una solicitud? Todos estos aspectos ayudan a las máquinas a comprender y clasificar intenciones y propósitos para generar respuestas herméticas, respectivamente.

  • Colección de declaraciones

    Hay una diferencia entre el comando "¿Dónde está el cajero automático más cercano?" y el comando "Búscame un cajero automático cercano". Ahora los humanos reconocerían que ambos significan lo mismo, pero las máquinas deben explicarse con esta diferencia. Son los mismos en términos de intención, pero la forma en que se ha formado la intención es completamente diferente.

    La recopilación de enunciados se trata de definir y mapear diferentes enunciados y frases hacia objetivos específicos para la ejecución precisa de tareas y respuestas. Técnicamente, los especialistas en anotación de datos trabajan con datos de voz o de texto para ayudar a las máquinas a diferenciar esto.

  • Extracción de entidades

    Cada oración tiene palabras o frases específicas que tienen un peso enfatizado y es este énfasis el que conduce a una interpretación del contexto y el propósito. Las máquinas, al igual que los sistemas rígidos que son, necesitan ser alimentadas con cucharas de tales entidades. Por ejemplo, "¿Dónde puedo encontrar cuerdas de mi guitarra cerca de 6th Avenue?"

    Si refina la oración, encuentre la entidad uno, las cuerdas son dos, la guitarra es tres y la sexta avenida es 6. Estas entidades son agrupadas por máquinas para obtener resultados apropiados y para que esto suceda, los expertos trabajan en el backend.

Conjuntos de datos de voz/habla/audio listos para usar para entrenar su modelo de IA conversacional más rápido

Diseñar diálogos para la IA conversacional

El objetivo de la IA ha sido principalmente replicar el comportamiento humano a través de gestos, acciones y respuestas. La mente humana consciente tiene la capacidad innata de comprender el contexto, la intención, el tono, las emociones y otros factores y responder en consecuencia. Pero, ¿cómo pueden las máquinas diferenciar estos aspectos? 

Diseñando diálogos para AI conversacional Es muy complejo y, lo que es más importante, bastante imposible implementar un modelo universal. Cada individuo tiene una forma diferente de pensar, hablar y responder. Incluso en las respuestas, todos articulamos nuestros pensamientos de manera única. Entonces, las máquinas tienen que escuchar y responder en consecuencia. 

Sin embargo, esto tampoco es fácil. Cuando los humanos hablan, factores como el acento, la pronunciación, el origen étnico, el idioma y más entran en juego y no es fácil para las máquinas malinterpretar e interpretar palabras y responder.. Las máquinas pueden entender una palabra en particular de innumerables formas cuando la dicta un indio, un británico, un estadounidense y un mexicano. Hay toneladas de barreras idiomáticas que entran en juego y la forma más práctica de crear un sistema de respuesta es a través de una programación visual basada en diagramas de flujo. 

A través de bloques dedicados para gestos, respuestas y disparadores, los autores y expertos pueden ayudar a las máquinas a desarrollar un personaje. Esto es más como una máquina de algoritmos que puede usar para generar las respuestas correctas. Cuando se alimenta una entrada, la información fluye a través de los factores correspondientes, lo que conduce a la respuesta correcta que deben entregar las máquinas. 

Marque D para la diversidad

Como mencionamos, las interacciones humanas son muy singulares. Las personas de todo el mundo provienen de diferentes ámbitos de la vida, orígenes, nacionalidades, datos demográficos, etnias, acentos, dicción, pronunciación y más. 

Para que un bot conversacional o un sistema sea universalmente operable, debe entrenarse con la mayor diversidad de datos de entrenamiento posible. Si, por ejemplo, un modelo ha sido entrenado solo con los datos del habla de un idioma o grupo étnico en particular, un nuevo acento confundiría al sistema y lo obligaría a producir resultados incorrectos. Esto no solo es vergonzoso para los dueños de negocios, sino también un insulto para los usuarios. 

Es por eso que la fase de desarrollo debe involucrar datos de entrenamiento de IA de un rico grupo de diversos conjuntos de datos compuestos por personas de todos los orígenes posibles. Cuantos más acentos y etnias comprenda su sistema, más universal será. Además, lo que molestaría más a los usuarios no es la recuperación incorrecta de información, sino la falta de comprensión de sus entradas en primer lugar. 

Eliminar el sesgo debería ser una prioridad clave y una forma en que las empresas podrían hacerlo es optando por datos de colaboración colectiva. Cuando realiza un crowdsourcing de sus datos de voz o de texto, permite que personas de todo el mundo contribuyan a sus requisitos, lo que hace que su conjunto de datos sea solo saludable (lea nuestro blog para comprender los beneficios y las trampas de la subcontratación de datos a trabajadores de crowdsourcing). Ahora, su modelo comprenderá diferentes acentos y pronunciaciones y responderá en consecuencia. 

El camino a seguir

Desarrollar IA conversacional es tan difícil como criar a un bebé. La única diferencia es que el bebé eventualmente crecería para comprender las cosas y mejoraría en la comunicación autónoma. Son las máquinas las que necesitan ser empujadas consistentemente. Hay varios desafíos en este espacio actualmente y debemos reconocer el hecho de que tenemos algunos de los sistemas de IA conversacionales más revolucionarios que surgen a pesar de estos desafíos. Esperemos y veamos qué depara el futuro para nuestros amigables chatbots y asistentes virtuales de vecindario. Mientras tanto, si tiene la intención de desarrollar una IA conversacional como Google Home para su negocio, comuníquese con nosotros para sus necesidades de anotación y datos de entrenamiento de IA.

Social Share