Análisis de emociones y sentimientos del habla
Habilitación de centros de llamadas más inteligentes con información basada en inteligencia artificial
Aprovechar la experiencia de Shaip en la recopilación y anotación de datos de audio para mejorar la detección de emociones y sentimientos en tiempo real para un mejor servicio al cliente.
Emoción y discurso automatizado
Análisis de los sentimientos
El cliente se asoció con Shaip para desarrollar un modelo automatizado de análisis de emociones y sentimientos del habla para centros de llamadas. El proyecto implicó recopilar y anotar 250 horas de datos de audio de centros de llamadas en cuatro dialectos del inglés: estadounidense, británico, australiano e indio. Esto permitió al cliente mejorar sus modelos de IA para detectar emociones como Feliz, Neutral y Enfadado, y sentimientos como Insatisfecho y Satisfecho en interacciones con los clientes en tiempo real.
El proyecto superó desafíos como la detección de sarcasmo, variaciones en la duración del audio y señales verbales sutiles de insatisfacción, entregando resultados precisos y escalables.

Estadísticas clave
Datos de audio del centro de llamadas recopilados y anotados en cuatro dialectos del inglés
Hrs 250
Número de idiomas
Inglés de EE. UU., inglés del Reino Unido, inglés de Australia e inglés de la India
Casos de uso
Análisis automatizado de emociones y sentimientos del habla
Alcance del proyecto
Recopilar y anotar 250 horas de datos de audio del centro de llamadas en cuatro dialectos del inglés:
- Inglés de EE. UU. (30%)
- Inglés británico (30%)
- Inglés australiano (20%)
- Inglés indio (20%)
En alcance
El proyecto consta de tres partes:
- Datos de audio con entidades específicas, incluidos metadatos.
- Archivos transcritos correspondientes con detalles de segmentación y sellado de tiempo.
- Anotaciones de emociones y sentimientos:
- Emoción de audio: Feliz, Neutral, Enojado
- Sentimiento de transcripción: Extremadamente insatisfecho, Insatisfecho, Neutral, Satisfecho, Extremadamente satisfecho
Desafíos
Puede resultar complicado garantizar que los datos de audio representen con precisión los dialectos especificados (EE. UU., Reino Unido, Australia e India). Las distintas regiones dentro de estas categorías pueden utilizar vocabulario, acentos y pronunciaciones diferentes.
La anotación de audio y transcripciones para emociones y sentimientos requiere anotadores capacitados y familiarizados con los matices culturales y las sutilezas lingüísticas de cada dialecto.
La emoción del audio y el sentimiento de la transcripción no siempre coinciden. Por ejemplo, una persona puede sonar enojada pero en realidad expresar satisfacción. Por ejemplo, el manejo de conversaciones sarcásticas con frases sarcásticas como "Oh, maravilloso, otra persona que no puede resolver mi problema" debe estar correctamente anotada para la emoción y el sentimiento.
La calidad de las grabaciones de audio puede variar, lo que afecta la precisión de la transcripción y la detección de emociones. El ruido de fondo, las conversaciones superpuestas y los distintos equipos de grabación pueden plantear desafíos importantes.
Insatisfacción a través de señales verbales como exhalaciones fuertes u otros signos de frustración.
Solución
Aprovechando técnicas avanzadas de procesamiento del lenguaje natural (PLN), se implementaron las siguientes soluciones:
Recolectar Datos
- 250 horas de datos de audio divididas en cuotas específicas por dialecto.
- Inglés de EE. UU. (30 % o 75 horas)
- Inglés británico (30 % o 75 horas)
- Inglés australiano (20% o 50 horas)
- Inglés indio (20% o 50 horas)
- Usuarios con acento nativo de EE. UU., Reino Unido, Australia e India.
- Muestras de discurso que contienen diferentes tonos, con especial atención a los casos en que la emoción de la voz es Enojado y el sentimiento del texto es Insatisfecho o Extremadamente Insatisfecho.
Clasificación/anotación de texto
- Anotación de emociones y sentimientos en función de categorías específicas:
- Emoción de audio: Feliz, Neutral, Enojado.
- Sentimiento de transcripción: Extremadamente insatisfecho, Insatisfecho, Neutral, Satisfecho, Extremadamente satisfecho.
- Cada segmento de audio contenía sólo una emoción primaria.
- Se aplican segmentos de retraso variables (de 2 a 30 segundos) dentro de las conversaciones.
- El formato de transcripción siguió la salida JSON, incluida la información del hablante izquierdo y derecho, las etiquetas de sentimiento y el sentimiento del segmento final.
Garantía de Calidad:
Precisión de transcripción:
- Se aseguró de que se entregaran 250 horas de audio con un mínimo de:
- Precisión de tasa de error de transcripción (TER) del 90%.
- Precisión del 95% en la tasa de reconocimiento de palabras (WER).
Proceso de control de calidad:
- Se realizaron auditorías periódicas de muestras seleccionadas aleatoriamente del conjunto de datos.
- Se utilizaron herramientas automatizadas para medir TER y WER en el conjunto de datos.
- La revisión manual de las secciones marcadas garantizó que se cumplieran los umbrales de precisión.
El Resultado
Los datos de entrenamiento respaldarán el desarrollo de un modelo automatizado de detección de emociones y sentimientos, que ofrecerá:
- Detección de emociones en tiempo real en las interacciones del call center.
- Manejo más efectivo de casos complejos, como el sarcasmo o la insatisfacción.
- Escalabilidad para proyectos futuros, adaptándose fácilmente a mayores volúmenes de datos y a más idiomas.
Lo que recibe el cliente
- 250 horas de archivos de audio (en formato PCM WAV de 8 kHz, mono)
- Archivos de transcripción (con segmentación, etiquetas de sentimiento e identificadores de oradores)
- Metadatos (duración del audio, detalles del orador, etc.)
La colaboración con Shaip para nuestro proyecto de datos del centro de llamadas ha sido un momento decisivo para el avance de nuestras soluciones de inteligencia artificial. Su equipo recopiló y anotó de manera experta 250 horas de datos de audio en cuatro dialectos clave del inglés (EE. UU., Reino Unido, Australia e India), lo que garantiza la máxima calidad y precisión. La atención a los matices lingüísticos en estas regiones mejoró significativamente la precisión de nuestros modelos de reconocimiento de voz. Además, la experiencia de Shaip en el manejo de proyectos complejos de anotación de datos ha sido fundamental para ayudarnos a construir modelos confiables y compatibles a gran escala.