Estudio de caso: IA conversacional

Más de 3 horas de datos recopilados, segmentados y transcritos para crear ASR en 8 idiomas indios

colección de expresiones
El gobierno tiene como objetivo permitir a sus ciudadanos un fácil acceso a Internet y servicios digitales en su propio idioma nativo a través del Proyecto Bhashini.

BHASHINI, la plataforma de traducción de idiomas impulsada por IA de India, es una parte vital de la iniciativa Digital India.

Diseñada para proporcionar herramientas de Inteligencia Artificial (AI) y Procesamiento del Lenguaje Natural (NLP) a MIPYMES, empresas emergentes e innovadores independientes, la plataforma Bhashini sirve como un recurso público. Su objetivo es promover la inclusión digital al permitir que los ciudadanos indios interactúen con las iniciativas digitales del país en sus idiomas nativos.

Además, tiene como objetivo ampliar significativamente la disponibilidad de contenido de Internet en idiomas indios. Esto está especialmente dirigido a áreas de interés público como la gobernanza y las políticas, la ciencia y la tecnología, etc. En consecuencia, esto incentivará a los ciudadanos a usar Internet en su propio idioma, promoviendo su participación activa.

Aprovechar la PNL para habilitar un ecosistema diverso de contribuyentes, entidades asociadas y ciudadanos con el fin de trascender las barreras del idioma, asegurando así la inclusión y el empoderamiento digital.

Solución del mundo real

Libere el poder de la localización con datos

India necesitaba una plataforma que se concentrara en crear conjuntos de datos multilingües y soluciones de tecnología de idiomas basadas en IA para brindar servicios digitales en idiomas indios. Para lanzar esta iniciativa, el Instituto Indio de Tecnología de Madras (IIT Madras) se asoció con Shaip para recopilar, segmentar y transcribir conjuntos de datos del idioma indio para construir modelos de habla multilingüe.

Desafios

Para ayudar al cliente con su plan de trabajo de tecnología del habla para los idiomas indios, el equipo necesitaba adquirir, segmentar y transcribir grandes volúmenes de datos de entrenamiento para construir un modelo de IA. Los requerimientos críticos del cliente eran:

Recolectar Datos

  • Adquiera 3000 horas de datos de entrenamiento en 8 idiomas indios con 4 dialectos por idioma.
  • Para cada idioma, el proveedor recopilará Extempore Speech and
    Discurso conversacional de grupos de edad de 18 a 60 años
  • Asegurar una mezcla diversa de hablantes por edad, género, educación y dialectos
  • Garantice una combinación diversa de entornos de grabación según las especificaciones.
  • Cada grabación de audio deberá ser de al menos 16 kHz, pero preferiblemente de 44 kHz.

Segmentación de datos

  • Cree segmentos de voz de 15 segundos y marque la hora del audio en milisegundos para cada hablante dado, tipo de sonido (habla, balbuceo, música, ruido), giros, expresiones y frases en una conversación
  • Cree cada segmento para su señal de sonido objetivo con un relleno de 200-400 milisegundos al principio y al final.
  • Para todos los segmentos, se deben completar los siguientes objetos, es decir, hora de inicio, hora de finalización, ID de segmento, nivel de volumen, tipo de sonido, código de idioma, ID de hablante, etc.

Transcripción de datos

  • Siga las pautas de transcripción detalladas sobre caracteres y símbolos especiales, ortografía y gramática, uso de mayúsculas, abreviaturas, contracciones, letras habladas individuales, números, puntuaciones, acrónimos, disfluencia, habla, habla ininteligible, idiomas que no son de destino, no habla, etc.

Control de calidad y comentarios

  • Todas las grabaciones se someterán a una evaluación y validación de calidad, solo se entregará el discurso validado

Solución

Con nuestro profundo conocimiento de la IA conversacional, ayudamos al cliente a recopilar, segmentar y transcribir los datos con un equipo de recopiladores, lingüistas y anotadores expertos para crear un gran corpus de conjuntos de datos de audio en 8 idiomas indios.

El alcance del trabajo de Shaip incluía, entre otros, la adquisición de grandes volúmenes de datos de entrenamiento de audio, la segmentación de las grabaciones de audio en múltiples, la transcripción de los datos y la entrega de los archivos JSON correspondientes que contenían los metadatos [ID del hablante, edad, sexo, idioma, dialecto,
lengua materna, titulación, ocupación, dominio, formato de archivo, frecuencia, canal, tipo de audio, número de hablantes, número de idiomas extranjeros, configuración utilizada, audio de banda estrecha o banda ancha, etc.]. 

Shaip recolectó 3000 horas de datos de audio a escala mientras mantenía los niveles deseados de calidad requeridos para entrenar la tecnología de voz para proyectos complejos. Se tomó el Formulario de Consentimiento Explícito de cada uno de los participantes.

1. Recopilación de datos

2. Segmentación de datos

  • Los datos de audio que se recopilaron se bifurcaron aún más en segmentos de voz de 15 segundos cada uno y se marcaron en milisegundos para cada hablante, tipo de sonido, giros, expresiones y frases en una conversación.
  • Creó cada segmento para su señal de sonido objetivo con un relleno de 200-400 milisegundos al principio y al final de una señal de sonido.
  • Para todos los segmentos, los siguientes objetos estaban presentes y rellenados, es decir, hora de inicio, hora de finalización, ID de segmento, nivel de volumen (alto, normal, bajo), tipo de sonido principal (habla, balbuceo, música, ruido, superposición), código de idioma del hablante Identificación, Transcripción, etc.

3. Control de calidad y comentarios

  • Se evaluó la calidad de todas las grabaciones y solo se entregaron grabaciones de voz validadas con WER del 90 % y TER del 90 %.
  • Lista de verificación de calidad seguida:
       » Max 15 segundos de duración del segmento
       » Transcripción de dominios específicos, a saber: clima, diferentes tipos de noticias, salud, agricultura, educación, empleo o finanzas
       » Ruido de fondo bajo
       » Sin recorte de audio: sin distorsión
       » Segmentación correcta del audio para la transcripción

4. Transcripción de datos
Todas las palabras habladas, incluidas las dudas, las palabras de relleno, los falsos comienzos y otros tics verbales, se capturaron con precisión en la transcripción. También seguimos las pautas de transcripción de detalles sobre letras mayúsculas y minúsculas, ortografía, uso de mayúsculas, abreviaturas, contracciones, números,
puntuación, acrónimos, habla disfluente, ruidos que no son del habla, etc. Además, el flujo de trabajo seguido para la recopilación y la transcripción es el siguiente: