IA conversacional: reconocimiento automático de voz

Más de 8 horas de audio recopiladas, 800 horas transcritas para tecnología de voz multilingüe

IA conversacional

Introducción

India necesitaba una plataforma que se concentrara en la creación de conjuntos de datos multilingües y soluciones de tecnología lingüística basadas en inteligencia artificial para brindar servicios digitales en idiomas indios. Para lanzar esta iniciativa, el Cliente se asoció con Shaip para recopilar y transcribir el idioma indio para crear modelos de habla multilingües.

Volumen

Horas de datos recopilados
10
No. de páginas anotadas
10 +
Duración del proyecto
< 1 meses

Desafios

Para ayudar al cliente con su hoja de ruta de tecnología del habla para idiomas indios, el equipo necesitaba adquirir, segmentar y transcribir grandes volúmenes de datos de entrenamiento para construir un modelo de IA. Los requisitos críticos del cliente fueron:

Recolectar Datos

  • Adquiera 8000 horas de datos de entrenamiento desde ubicaciones remotas de la India
  • El proveedor para recopilar el habla espontánea de grupos de edad de 20 a 70 años.
  • Garantizar una mezcla diversa de hablantes por edad, género, educación y dialectos.
  • Cada grabación de audio deberá ser de al menos 16 kHz con 16 bits/muestra.
La recolección de datos

Transcripción de datos

Siga las pautas de transcripción detalladas sobre caracteres y símbolos especiales, ortografía y gramática, uso de mayúsculas, abreviaturas, contracciones, letras habladas individuales, números, signos de puntuación, acrónimos e inicialismos, habla irregular, habla ininteligible, idiomas no objetivo, no habla

Transcripción de datos

Control de calidad y comentarios

Todas las grabaciones se someterán a evaluación y validación de calidad; solo se entregarán grabaciones de voz validadas.

Solución

Con nuestro profundo conocimiento de la IA conversacional, ayudamos al cliente a recopilar y transcribir los datos de audio con un equipo de recolectores, lingüistas y anotadores expertos para crear un gran corpus de datos de audio de partes remotas de la India.

El alcance del trabajo de Shaip incluyó, entre otros, la adquisición de grandes volúmenes de datos de entrenamiento de audio, la transcripción de los datos y la entrega de los archivos JSON correspondientes que contienen los metadatos [tanto para los hablantes como para los transcriptores. Para cada orador, los metadatos incluyen una identificación de orador anónima, detalles del dispositivo, información demográfica como género, edad y educación, junto con su código PIN, estado socioeconómico, idiomas hablados y un registro de la duración de su estadía. Para cada transcriptor, los datos incorporan una identificación de transcriptor anónima, detalles demográficos similares a los de los hablantes, la duración de su experiencia de transcripción y un desglose completo de los idiomas que pueden leer, escribir y hablar.

shaip recogido 8000 horas de datos de audio/voz espontánea a escala y 800 horas transcritas manteniendo los niveles deseados de calidad necesarios para capacitar la tecnología del habla para proyectos complejos. Se tomó el Formulario de Consentimiento Explícito de cada uno de los participantes. El discurso espontáneo recopilado se basó en imágenes proporcionadas por la Universidad. De 3500 imágenes, 1000 son genéricos y 2500 se relacionan con la cultura, festivales, etc. específicos del distrito. Las imágenes representan varios dominios como estaciones de tren, mercados, clima y más.

Recolectar Datos

EstadoDistritosHoras de audioServicio
(Horas)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
Uttar PradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengala OccidentalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNorte + Sur de Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Total8000800

Reglas generales

Formato

    • Audio a 16 kHz, 16 bits/muestra.
    • Un canal solo.
    • Audio sin procesar sin transcodificación.

Estilo

    • Habla espontánea.
    • Oraciones basadas en imágenes proporcionadas por la Universidad. De 3500 imágenes, 1000 son genéricas y 2500 se relacionan con la cultura, festivales, etc. específicos del distrito. Las imágenes representan varios dominios como estaciones de tren, mercados, clima y más.

Fondo de grabación

    • Grabado en un ambiente tranquilo y sin eco.
    • Sin perturbaciones del teléfono inteligente (vibración o notificaciones) durante la grabación.
    • Sin distorsiones como recortes o efectos de campo lejano.
    • Las vibraciones del teléfono son inaceptables; Las vibraciones externas son tolerables si el audio es claro.

Especificación del altavoz

    • Rango de edad de 20 a 70 años con distribución equilibrada de género por distrito.
    • Mínimo de 400 hablantes nativos en cada distrito.
    • Los hablantes deben utilizar su idioma/dialecto materno.
    • Formularios de consentimiento obligatorios para todos los participantes.


Control de calidad y garantía de calidad crítica

El proceso de control de calidad prioriza el control de calidad de las grabaciones y transcripciones de audio. Los estándares de audio se centran en silencios precisos, duración de segmentos, claridad de un solo hablante y metadatos detallados que incluyen edad y estatus socioeconómico. Los criterios de transcripción enfatizan la precisión de las etiquetas, la veracidad de las palabras y los detalles correctos del segmento. El punto de referencia de aceptación dicta que si más del 20% de un lote de audio no cumple con estos estándares, se rechaza. Para discrepancias inferiores al 20%, se requieren grabaciones de reemplazo con perfiles similares.

Transcripción de datos

Las pautas de transcripción enfatizan la precisión y la transcripción palabra por palabra solo cuando las palabras son claras y comprensibles; Las palabras poco claras se marcan como [ininteligible] o [inaudible] según el problema. Los límites de las oraciones en audio largo están marcados con , y no se permite parafrasear ni corregir errores gramaticales. La transcripción palabra por palabra cubre errores, jergas y repeticiones, pero omite comienzos en falso, sonidos de relleno y tartamudeos. Los ruidos de fondo y de primer plano se transcriben con etiquetas descriptivas, mientras que los nombres propios, títulos y números siguen reglas de transcripción específicas. Se utilizan etiquetas de orador para cada oración y las oraciones incompletas se indican con.

Flujo de trabajo del proyecto

El flujo de trabajo describe el proceso de transcripción de audio. Comienza con la incorporación y capacitación de los participantes. Graban audio usando una aplicación, que se carga en una plataforma de control de calidad. Este audio se somete a controles de calidad y segmentación automática. Luego, el equipo técnico prepara segmentos para la transcripción. Después de la transcripción manual, hay un paso de control de calidad. Las transcripciones se entregan al cliente y, si se aceptan, la entrega se considera completa. De lo contrario, las revisiones se realizan en función de los comentarios de los clientes.

Resultado

Los datos de audio de alta calidad de lingüistas expertos permitirán a nuestro cliente entrenar y construir con precisión modelos multilingües de reconocimiento de voz en varios idiomas indios con diferentes dialectos en el tiempo estipulado. Los modelos de reconocimiento de voz se pueden utilizar para:

  • Superar la barrera del idioma para la inclusión digital conectando a los ciudadanos con las iniciativas en su propia lengua materna.
  • Promueve la Gobernanza Digital
  • Catalizador para formar un ecosistema de servicios y productos en idiomas indios
  • Contenido digital más localizado en los dominios de interés público, en particular, gobernanza y políticas.

Estamos asombrados por la experiencia de Shaip en el ámbito de la IA conversacional. La tarea de manejar 8000 horas de datos de audio junto con 800 horas de transcripción en 80 distritos diversos fue, como mínimo, monumental. Fue la profunda comprensión de Shaip de los intrincados detalles y matices de este dominio lo que hizo posible la ejecución exitosa de un proyecto tan desafiante. Su capacidad para gestionar y navegar sin problemas a través de las complejidades de esta gran cantidad de datos y al mismo tiempo garantizar una calidad de primer nivel es realmente encomiable.

Oro-5 estrellas

Acelere su IA conversacional
desarrollo de aplicaciones al 100%