Estudio de caso: Colección de expresiones

Solución del mundo real
Datos que impulsan las conversaciones globales
La necesidad de capacitación en pronunciación surge porque no todos los clientes usan las palabras o frases exactas al interactuar o hacer preguntas a sus asistentes de voz en un formato de guión. Es por eso que las aplicaciones de voz específicas deben entrenarse con datos de voz espontáneos. Por ejemplo, "¿Dónde está ubicado el hospital más cercano?" “Encuentra un hospital cerca de mí” o “¿Hay un hospital cerca?” todos indican la misma intención de búsqueda, pero están redactados de manera diferente.

Problema
Para ejecutar la hoja de ruta de voz del asistente digital de los clientes para los idiomas de todo el mundo, el equipo necesitaba adquirir grandes volúmenes de datos de entrenamiento para el modelo de IA de reconocimiento de voz. Los requerimientos críticos del cliente eran:
- Adquiera grandes volúmenes de datos de entrenamiento (indicaciones de pronunciación de un solo hablante de no más de 3 a 30 segundos de duración) para servicios de reconocimiento de voz en 13 idiomas globales
- Para cada idioma, el proveedor generará mensajes de texto para que los hablantes los registren (a menos que el
suministros del cliente) y transcriba el audio resultante. - Proporcione datos de audio y transcripción de declaraciones grabadas con los archivos JSON correspondientes
que contiene los metadatos de todas las grabaciones. - Asegurar una mezcla diversa de hablantes por edad, género, educación y dialecto
- Garantice una combinación diversa de entornos de grabación según las especificaciones.
- Cada grabación de audio deberá ser de al menos 16 kHz, pero preferiblemente de 44 kHz.
Acelere el desarrollo de su aplicación de IA conversacional al 100%
Tras evaluar a varios proveedores, el cliente eligió a Shaip por su experiencia en proyectos de IA conversacional. Nos impresionó su capacidad para ejecutar proyectos y su experiencia para obtener, transcribir y entregar las expresiones requeridas por lingüistas expertos en 13 idiomas, dentro de plazos ajustados y con la calidad requerida.
Solución
Con nuestro profundo conocimiento de la IA conversacional, ayudamos al cliente a recopilar, transcribir y anotar los datos con un equipo de lingüistas y anotadores expertos para entrenar su paquete de voz multilingüe de procesamiento de voz impulsado por IA.
El alcance del trabajo de Shaip incluía, entre otros, la adquisición de grandes volúmenes de datos de capacitación de audio para el reconocimiento de voz, la transcripción de grabaciones de audio en varios idiomas para todos los idiomas en nuestra hoja de ruta de idiomas de Nivel 1 y Nivel 2, y la entrega correspondiente JSON archivos que contienen los metadatos. Shaip recolectó expresiones de 3 a 30 segundos a escala mientras mantenía los niveles deseados de calidad requeridos para entrenar modelos ML para proyectos complejos.
- Audio recopilado, transcrito y anotado: 22,250 horas
- Idiomas admitidos: 13 (danés, coreano, árabe de Arabia Saudita, holandés, chino continental y de Taiwán, francés canadiense, español mexicano, turco, hindi, polaco, japonés, ruso)
- No. de Enunciados: 7M+
- Línea de tiempo: 7-8 meses
Al recopilar declaraciones de audio a 16 kHz, aseguramos una combinación saludable de hablantes por edad, género, educación y dialectos en diversos entornos de grabación.
Resultado
Los datos de audio de pronunciación de alta calidad de lingüistas expertos permitieron al cliente entrenar con precisión su modelo de reconocimiento de voz multilingüe en 13 idiomas globales de nivel 1 y 2. Con conjuntos de datos de entrenamiento estándar de oro, el cliente puede ofrecer asistencia digital inteligente y sólida para resolver problemas futuros del mundo real.
Nuestra Experiencia
Recomendaciones
Guía de compradores
Guía del comprador: IA conversacional
El chatbot con el que conversó se ejecuta en un sistema avanzado de inteligencia artificial conversacional que se entrena, prueba y crea utilizando toneladas de conjuntos de datos de reconocimiento de voz.
Blog
El estado de la IA conversacional 2025
Las infografías de la IA conversacional 2025 hablan sobre qué es la IA conversacional, su evolución, tipos, mercado de IA conversacional por región, casos de uso, desafíos, etc.
Blog
¿Cómo entienden Siri y Alexa lo que estás diciendo?
Los asistentes de voz pueden ser estas voces geniales, predominantemente femeninas, que responden a sus solicitudes para encontrar el restaurante más cercano o la ruta más corta al centro comercial.
Cuéntenos cómo podemos ayudarlo con su próxima iniciativa de IA.