Colección de audio de frases clave/indicaciones

Estudio de caso: Colección de frases clave para sistemas activados por voz en el automóvil

Colección de frases clave

Existe una creciente demanda de sistemas activados por voz en el automóvil en la industria automotriz, lo que redefine la forma en que nos relacionamos con nuestros vehículos de movilidad.

La industria automotriz ha adoptado rápidamente sistemas activados por voz, con jugadores importantes como Ford, Tesla y BMW integrando reconocimiento de voz avanzado en sus vehículos. Para 2022, se estimó que más del 50% de los autos nuevos contarían con capacidades de reconocimiento de voz. Estas integraciones tienen como objetivo mejorar la seguridad, permitiendo a los conductores operar las funciones de navegación, entretenimiento y comunicación sin distracciones.

Se proyectó que el valor de mercado para el reconocimiento de voz en automóviles superaría los mil millones de dólares para 1, lo que indica una creciente demanda de interacciones inteligentes en el automóvil con manos libres.

Automotriz

La investigación sugiere que para 2022, el 73% de los conductores usarán un asistente de voz en el automóvil.

El mercado del sistema de reconocimiento de voz automotriz se valoró en USD 2.01 mil millones en 2021 y se espera que alcance los USD 3.51 mil millones para 2027, registrando una CAGR de alrededor del 8.07%.

Solución del mundo real

Datos que potencian los sistemas activados por voz

Los sistemas activados por voz en los automóviles mejoran la seguridad y la comodidad. Permiten a los conductores acceder a la navegación, realizar llamadas, enviar mensajes de texto y controlar la música sin quitar las manos del volante ni los ojos de la carretera. Al responder a comandos verbales, estos sistemas reducen la distracción, promueven la multitarea y aseguran un enfoque continuo en la conducción. 

El cliente es un líder mundial en inteligencia conversacional que ofrece soluciones de IA de voz que permiten a las empresas ofrecer experiencias conversacionales increíbles a sus clientes. Estaban trabajando con empresas automotrices líderes para entrenar sus sistemas activados por voz con frases clave de marca y necesitaban la experiencia de Shaip en la recopilación de datos de audio.

Solución del mundo real
Desafios

Desafios

  • Abastecimiento multitudinario: Reclute a más de 2800 hablantes nativos por idioma en todo el mundo.
  • Recopilación de datos: Asegure más de 200 12 avisos en XNUMX idiomas dentro del plazo establecido.
  • Reconocimiento de contexto e intención: Para comprender correctamente las solicitudes de los usuarios, era necesario entrenar los sistemas en diferentes variaciones de la misma frase clave.
  • Manejo del ruido de fondo: Aborde el ruido de fondo del mundo real para la precisión del modelo ML.
  • Reducción del sesgo: Adquiera muestras de voz de diversos grupos demográficos para garantizar la inclusión.
  • Especificaciones de audio: 16khz 16bits PCM, mono, monocanal, WAV; sin procesamiento
  • Entorno de grabación: Las grabaciones deben tener un audio limpio sin ruido de fondo ni perturbaciones. Frases clave que se grabarán utilizando el habla normal.
  • Control de calidad:  Todas las grabaciones de voz se someterán a una evaluación y validación de calidad, solo se entregarán grabaciones de voz validadas. Si Shaip no cumple con los estándares de calidad acordados, Shaip volverá a enviar los datos sin costo adicional

Solución

Shaip, con su experiencia en el espacio de IA conversacional, permitió al cliente:

  • Recopilación de datos: 208k frases clave/indicaciones de marca recopiladas en 12 idiomas globales de 2800 hablantes en el marco de tiempo estipulado
  • Diversos acentos y dialectos: Reclutó especialistas de todo el mundo, competentes en los acentos y dialectos deseados.
  • Reconocimiento de contexto e intención: Cada orador tuvo la tarea de registrar las frases clave en 20 variaciones distintas, lo que permitió que los modelos ML captaran con precisión las solicitudes de los usuarios en términos de contexto e intención.
  • Manejo del ruido de fondo: Para garantizar una calidad de audio impecable, nos aseguramos de que las frases clave se capturaran en un entorno sereno con niveles de ruido inferiores a 40 dB, sin perturbaciones de fondo como la televisión, la radio, la música, el habla o los sonidos de la calle.
  • Reducción del sesgo: Para minimizar el sesgo, involucramos a personas de diversas regiones y mantuvimos una representación demográfica equilibrada con un 50 % de hombres y un 50 % de mujeres, que abarcaban grupos de edad de 18 a 60 años.
  • Directrices de grabación: Las frases clave se capturaron en un patrón de habla normal y uniforme, sin variaciones, como ritmo rápido o lento. Silencio de 2 segundos tanto al principio como al final para garantizar que ninguna parte del discurso se recorte inadvertidamente.
  • Formato de grabación: El audio se grabó a 16 kHz, PCM de 16 bits en mono, utilizando un solo canal y se guardó en formato de archivo WAV. El audio permanece sin procesar, lo que significa que no se aplicó compresión, reverberación ni ecualización.
  • Calidad: Cada grabación de voz se sometió a rigurosos controles de calidad y validación. Solo se entregaron las grabaciones que pasaron esta evaluación. Todos los archivos que no cumplieron con los estándares de calidad acordados se volvieron a grabar y se proporcionaron sin cargo adicional.
Solución
Resultado

Resultado

Los datos de audio de frases clave de marca de alta calidad o las indicaciones de voz permitirán a las empresas automotrices y a sus clientes:

  1. Marca e Identidad: Las indicaciones de voz con frases de marca específicas ayudan a las empresas a crear una conexión directa y memorable entre el usuario y la marca que mejora el recuerdo de la marca.
  2. Facilidad de uso: Los comandos de voz facilitan que los conductores interactúen con los vehículos sin quitar las manos del volante ni los ojos de la carretera, lo que mejora la seguridad vial.
  3. Funcionalidad: Los comandos de voz hacen que el acceso y el control de las funciones del automóvil sean más intuitivos. Ya sea navegación, reproducción de medios o control climático.
  4. Integración con Otros Sistemas: Muchos sistemas activados por voz están integrados con teléfonos inteligentes, dispositivos domésticos inteligentes y otros dispositivos IoT. Por ejemplo, un usuario podría pedirle a su automóvil que encienda las luces de su casa cuando se acerque a ella.
  5. Ventaja Competitiva: Ofrecer sistemas avanzados activados por voz puede ser un punto de venta y un diferenciador. Los compradores buscan la última tecnología cuando consideran comprar un auto nuevo.
  6. A prueba de futuro: A medida que la tecnología evoluciona y el IoT se integra más en la vida cotidiana, tener un sistema robusto activado por voz posiciona a las empresas automotrices para que se adapten mejor a la tecnología del futuro.
  7. Oportunidades de ingresos: Oportunidades de monetización adicionales, es decir, los sistemas de voz ofrecen recomendaciones o experiencias integradas de comercio electrónico (como pedir comida o encontrar servicios cercanos) que podrían generar ingresos para los afiliados.
Oro-5 estrellas

Cuando comenzamos a buscar indicaciones de voz para el sector automotriz, los desafíos eran numerosos. Captar la diversidad en el habla, los acentos y los tonos fue vital para representar a la clientela global de nuestro cliente. Shaip se destacó no solo como proveedor, sino también como un verdadero socio. Su compromiso de asegurar una amplia gama de voces de diferentes regiones fue encomiable. Fueron más allá de simplemente reunir voces; captaron los matices de las necesidades de nuestro proyecto, garantizando grabaciones de primer nivel. Su perfecta adherencia a los estándares de la colección de audio mostró su profesionalismo y dedicación al proyecto.

Acelere su IA conversacional
desarrollo de aplicaciones al 100%