Avisos de pago UPI basados ​​en voz: cómo captar la diversidad para mejorar los modelos de IA

Aprovechar la experiencia de Shaip en la creación rápida y diversas grabaciones de audio para respaldar los sistemas de pago UPI basados ​​en voz con datos culturalmente diversos y de alta calidad.

Avisos de pago de upi basados ​​en voz

Descripción general del proyecto

Shaip se asoció con una empresa líder de tecnología financiera para desarrollar una aplicación de pago basada en voz mediante la creación y grabación de diversos mensajes de pago de UPI. El proyecto implicó la creación de 2,500 mensajes únicos y 87,000 13 mensajes diversificados en 200 intenciones relacionadas con el pago, como enviar dinero, solicitar dinero, consultar saldo y pagar facturas. Estos mensajes fueron grabados durante más de 45 horas por XNUMX hablantes de diversas regiones, orígenes y grupos de edad, lo que garantiza una amplia gama de diversidad lingüística y ambiental.

El objetivo del proyecto era desarrollar datos de entrenamiento de alta calidad para un modelo de IA que pueda reconocer y responder a comandos de voz relacionados con los pagos UPI en entornos del mundo real.

Pago upi basado en voz

Estadísticas clave

Horas de audio de avisos de pago de UPI grabadas

200

Oradores de diversos orígenes (edad, educación, región)

45

Intenciones cubiertas, con más de 87,000 XNUMX indicaciones diversificadas

13

Idiomas: Inglés, con hablantes de diversos orígenes lingüísticos nativos (kumaoni, bengalí, malabar, gujarati, hindi, maratí, etc.)

Alcance del proyecto

Creación rápida

El alcance incluyó la creación de indicaciones únicas para un sistema de pago UPI basado en voz. Las indicaciones se diseñaron para cubrir múltiples intenciones, asegurándose de que fueran diversas en estructura, vocabulario y entidades nombradas. Algunos aspectos clave incluyeron:

13 intenciones clave, entre ellas:

  • Enviar dinero: 65,653 indicaciones únicas y diversificadas
  • Consulta de saldo: 3,052 indicaciones
  • Pedir dinero: 26,972 indicaciones
  • Historial de transacciones, recargas, pago de facturas, etc.

Grabación de audio

Para garantizar la autenticidad y la aplicabilidad en el mundo real, las indicaciones fueron grabadas por 45 hablantes de diferentes orígenes lingüísticos. La diversidad capturada a través de diferentes idiomas nativos, dialectos regionales y entornos (interiores y exteriores) ayudó a mejorar los datos de entrenamiento.

  • Diversidad lingüística: Usuarios que hablan inglés con fluidez pero con varios idiomas nativos, como kumaoni, gujarati, hindi, bengalí, maratí y malabar.
  • Edad, género y nivel educativo: Los datos capturaron una amplia gama de datos demográficos.
  • Oradores urbanos y rurales: Para reflejar el uso en el mundo real, se incluyeron hablantes tanto urbanos como rurales.
  • Entorno de grabación: Las grabaciones de audio se realizaron tanto en interiores como en exteriores, con una variedad de ruidos de fondo incluidos.

Desafíos

Diversidad lingüística y regional

Para garantizar que las indicaciones reflejaran los diversos dialectos regionales y las características de los hablantes se requirió una planificación y ejecución cuidadosas.

Variaciones de audio natural

El manejo de los ruidos de fondo y las condiciones ambientales (interiores y exteriores) fue crucial para la aplicación en el mundo real.

Diversos perfiles de oradores

La inclusión de oradores de diferentes grupos de edad, niveles educativos y regiones rurales/urbanas introdujo complejidad a la hora de capturar datos auténticos.

Solución

Shaip proporcionó una solución que abordó los desafíos del proyecto mediante la implementación de técnicas avanzadas de PNL y una planificación cuidadosa tanto en la creación como en el registro de indicaciones. Aspectos clave
Solución incluida:

Creación rápida

  • 2,500 Se crearon indicaciones únicas, cada una diversificada por estructura y vocabulario.
  • 13 Se cubrieron intenciones que iban desde solicitudes de pago básicas hasta consultas más complejas, como historial de transacciones y pagos de facturas.

Grabación de audio

  • 200 horas Las grabaciones de audio fueron realizadas por 45 usuarios, garantizando la diversidad entre idiomas nativos, entornos y grupos demográficos de hablantes.
  • Para la grabación se utilizaron entornos interiores y exteriores para garantizar una variación natural del audio.
  • Los hablantes representaban una variedad de dialectos regionales, lo que garantiza una representación lingüística precisa.
IntenciónENVIARConsulta de saldoPedir dineroHistorial de transacciones
PromptRealizar un pago de veinte mil a Sumatri por el alquiler de la casa.Quiero saber mi saldo actual en mi cuenta de ahorros.¿Puedes pedirle a Raji, trescientas dieciocho rupias para una emergencia?
Muéstrame mi historial de transacciones de tarjeta de débito.
Gujaratiસુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવોહું મારા બચત ખાતામાં મારી વર્તમાન બેલેન્સ જાણ વા માંગુ છું.શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો અઢા ર રૂપિયા માંગી શકો છો?મને મારા ડેબિટ કાર્ડના વ્યવહાર દેખાડો.
hindiसुमात्री को मकान किराए के लिए इक्कीस सौ रुपए क ा भुगतान करें |मैं अपने बचत खाते में वर्तमान शेष राशि जानना च ाहता हूँ।क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठा ¿Qué pasa con usted?मुझे मेरा डेबिट कार्ड का लेनदेन ब्यौरा दिखाओ।
malayalamവീട്ടുവാടകയായി സvase ന്നൂറ് നൽകൂ.എൻ്റെ സേവിംഗ്സ് അക്കൗണ്ടിലെ നിലവിലെ തുക ാൻ ഞാൻ ആഗ്രഹിക്കുന്നു.രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ അടിയന്തരാ വശാമോ?എൻ്റെ ഡെബിറ്റ് കാർഡ് ഇടപാട് വിവരണം കാണിക്കൂ.
teluguఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్ల ించండినేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రస్తుత బ్యాల ెన్స్ ను తెలుసుకోవాలనుకుంటున్నాను.ఎమర్జెన్సీ కోసం రాజిని మూడు వందల పద్దెనిమిది రూపాయలు అడగగలరా?నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు చూపి ంచండి.
bengalíবাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০০ টাকা পরিশ োধ করুনআমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্ স জানতে চাই।আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য তিনশো আঠারো টাকাচেয়ে নিতে পারেন?আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান।
marathiसुमात्री ला घरा चे रेंट साठी दोन हजार एक संभर र ुपये चुकवामला माये बचत खाते मधी चालू बॅलन्स जाणा च आहेकाय तुम्ही राजी पासून तीन सो अठराह रुपय मांगु शकते इमरजेंसी साठी ?मला माझे डेबिट कार्ड चे लेन देन दाखवा .

El Resultado

Los datos de audio de alta calidad y diversos que proporcionó Shaip permitieron al cliente desarrollar un sistema de pago UPI basado en voz e impulsado por IA capaz de reconocer comandos en varios dialectos, entornos y contextos. Los datos ayudaron a mejorar:

  • Reconocimiento de voz en tiempo real en entornos complejos.
  • Transacción UPI más precisa manejo para una gama más amplia de usuarios.
  • Escalabilidad: El proyecto establece una base sólida para expandirse a otros idiomas indios.

Lo que recibe el cliente

  • 200 horas de archivos de audio (formato PCM WAV de 8 kHz, mono)
  • 87,000+ indicaciones diversificadas anotadas con intenciones únicas
  • Metadatos: Perfiles de oradores, detalles del entorno y precisión de la transcripción

La capacidad de Shaip para capturar la diversidad de la India a través de indicaciones únicas y grabaciones de audio auténticas ha sido un punto de inflexión para nuestro sistema de pago UPI basado en voz. Su equipo se aseguró de que cada aspecto del proyecto, desde la creación de indicaciones hasta la calidad de la grabación, se manejara con precisión, lo que nos ayudó a construir un modelo de reconocimiento de voz más inclusivo y sólido.

Oro-5 estrellas