Avisos de pago UPI basados en voz: cómo captar la diversidad para mejorar los modelos de IA
Aprovechar la experiencia de Shaip en la creación rápida y diversas grabaciones de audio para respaldar los sistemas de pago UPI basados en voz con datos culturalmente diversos y de alta calidad.
Descripción general del proyecto
Shaip se asoció con una empresa líder de tecnología financiera para desarrollar una aplicación de pago basada en voz mediante la creación y grabación de diversos mensajes de pago de UPI. El proyecto implicó la creación de 2,500 mensajes únicos y 87,000 13 mensajes diversificados en 200 intenciones relacionadas con el pago, como enviar dinero, solicitar dinero, consultar saldo y pagar facturas. Estos mensajes fueron grabados durante más de 45 horas por XNUMX hablantes de diversas regiones, orígenes y grupos de edad, lo que garantiza una amplia gama de diversidad lingüística y ambiental.
El objetivo del proyecto era desarrollar datos de entrenamiento de alta calidad para un modelo de IA que pueda reconocer y responder a comandos de voz relacionados con los pagos UPI en entornos del mundo real.

Estadísticas clave
Horas de audio de avisos de pago de UPI grabadas
200
Oradores de diversos orígenes (edad, educación, región)
45
Intenciones cubiertas, con más de 87,000 XNUMX indicaciones diversificadas
13
Idiomas: Inglés, con hablantes de diversos orígenes lingüísticos nativos (kumaoni, bengalí, malabar, gujarati, hindi, maratí, etc.)
Alcance del proyecto
Creación rápida
El alcance incluyó la creación de indicaciones únicas para un sistema de pago UPI basado en voz. Las indicaciones se diseñaron para cubrir múltiples intenciones, asegurándose de que fueran diversas en estructura, vocabulario y entidades nombradas. Algunos aspectos clave incluyeron:
13 intenciones clave, entre ellas:
- Enviar dinero: 65,653 indicaciones únicas y diversificadas
- Consulta de saldo: 3,052 indicaciones
- Pedir dinero: 26,972 indicaciones
- Historial de transacciones, recargas, pago de facturas, etc.
Grabación de audio
Para garantizar la autenticidad y la aplicabilidad en el mundo real, las indicaciones fueron grabadas por 45 hablantes de diferentes orígenes lingüísticos. La diversidad capturada a través de diferentes idiomas nativos, dialectos regionales y entornos (interiores y exteriores) ayudó a mejorar los datos de entrenamiento.
- Diversidad lingüística: Usuarios que hablan inglés con fluidez pero con varios idiomas nativos, como kumaoni, gujarati, hindi, bengalí, maratí y malabar.
- Edad, género y nivel educativo: Los datos capturaron una amplia gama de datos demográficos.
- Oradores urbanos y rurales: Para reflejar el uso en el mundo real, se incluyeron hablantes tanto urbanos como rurales.
- Entorno de grabación: Las grabaciones de audio se realizaron tanto en interiores como en exteriores, con una variedad de ruidos de fondo incluidos.
Desafíos
Para garantizar que las indicaciones reflejaran los diversos dialectos regionales y las características de los hablantes se requirió una planificación y ejecución cuidadosas.
El manejo de los ruidos de fondo y las condiciones ambientales (interiores y exteriores) fue crucial para la aplicación en el mundo real.
La inclusión de oradores de diferentes grupos de edad, niveles educativos y regiones rurales/urbanas introdujo complejidad a la hora de capturar datos auténticos.
Solución
Shaip proporcionó una solución que abordó los desafíos del proyecto mediante la implementación de técnicas avanzadas de PNL y una planificación cuidadosa tanto en la creación como en el registro de indicaciones. Aspectos clave
Solución incluida:
Creación rápida
- 2,500 Se crearon indicaciones únicas, cada una diversificada por estructura y vocabulario.
- 13 Se cubrieron intenciones que iban desde solicitudes de pago básicas hasta consultas más complejas, como historial de transacciones y pagos de facturas.
Grabación de audio
- 200 horas Las grabaciones de audio fueron realizadas por 45 usuarios, garantizando la diversidad entre idiomas nativos, entornos y grupos demográficos de hablantes.
- Para la grabación se utilizaron entornos interiores y exteriores para garantizar una variación natural del audio.
- Los hablantes representaban una variedad de dialectos regionales, lo que garantiza una representación lingüística precisa.
Intención | ENVIAR | Consulta de saldo | Pedir dinero | Historial de transacciones |
---|---|---|---|---|
Prompt | Realizar un pago de veinte mil a Sumatri por el alquiler de la casa. | Quiero saber mi saldo actual en mi cuenta de ahorros. | ¿Puedes pedirle a Raji, trescientas dieciocho rupias para una emergencia? | Muéstrame mi historial de transacciones de tarjeta de débito. |
Gujarati | સુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવો | હું મારા બચત ખાતામાં મારી વર્તમાન બેલેન્સ જાણ વા માંગુ છું. | શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો અઢા ર રૂપિયા માંગી શકો છો? | મને મારા ડેબિટ કાર્ડના વ્યવહાર દેખાડો. |
hindi | सुमात्री को मकान किराए के लिए इक्कीस सौ रुपए क ा भुगतान करें | | मैं अपने बचत खाते में वर्तमान शेष राशि जानना च ाहता हूँ। | क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठा ¿Qué pasa con usted? | मुझे मेरा डेबिट कार्ड का लेनदेन ब्यौरा दिखाओ। |
malayalam | വീട്ടുവാടകയായി സvase ന്നൂറ് നൽകൂ. | എൻ്റെ സേവിംഗ്സ് അക്കൗണ്ടിലെ നിലവിലെ തുക ാൻ ഞാൻ ആഗ്രഹിക്കുന്നു. | രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ അടിയന്തരാ വശാമോ? | എൻ്റെ ഡെബിറ്റ് കാർഡ് ഇടപാട് വിവരണം കാണിക്കൂ. |
telugu | ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్ల ించండి | నేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రస్తుత బ్యాల ెన్స్ ను తెలుసుకోవాలనుకుంటున్నాను. | ఎమర్జెన్సీ కోసం రాజిని మూడు వందల పద్దెనిమిది రూపాయలు అడగగలరా? | నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు చూపి ంచండి. |
bengalí | বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০০ টাকা পরিশ োধ করুন | আমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্ স জানতে চাই। | আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য তিনশো আঠারো টাকাচেয়ে নিতে পারেন? | আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান। |
marathi | सुमात्री ला घरा चे रेंट साठी दोन हजार एक संभर र ुपये चुकवा | मला माये बचत खाते मधी चालू बॅलन्स जाणा च आहे | काय तुम्ही राजी पासून तीन सो अठराह रुपय मांगु शकते इमरजेंसी साठी ? | मला माझे डेबिट कार्ड चे लेन देन दाखवा . |
El Resultado
Los datos de audio de alta calidad y diversos que proporcionó Shaip permitieron al cliente desarrollar un sistema de pago UPI basado en voz e impulsado por IA capaz de reconocer comandos en varios dialectos, entornos y contextos. Los datos ayudaron a mejorar:
- Reconocimiento de voz en tiempo real en entornos complejos.
- Transacción UPI más precisa manejo para una gama más amplia de usuarios.
- Escalabilidad: El proyecto establece una base sólida para expandirse a otros idiomas indios.
Lo que recibe el cliente
- 200 horas de archivos de audio (formato PCM WAV de 8 kHz, mono)
- 87,000+ indicaciones diversificadas anotadas con intenciones únicas
- Metadatos: Perfiles de oradores, detalles del entorno y precisión de la transcripción
La capacidad de Shaip para capturar la diversidad de la India a través de indicaciones únicas y grabaciones de audio auténticas ha sido un punto de inflexión para nuestro sistema de pago UPI basado en voz. Su equipo se aseguró de que cada aspecto del proyecto, desde la creación de indicaciones hasta la calidad de la grabación, se manejara con precisión, lo que nos ayudó a construir un modelo de reconocimiento de voz más inclusivo y sólido.