Proyecto Vaani

Proyecto Vaani: El papel de Shaip en el desarrollo de la IA multilingüe para la India

En un país tan culturalmente diverso y lingüísticamente rico como India, el desarrollo de una IA inclusiva comienza con la recopilación de conjuntos de datos representativos y de alta calidad. Esa es la visión detrás Proyecto Vaani—una iniciativa de código abierto a gran escala liderada por PARQUE DE ARTE, Instituto de Ciencias Aplicadas de Bangalore y Google, con el objetivo de dar voz a todas las lenguas y dialectos de la India.

¿El ambicioso objetivo? Recolectar Más de 150,000 horas de discurso y Más de 15,000 horas de transcripciones Desde 1 millones de personas across 773 distritos de la India.

Como uno de los proveedores clave para esta misión nacional, Saip desempeñó un papel fundamental en la conservación de datos de voz espontánea, transcripción y recopilación de metadatos, sentando las bases para tecnologías de voz equitativas que realmente representan a la India real.

La visión detrás del proyecto Vaani

El proyecto Vaani está diseñado para cerrar la brecha de inclusión de la IA mediante la creación de El mayor conjunto de datos multimodal, multilingüe y de código abierto En India. Estos datos son fundamentales para desarrollar sistemas precisos de reconocimiento de voz, traducción e inteligencia artificial generativa en lenguas nativas de la India, muchas de las cuales están subrepresentadas en los ecosistemas tecnológicos globales.

La visión a largo plazo es impulsar aplicaciones impactantes en:

Cómo Shaip ayudó a crear el conjunto de datos de voz de código abierto más grande de la India para el Proyecto Vaani

A Shaip se le confió la colección de 8,000 horas de habla espontánea y 800 horas de transcripciones verificadas manualmenteNuestra responsabilidad abarcó la incorporación de oradores, la captura de audio, el etiquetado de metadatos, la coordinación de la transcripción y el control de calidad.

8,000 horas de datos de audio espontáneos

800 horas de transcripciones manuales de alta calidad

Grabaciones de Más de 400 hablantes nativos por distrito, Representando diversos grupos de edad, géneros y dialectos

80 distritos, cubierto

Avisos basados ​​en imágenes para garantizar discurso natural y contextual

Esto es lo que hizo que nuestro enfoque fuera único:

Diversidad a nivel de distrito

Diversidad a nivel de distrito

Trabajamos con grabaciones de 80 distritos distribuidos en estados como Bihar, Uttar Pradesh, Karnataka, Bengala Occidental y Maharashtra. Cada distrito aportó 100 horas de datos de audio, garantizando así el equilibrio regional. Trabajamos con hablantes nativos, lo que garantizó la representación de acentos y dialectos regionales que a menudo se pasan por alto en los conjuntos de datos de IA convencionales.

Representación lingüística y demográfica

Representación lingüística y demográfica

Trabajamos con grabaciones de 80 distritos distribuidos en estados como Bihar, Uttar Pradesh, Karnataka, Bengala Occidental y Maharashtra. Cada distrito aportó 100 horas de datos de audio, garantizando así el equilibrio regional. Trabajamos con hablantes nativos, lo que garantizó la representación de acentos y dialectos regionales que a menudo se pasan por alto en los conjuntos de datos de IA convencionales.

Discurso impulsado por imágenes

Para estimular el vocabulario espontáneo y natural, se mostraron a los participantes entre 45 y 90 imágenes por sesión y se les pidió que las describieran. Se les indicó que usaran diversas imágenes, desde símbolos culturales hasta objetos cotidianos, para obtener respuestas naturales y espontáneas en su lengua materna. Esto garantizó que las grabaciones reflejaran el habla contextualizada del mundo real, esencial para el entrenamiento de sistemas avanzados de PNL.

Estándares de transcripción de alta calidad

Estándares de transcripción de alta calidad

Solo se transcribió el 10 % de los datos de voz, lo que equivale a 800 horas. Las transcripciones fueron realizadas por lingüistas locales en un radio de 20 a 50 km del hablante, lo que garantizó la familiaridad con los dialectos y matices. Una segunda verificación garantizó una tasa de error de palabras (WER) inferior al 5 %.

Garantía de calidad estricta

Los datos de audio debían cumplir con un estándar muy exigente: sin ruido de fondo, ecos, vibraciones del teléfono ni distorsiones. El audio se grabó en entornos silenciosos y sin eco. Los archivos se sometieron a una revisión rigurosa para cumplir con las directrices de claridad de voz, niveles de ruido, precisión de metadatos y verificación del hablante. El etiquetado de metadatos debía ser preciso en todos los archivos, y se revisó la alineación del hablante y la ubicación de todas las grabaciones.

Desafíos que resolvimos

Nuestro éxito se debió a una planificación meticulosa, una validación impulsada por la tecnología y asociaciones con equipos locales que comprendían los matices culturales de cada región.

Impacto y aplicaciones

La contribución de Shaip no solo ha acelerado el progreso del Proyecto Vaani, sino que también ha sentado las bases para una IA inclusiva en India. El conjunto de datos de voz seleccionado ya se utiliza para construir y perfeccionar modelos de IA para:

  • Asistentes de voz vernáculos
  • Motores de traducción regionales
  • Herramientas de comunicación accesibles para personas con discapacidad visual
  • Plataformas de tecnología educativa impulsadas por IA para estudiantes rurales
  • Telemedicina rural
  • Servicios ciudadanos basados ​​en la voz
  • Traducción y transcripción en tiempo real

Conclusión

El Proyecto Vaani es un paso audaz hacia una IA inclusiva y accesible, y Shaip se siente honrado de desempeñar un papel fundamental. El trabajo de Shaip en el Proyecto Vaani reafirma nuestro compromiso de construir sistemas de IA éticos e inclusivos basados ​​en la diversidad y la representación. Con más de 8,000 horas de discursos recopilados y 800 horas transcritas, estamos orgullosos de haber participado en uno de los proyectos de inclusión digital más visionarios de la India.

A medida que el Proyecto Vaani avanza hacia su objetivo más amplio de más de 150,000 horas de datos, estamos preparados para respaldar la próxima frontera de la innovación en IA que habla a, y para, todos los indios.

¿Quieres asociarte con nosotros para construir una IA que comprenda el mundo real? www.shaip.com

Social Share