Caso práctico de inteligencia artificial sobre música
Recopilación de datos de voz cantada
Colección de audio de canto basado en la voz para entrenamiento de algoritmos de ecualización y compresión: captura de la diversidad lingüística y musical
Descripción general del proyecto
Shaip se asoció con una empresa tecnológica líder para recopilar diversas grabaciones de audio de canto en cuatro idiomas prioritarios: chino, árabe, español y ruso. El proyecto tenía como objetivo proporcionar datos de alta calidad para entrenar algoritmos de ecualización y compresión basados en IA, que son esenciales para mejorar el procesamiento automatizado de audio.
La colección incluyó 40 participantes (10 por idioma) de diversos géneros, con un enfoque en grabaciones con calidad de estudio utilizando diversos micrófonos y entornos.

Estadísticas clave
4 idiomas: Chino, árabe, español, ruso
10 cantantes per
idioma (40 en total)
20 horas of
audio cantando
Formato de audio: PCM de 48 kHz, mono, WAV
Transcripción de audio en lenguas nativas
Duración del proyecto:
18 Semanas
Alcance del proyecto
Recolectar Datos
El alcance abarcó la recopilación de audios cantados en cuatro idiomas específicos, grabados por artistas reales de múltiples géneros musicales. Se utilizó un entorno de estudio para garantizar grabaciones de alta calidad adecuadas para entrenar modelos de IA.
Requisitos clave
- Participantes: 10 cantantes por idioma, con una distribución de género equilibrada (50% hombres, 50% mujeres).
- Géneros: Una variedad de géneros, autoidentificados por el artista, validados por su consistencia.
- Entorno de grabación: Calidad de estudio, con múltiples configuraciones de micrófono (dinámico, condensador).
- Formato de audio: Archivos PCM, mono, WAV de 48 kHz, sin procesamiento (por ejemplo, sin compresión, ecualización, reverberación).
- Transcripción: Canciones que deben transcribirse en el idioma en que se cantan, con reglas especiales para canciones bilingües.
- Idiomas: Chino, árabe, español, ruso
- Transcripción
- Las transcripciones deben proporcionarse en el idioma de la grabación (por ejemplo, líneas en hindi en devanagari, seguidas de inglés).
- Asegúrese de que cada segmento no dure más de 15 segundos para lograr claridad y precisión.
- Requisitos de grabación de audio
- Mínimo 3 configuraciones de micrófono por sesión de grabación.
- 3 minutos por canción, con 3 tomas por canción, asegurando diversas grabaciones de micrófono para cada participante.
- Entorno acústico con calidad de estudio sin ruido de fondo.
Desafíos
Garantizar una distribución equilibrada de cantantes por género, tono de voz y género musical fue un desafío complejo.
Mantener configuraciones y entornos de micrófono consistentes mientras se capturan diversas interpretaciones vocales en varios idiomas.
Garantizamos un audio con calidad de estudio sin ruido externo y una transcripción precisa en varios idiomas.
Solución
Shaip proporcionó una solución integral para satisfacer los requisitos del proyecto:
- Reclutar a 40 cantantes en cuatro idiomas y garantizar una representación diversa en género, tono y estilo musical.
- Realización de grabaciones con calidad de estudio con distintos tipos de micrófonos (dinámicos, de condensador) para capturar una amplia gama de datos de audio.
- Transcribir grabaciones con precisión en los idiomas utilizados, siguiendo reglas específicas para canciones bilingües.
- Consentimiento: Se recopilarán formularios de consentimiento de todos los participantes antes de la grabación.
Resultado
Los diversos datos de audio de canto recopilados permitieron al cliente desarrollar un conjunto de entrenamiento sólido para algoritmos de compresión y ecualización automatizados, lo que mejoró la calidad del procesamiento de audio. Las grabaciones de alta calidad y los metadatos detallados garantizaron que los modelos de IA pudieran manejar varios géneros musicales y complejidades lingüísticas. Resultados clave:
- Datos de audio diversos y de alta calidad para entrenar sistemas de IA.
- Transcripción precisa y metadatos para análisis.
- Una base más sólida para herramientas de procesamiento de audio basadas en IA.
Lo que recibe el cliente
- 20 horas de grabaciones de audio con calidad de estudio (PCM de 48 kHz, archivos WAV mono).
- Transcripciones en el idioma de la grabación.
- Metadatos: marca/modelo de micrófono, interfaz de audio/DAC, perfil del cantante, información de género.
- Formato JSON para transcripción con metadatos.
La capacidad de Shaip para captar la diversidad del talento musical y la riqueza lingüística ha sido inestimable para el desarrollo de nuestros algoritmos de ecualización y compresión. Su equipo se aseguró de que cada aspecto, desde la contratación de artistas hasta la calidad de la grabación, se manejara con precisión, lo que hizo de este un paso esencial para perfeccionar nuestros sistemas de procesamiento de audio automatizados.
Estamos verdaderamente agradecidos por la confianza y colaboración que Shaip ha demostrado durante todo el proceso. A pesar de nuestros estrictos y desafiantes requisitos técnicos, su dedicación, trabajo duro y atención al detalle han sido excepcionales. Ha sido un placer trabajar con un equipo tan comprometido con la excelencia.