Ahora consigue 50% DE DESCUENTO* sobre conjuntos de datos listos para usar de IA conversacional
Conjunto de datos de voz y audio para chatbots, asistentes de voz, dispositivos habilitados para voz.
* Oferta de período limitado
Con la confianza de los líderes de la industria
Detalles | Palabra clave | Conjunto de datos de idiomas listos para usar | Conversaciones del centro de llamadas 8khz* | Conversaciones genéricas 8khz* | Medios y podcasts 16khz* | Enunciado/Monólogo con guion 16khz* | Volumen total en horas | Dialectos cubiertos | Formato de audio | Formato de transcripción de texto | Caso de uso | Fuente | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
africaans | Conjunto de datos de audio afrikáans | 600 | 900 | 1500 | Afrikáans hablado en África | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Árabe | Conjunto de datos de audio árabe | 800 | 1500 | 2300 | Árabe de los países del Golfo | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Chino | Conjunto de datos de audio chino | 2000 | 2000 | chino de china | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Danés | Conjunto de datos de audio danés | 400 | 600 | 2000 | 3000 | Danés de Dinamarca | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Holandés | Conjunto de datos de audio holandés | 2000 | 2000 | Holandés de Holanda | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Inglés - Acento AAVE | Inglés - Conjunto de datos de audio AAVE (inglés vernáculo afroamericano) | 500 | 500 | 1000 | La variedad vernácula (a veces conocida como AAVE, hablada típicamente por la gran mayoría de los afroamericanos de clase media y trabajadora) y la variedad más estándar (típicamente hablada por los afroamericanos de clase media en situaciones formales y públicas) pero con un mayor énfasis sobre la lengua vernácula. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - acento de Boston/Nueva York | Inglés - Conjunto de datos de audio de Boston/Nueva York | 225 | 225 | 350 | 800 | Esta es una colección de varios acentos regionales que se hablan en las ciudades de Boston, Nueva York y Filadelfia y sus alrededores. Estos acentos pueden sonar similares a los de los no locales, pero distintos de otros acentos estadounidenses. A pesar de que el vocabulario local es diferente al de otras partes del mundo de habla inglesa, estos acentos son mutuamente inteligibles con el inglés que se habla en otros lugares. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Inglés - Acento chino | Inglés - Conjunto de datos de audio con acento chino | 150 | 300 | 450 | Hablantes que hablan chino como primer idioma y que se mudaron o emigraron a los Estados Unidos cuando eran adolescentes o adultos y aprendieron inglés como segundo idioma. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - acento del sur profundo | Inglés - Conjunto de datos de audio del sur profundo | 275 | 275 | 450 | 1000 | Oradores de (i) Texas; (ii) Carolina del Norte, Carolina del Sur, Georgia; (iii) Nueva Orleans; (iv) península de Florida; (v) Tennessee, Arkansas, Míchigan. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Inglés - Acento Hispano | Inglés - Conjunto de datos de audio con acento hispano | 400 | 400 | 800 | El inglés hispano se refiere a las variedades de inglés estadounidense habladas por hispanoamericanos de diversa herencia nacional. El enfoque principal estuvo en los mexicoamericanos, hablantes de diferentes orígenes nacionales (p. ej., México, Puerto Rico, República Dominicana, Ecuador, Cuba, etc.) y también de diferentes regiones (p. ej., California, Nueva York, Florida). Se incluyeron hablantes que hablan español como primera lengua, así como hablantes de origen hispano que hablan español como lengua de herencia. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - Acento de Nueva Zelanda | Inglés - Conjunto de datos de audio de Nueva Zelanda | 250 | 750 | 1000 | Hablantes en ambas islas, incluida una mezcla de hablantes más jóvenes (<40 años) y hablantes mayores (>40 años) en proporciones iguales. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - Acento de Singapur | Inglés - Conjunto de datos de audio de Singapur | 400 | 600 | 1000 | Tanto el inglés estándar de Singapur como el inglés coloquial de Singapur. Singapurenses de diferentes orígenes étnicos (por ejemplo, chino, malayo, indio, etc.) y de diferentes niveles educativos. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - acento sudafricano | Inglés - Conjunto de datos de audio de Sudáfrica | 400 | 600 | 1000 | Representantes de diversas clases socioeconómicas y antecedentes etnológicos (por ejemplo, sudafricanos de origen europeo, africano, indio o mixto). | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés - acento irlandés | Inglés - Conjunto de datos de audio irlandés | 500 | 500 | Inglés hablado en Irlanda | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Inglés - acento escocés | Conjunto de datos de audio inglés - escocés | 800 | 800 | Inglés hablado por escoceses | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Inglés - acento galés | Conjunto de datos de audio inglés - galés | 800 | 800 | inglés galés | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Franco canadiense | Conjunto de datos de audio canadiense francés | 1000 | 1000 | francés canadiense | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Hebreo | Conjunto de datos de audio en hebreo | 750 | 750 | 1500 | hebreo en israel | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Indonesio | Conjunto de datos de audio de Indonesia | 1000 | 1000 | 2000 | Indonesio bahasa | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Japonés | Conjunto de datos de audio japonés | 2000 | 2000 | Japonés de Japón | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Coreano | Conjunto de datos de audio coreano | 100 | 200 | 1500 | 1800 | Los oradores se repartieron por toda Corea del Sur. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Malay | Conjunto de datos de audio en malayo | 500 | 500 | 1000 | Malayo en Malasia | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Español mexicano | Conjunto de datos de audio en español mexicano | 1250 | 1250 | Mexicano de México | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Polaco | Conjunto de datos de audio polaco | 250 | 2000 | 2250 | Polaco de Polonia | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Ruso | Conjunto de datos de audio ruso | 2000 | 2000 | Ruso de Rusia | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
swahili | Conjunto de datos de audio swahili | 350 | 650 | 1000 | Swahili sudafricano y keniano | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Sueco | Conjunto de datos de audio sueco | 350 | 650 | 1000 | Sueco en Suecia | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Chino de Taiwán | Conjunto de datos de audio chino de Taiwán | 1000 | 1000 | chino de Taiwán | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Tailandés | Conjunto de datos de audio tailandés | 350 | 450 | 800 | Un registro informal usado entre amigos, | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Turco | Conjunto de datos de audio turco | 2000 | 2000 | Turco de Turquía | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||||
Vietnamita | Conjunto de datos de audio vietnamita | 600 | 400 | 1000 | Norte (p. ej., Hanoi), Centro y Sur (p. ej., Ciudad Ho Chi Minh). | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Hindi | Conjunto de datos de audio hindi | 800 | 2000 | 2800 | Hindi en India específicamente en las regiones norte, este y oeste | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Hinglish | Conjunto de datos de audio en inglés indio | 300 | 500 | 800 | Recopilado de ciudades indias urbanas que son centros financieros del país debido a las crecientes oportunidades económicas. Dichos lugares pueden ser Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||
Inglés | Conjunto de datos de audio en inglés | 700 | 700 | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | |||||
kannada | Conjunto de datos de audio de Kannada | 60 | 100 | 40 | 200 | Kannada de Karnataka, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
malayalam | Conjunto de datos de audio en malayalam | 60 | 100 | 40 | 200 | Malayalam de Kerala, Lakshadweep y Puducherry | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
oriya | Conjunto de datos de audio de Oriya | 60 | 100 | 40 | 200 | Oriya de partes de Odisha, Bengala Occidental, Jharkhand y Chhattisgarh | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
punjabi | Conjunto de datos de audio punjabi | 60 | 100 | 40 | 200 | Punjabi de Punjab, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Tamil | Conjunto de datos de audio tamil | 60 | 100 | 240 | 400 | Tamil de Tamil Nadu, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
telugu | Conjunto de datos de audio telugu | 100 | 950 | 950 | 2000 | Telugu de Andhra Pradesh, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Bengalí | Conjunto de datos de audio bengalí | 60 | 100 | 40 | 200 | Bengalí de Bengala Occidental, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Gujarati | Conjunto de datos de audio de Gujarati | 60 | 100 | 40 | 200 | Gujarati de Gujarat, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
marathi | Conjunto de datos de audio marathi | 60 | 100 | 40 | 200 | Marathi de Maharashtra, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto | ||
Assamese | Conjunto de datos de audio en asamés | 60 | 100 | 40 | 200 | Asamés de Assam, India | . Wav | json | ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje | Saip | Contacto Contacto |
Gran experiencia en IA conversacional
La inteligencia artificial conversacional o los chatbots o los asistentes virtuales/digitales son tan inteligentes como la tecnología y los datos detrás de ellos. En Shaip, le ofrecemos un amplio conjunto de datos de audio diversificados para procesamiento de lenguaje natural (NLP) que imitan conversaciones con personas reales que le permiten dar vida a su IA. Con nuestro profundo conocimiento, lo ayudamos a crear y localizar modelos de voz habilitados para IA, con la máxima precisión con conjuntos de datos ricos y estructurados en varios idiomas de todo el mundo. Ofrecemos servicios de recopilación de audio multilingüe, transcripción de audio y anotación de audio en función de sus requisitos, mientras personalizamos por completo la intención deseada, las expresiones y la distribución demográfica.
Colección de discursos con guión
Colección de habla espontánea
Transcripción de datos de audio
Etiquetado y anotación de datos
Shaip le permite entrenar con precisión su plataforma de IA conversacional para que pueda:
- Hable, envíe mensajes de texto y chatee sin problemas a través de múltiples canales.
- Aprenda de las interacciones existentes en forma de chat, transcripciones de voz, transacciones, etc. y sugiera y converse, en función de estos aprendizajes.
- Comprenda la intención detrás del habla humana y elimine la ambigüedad en la comprensión del lenguaje humano.
- Interactuar con usted de forma individual y puede ser capacitado para identificar a los usuarios y recordar conversaciones pasadas.
Líder mundial en datos de entrenamiento de IA conversacional
Horas de datos de audio en más de 100 idiomas: con origen, transcripción y anotación
Licencias de datos de voz
Más de 20 horas de datos de voz en más de 40 idiomas y dialectos que cubren una gama de más de 55 temas de diferentes dominios, es decir, centro de llamadas, debates, conversaciones generales, discursos, podcasts, etc.
Recopilación de datos de voz
Recopile datos de audio y voz (monólogo, conversación de 2 personas, chat de robot humano) en más de 100 idiomas de todo el mundo, personalizados según sus requisitos de inteligencia artificial.
Transcripción de datos de voz
Transcripción de audio rentable o anotación de audio a través de una fuerza laboral sólida de 30,000 colaboradores con TAT, precisión y ahorros garantizados
Acelere el desarrollo de su aplicación de IA conversacional con los servicios de recopilación de audio y anotación de audio
La ventaja de Shaip
escala
Podemos obtener, escalar y entregar datos de audio de todo el mundo en varios idiomas y dialectos según sus requisitos.
conocimiento
Contamos con la experiencia adecuada en lo que respecta a la recopilación, transcripción y anotación estándar de datos precisos e imparciales.
Nuestra red
Una red de más de 30,000 colaboradores calificados, a los que se les pueden asignar rápidamente tareas de recopilación de datos para crear un modelo de entrenamiento de IA y servicios de ampliación.
Tecnología
Tenemos una plataforma totalmente basada en inteligencia artificial con herramientas y procesos patentados para aprovechar la gestión del flujo de trabajo las 24 horas del día, los 7 días de la semana.
Agilidad
Nos adaptamos muy rápido a los cambios en los requisitos del cliente y ayudamos a acelerar el desarrollo de la inteligencia artificial con datos de voz de calidad 5-10 veces más rápido que la competencia.
Seguridad
Damos la máxima importancia a la seguridad y privacidad de los datos y también estamos certificados para manejar datos sensibles altamente regulados.
Lo que hacemos mejor
Datos de muestra
Obtenga datos etiquetados de la más alta calidad en una fracción del tiempo. Es el estándar de oro, confiable y está listo para entrenar sus modelos de IA y ML para lograr los niveles más altos de rendimiento.
Recopilación, etiquetado y anotación de datos
Con Shaip, obtiene más de 15 años de experiencia comprobada en la recopilación, transcripción y anotación de datos de calidad. Con nuestra fuerza laboral global, podemos recopilar datos de todo el mundo y luego proporcionar servicios de etiquetado y anotación con la cantidad perfecta de nivel de habilidad y experiencia requerida para sus datos.
Catálogos de datos y licencias
Con nuestro vasto inventario de millones de conjuntos de datos, puede recopilar y organizar según sea necesario. Luego, podemos licenciar esos datos de calidad para sus requisitos específicos de uso de AI y ML. Además, estos datos están disponibles a una fracción del costo si los creara usted mismo.
¿Quiere construir su propio conjunto de datos?
Contáctenos ahora para saber cómo podemos recopilar un conjunto de datos personalizado para su solución de IA única.