Conjunto de datos chinos

简体中文数据集

Conjunto de datos chinos de alta calidad para modelos de IA y voz

Noticias

Título (Idioma)

Conjunto de datos en idioma chino

Tipos de conjuntos de datos

Centro de llamadas, música, monólogo con guion, datos de medios (datos de podcast)

País

China

Descripción

Este conjunto de datos incluye conversaciones telefónicas sintéticas sin guión entre agente y cliente (5 a 15 minutos), conversaciones telefónicas naturales entre humanos (15 a 60 minutos) y audio cantado con transcripciones, lo que proporciona diversos datos de habla para entrenar y evaluar tecnologías de habla y lenguaje.

Caso de uso

ASR, asistente virtual, chatbot, IA conversacional, análisis de voz, TTS, modelado de lenguaje

Detalles del conjunto de datos

Idioma Tipo de conjunto de datos Tasa de muestreo Speakers: Channel Horas totales Número total de oradores
Canto chino Música 48 kHz Altavoz individual Mono 06:11:32 10
Chino (tradicional) Monólogo guionado 48 kHz Altavoz individual Mono 1,499:00:00 1,805
Inglés con acento chino Datos de medios 16 kHz Varios altavoces Mono 306:04:58 2,130
Chino Simplificado Monólogo guionado 48 kHz Altavoz individual Mono 2,761:00:00 3,725
Inglés chino con acento estadounidense Call Center 8 kHz 2 Oradores Dual 152:18:33 2,058
Inglés chino con acento estadounidense Datos de medios 16 kHz Varios altavoces Mono 245:55:15 468

Clientes destacados

Capacitar a los equipos para crear productos de inteligencia artificial líderes en el mundo.

Shaip contáctanos

¿No encuentras lo que estás buscando?

Se recopilan nuevos conjuntos de datos listos para usar en todos los tipos de datos

Contáctenos ahora para dejar de lado sus preocupaciones sobre la recopilación de datos de entrenamiento de audio/voz

  • Este campo es para fines de validación y debe dejarse sin cambios.
  • Al registrarme, estoy de acuerdo con Shaip Política de privacidad y Términos de Servicio y dar mi consentimiento para recibir comunicaciones de marketing B2B de Shaip.