Shaip ahora es parte del ecosistema Ubiquity: el mismo equipo, ahora respaldado por recursos ampliados para brindar soporte a los clientes a gran escala. |
Recopilación de datos de enunciados

¿Qué es un "enunciado" en IA?: Ejemplos, conjuntos de datos y mejores prácticas

¿Alguna vez te has preguntado cómo se despiertan los chatbots y los asistentes virtuales cuando dices "Oye, Siri" o "Alexa"? Es debido a la recopilación de expresiones de texto o las palabras desencadenantes integradas en el software que activa el sistema tan pronto como escucha la palabra de activación programada.

Sin embargo, el proceso general de creación de sonidos y datos de pronunciación no es tan simple. Es un proceso que debe llevarse a cabo con la técnica adecuada para obtener los resultados deseados. Por lo tanto, este blog compartirá la ruta para crear buenos enunciados/palabras desencadenantes que funcionen a la perfección con su IA conversacional.

¿Qué es un “enunciado” en IA?

En la IA conversacional (chatbots, asistentes de voz), un enunciado es una breve entrada del usuario: las palabras exactas que una persona dice o escribe. Los modelos utilizan los enunciados para determinar la intención del usuario (objetivo) y cualquier entidad (detalles como fechas, nombres de productos, cantidades).

Ejemplos sencillos

bot de comercio electrónico

Enunciado: “Rastrear mi pedido 123-456."

  • Intención: Seguimiento de pedido
  • Entidad: order_id = 123-456

Bot de telecomunicaciones

Enunciado: “Actualizar mi plan de datos."

  • Intención: Plan de cambio
  • Entidad: plan_type = datos

Asistente de voz bancario

Enunciado (hablado): “W¿Cuál es mi saldo corriente hoy?"

  • Intención: CheckBalance
  • Entidades: account_type = cheques, fecha = hoy

Por qué su IA conversacional necesita buenos datos de enunciados

Si quiere que su chatbot o asistente de voz se sienta útil, y no frágil, comience con mejores datos de enunciados. Los enunciados son las frases sin formato que las personas dicen o escriben para realizar tareas ("Reservar una habitación para mañana", "Cambiar de plan", "¿Cuál es el estado?"). Impulsan la clasificación de intenciones, la extracción de entidades y, en última instancia, la experiencia del cliente. Cuando los enunciados son diversos, representativos y están bien etiquetados, sus modelos aprenden los límites correctos entre las intenciones y gestionan la información desordenada del mundo real con aplomo.

Construyendo su repositorio de enunciados: un flujo de trabajo sencillo

Creación de un repositorio de enunciados

1. Empezar desde el lenguaje real del usuario

Extraer registros de chat, consultas de búsqueda, transcripciones de IVR, notas del agentey correos electrónicos de clientes. Agruparlos por objetivo del usuario para generar intenciones. (Captarás coloquialismos y modelos mentales que no se te ocurrirían en una sala).

2. Crea variación a propósito

Para cada intención, el autor proporciona diversos ejemplos:

  • Reformular verbos y sustantivos (“cancelar”, “detener”, “finalizar”; “plan”, “suscripción”).
  • Mezclar longitudes y estructuras de oraciones (pregunta, directiva, fragmento).
  • Incluya errores tipográficos, abreviaturas, emojis (para chatear) y cambios de código cuando sea relevante.
  • Agregue casos negativos que parezcan similares pero que deberían no Mapa para esta intención.

3. Equilibra tus clases

Un entrenamiento extremadamente desequilibrado (por ejemplo, 500 ejemplos para una intención y 10 para otras) perjudica la calidad de la predicción. Los tamaños de intención son relativamente uniformes y crecer juntos como te enseña el tráfico.

4. Validar la calidad antes de la capacitación

Bloquear datos de señal baja con validadores Durante la creación/recopilación:

  • Detección de idioma: Asegúrese de que los ejemplos estén en el idioma de destino.
  • Detector de galimatías: Atrapar cadenas sin sentido.
  • Comprobaciones de duplicados/casi duplicados: Mantenga la variedad alta.
  • Expresiones regulares/ortografía y gramática: Aplicar reglas de estilo donde sea necesario.
    Los validadores inteligentes (como los que utiliza Appen) pueden automatizar grandes partes de este control.

5. Etiquetar las entidades de forma coherente

Define tipos de espacios (fechas, productos, direcciones) y muestra anotadores Cómo marcar límitesPatrones como Patrón cualquiera en LUIS se pueden desambiguar intervalos largos y variables (por ejemplo, nombres de documentos) que confunden los modelos.

6. Prueba como si fuera producción

Push invisible expresiones reales a un punto final de predicción o un bot de ensayo, revisar clasificaciones erróneas y promover Ejemplos ambiguos en el entrenamiento. Conviértalo en un bucle: recopilar → entrenar → revisar → expandir.

Qué significa realmente la “realidad desordenada” (y cómo afrontarla)

Los usuarios reales rara vez hablan con frases perfectas. Espera:

  • Fragmentos: “reembolso de gastos de envío”
  • Objetivos compuestos: “Cancelar pedido y reordenar en azul”
  • Entidades implícitas: “enviar a mi oficina” (debes saber cuál oficina)
  • Ambigüedad: “cambiar mi plan” (¿qué plan? ¿cuándo entra en vigor?)

Soluciones prácticas

  • Proporcione indicaciones aclaratorias Sólo cuando sea necesario; evite preguntar demasiado.
  • Capturar transferencia de contexto (pronombres como “esa orden”, “el último”).
  • Use intenciones de respaldo con recuperación específica: “Puedo ayudarte a cancelar o cambiar planes. ¿Qué te gustaría?”
  • Monitorización intención de salud (confusión, colisión) y agregar datos donde son débiles

Asistentes de voz y palabras de activación: datos diferentes, reglas similares

Asistentes de voz y palabras de activación Las palabras de activación ("Hola Siri", "Alexa", frases de activación personalizadas) son un subconjunto de enunciados especializados con fuertes restricciones acústicas, pero mentalidad de cobertura Sigue vigente: diversos altavoces, dispositivos y entornos. Después de despertar, expresiones lingüísticas encargarse de la tarea real ("encender las luces", "tocar jazz"). Mantenga su despertar y tarea conjuntos de datos distintos y evaluarlos por separado.

Cuándo (y cómo) utilizar datos estándar frente a datos personalizados

Datos estándar vs. datos personalizados

  • Fuera de la plataforma:iniciar la cobertura en nuevos lugares y luego medir dónde aún hay confusión.
  • Personalizado:captura el lenguaje de tu dominio (términos de política, nombres de productos) y la “voz de tu marca”.
  • Mezclado:comience de manera amplia y luego agregue datos de alta precisión para las intenciones con mayor desviación o impacto en los ingresos.

Si necesita una rampa de acceso rápida, Shaip la proporciona colección de enunciados y conjuntos de datos de voz y chat listos para usar en muchos idiomas; consulte el estudio de caso para la implementación de un asistente multilingüe.

Lista de verificación de implementación

Lista de verificación de implementación

  • Definir intenciones y entidades con ejemplos y negativas cases
  • Autor variado, equilibrado Enunciados para cada intención (comience con algo pequeño y aumente semanalmente)
  • Agregue validadores (idioma, galimatías, duplicados, expresiones regulares) antes del entrenamiento
  • Configurar flujos de trabajo de bucles de revisión del tráfico real; promover elementos ambiguos para la formación 
  • Seguimiento intención de salud y colisiones; solucionar con nuevas expresiones
  • Reevaluar por canal/localidad para detectar la desviación de manera temprana

Cómo puede ayudar Shaip

  • Recopilación y etiquetado de enunciados personalizados (chat + voz) con validadores para mantener la calidad alta.
  • Conjuntos de datos listos para usar en más de 150 idiomas y variantes para un arranque rápido.
  • Programas de revisión continua que convierten el tráfico en vivo en datos de entrenamiento de alta señal, de manera segura (controles PII).

Explora nuestro multilingüe Estudio de caso de recopilación de enunciados.

Social Share