Mejorar la comprensión de las consultas de búsqueda con anotaciones humanas
Aprovechar el juicio humano y la taxonomía estructurada para gestionar consistentemente casos extremos ambiguos y mejorar la relevancia de la búsqueda para un conglomerado de comercio electrónico líder con sede en Polonia.
Resumen del proyecto
El cliente, un líder de comercio electrónico con sede en Polonia, recibe millones de consultas de búsqueda a diario. Muchas de estas consultas son... ambiguoincluir faltas de ortografía, o refiérase a múltiples categorías de productos, creando desafíos para los motores de búsqueda automatizados.
Para mejorar sPrecisión de búsqueda y experiencia del clienteShaip desarrolló un marco de anotación estructurado inspirado en el estudio de Baymard. Las consultas se clasificaron sistemáticamente en 11 categorías (por ejemplo, categoría de producto, tema, atributo específico, exacto, comerciante, síntoma, no producto, etc.) con reglas de precedencia para garantizar una categorización consistente.
Estadísticas clave
Más de 50,000 consultas
Anotado
a través de múltiples
categoría
11 Anotación
Clases
con definiciones claras y
reglas de precedencia
3 pasos
Flujo de trabajo
Anotación ➔ Control de calidad ➔
Arbitraje de PYMES
Alcance del proyecto
El proyecto se centró en la construcción de un taxonomía completa Capturar todo el espectro del comportamiento de búsqueda de los usuarios en una plataforma de mercado a gran escala. El alcance incluyó:
- Desarrollo de una taxonomía de 11 categorías con definiciones claras y una jerarquía de precedencia para abordar casos donde las consultas podrían encajar en más de una clase.
- Anotación de miles de consultas reales en los dominios de productos y no productos para entrenar y calibrar el sistema de clasificación.
- Resolver consultas ambiguas escalando a expertos en la materia (SMEs), asegurando consistencia en cómo se manejaban los casos extremos.
- Proporcionar ejemplos anotados y justificaciones para la calibración de control de calidad, creando un conjunto de entrenamiento en el que los futuros anotadores puedan confiar como referencia.
Anotaciones de muestra incluidas:
- De dietrich ELENSIO ➔ Exact
- E 91 ➔ Difícil de decir
- tezfiles ➔ Comerciante
- Subaru BRZ Toyota GT86 ➔ No producto
- okulary BHP ➔ Categoría de producto
- stawu skokowego ➔ Síntoma
Desafíos
El proyecto tuvo que superar varios problemas de complejidad de datos que son típicos en los entornos de búsqueda de comercio electrónico:
Búsquedas como “E 91” podrían corresponder a productos muy diferentes (un modelo de coche, un portafusibles, una impresión de cápsula), lo que hace que la interpretación sea muy incierta.
Los errores ortográficos o las abreviaturas, como “lampa uf zestaw”, requieren interpretación humana contextual para entenderse como “lampa UV zestaw”.
Las consultas a menudo coincidían con múltiples clases (por ejemplo, exacto vs. compatible vs. atributo específico), lo que requería reglas de precedencia para garantizar la coherencia.
Los códigos de serie o identificadores que no coincidían con ningún producto debían etiquetarse como “Frase no válida” en lugar de clasificarse erróneamente.
Aplicar consistentemente reglas de clasificación matizadas en todos los ámbitos decenas de miles de consultas exigió una sólida gobernanza del control de calidad y de las anotaciones.
Solución:
Para hacer frente a estos desafíos, una marco de anotación estructurado Se introdujo un sistema que equilibra la automatización con la supervisión humana:
Se crearon definiciones detalladas, ejemplos e instrucciones para ayudar a los anotadores a clasificar de manera consistente, incluso en escenarios complejos.
Se estableció una jerarquía (por ejemplo, Compatible > Exacto > Atributo específico) para que los casos superpuestos se resolvieran sistemáticamente.
- Anotación inicial por anotadores capacitados.
- Revisión secundaria por especialistas de control de calidad.
- Escalada a PYMES para arbitraje en casos extremos o desacuerdos
- 4008146044786 ➔ Frase inválida
- miraculum królika ➔ Atributo temático
- zcd gris galáctico ➔ Compatible
- pastor belga ➔ Tema
Esto aseguró Alineación, calidad y confiabilidad a través del proceso de anotación.
Resultado
La iniciativa generó mejoras mensurables en el ecosistema de búsqueda del cliente:
- Más de 50,000 consultas clasificadas con alta precisión, formando un conjunto de datos de entrenamiento sólido para mejoras de búsqueda.
- Mayor relevancia de los resultados de búsqueda, mejorando directamente la satisfacción del usuario y reduciendo la frustración provocada por coincidencias irrelevantes.
- Ambigüedad reducida resolviendo sistemáticamente casos extremos mediante arbitraje impulsado por las PYME y reglas de precedencia.
- Descubrimiento mejorado de productos, lo que garantiza que los usuarios puedan encontrar elementos con mayor precisión en todas las categorías, atributos y temas.
En general, el proyecto sentó las bases para una Experiencia de búsqueda más inteligente y centrada en el usuario, ayudando al cliente a mantener su ventaja competitiva en el mercado del comercio electrónico.
El flujo de trabajo de anotación humana aclaró las consultas de búsqueda complejas. La taxonomía estructurada y las reglas de precedencia mejoraron significativamente la precisión de nuestro motor de búsqueda y facilitaron la experiencia del usuario.
– Jefe de Búsqueda y Descubrimiento, Conglomerado de comercio electrónico con sede en Polonia