Multitud de trabajadores para la recopilación de datos

Crowd Workers para la recopilación de datos: una parte indispensable de la IA ética

En nuestros esfuerzos por crear soluciones de IA sólidas e imparciales, es pertinente que nos concentremos en entrenar los modelos en una variedad de datos imparciales, dinámicos y representativos. Nuestro proceso de recopilación de datos es extremadamente importante para desarrollar soluciones de IA creíbles. En este sentido, reunir Datos de entrenamiento de IA a través de trabajadores de multitud se convierte en un aspecto crítico de la estrategia de recopilación de datos.

En este artículo, exploremos el papel de los trabajadores colectivos, su impacto en el desarrollo de la IA. algoritmos de aprendizaje y modelos ML, y la necesidad y los beneficios que presta a todo el proceso. 

¿Por qué se requieren trabajadores de multitud para construir modelos de IA?

Como humanos, generamos toneladas de datos, sin embargo, solo una fracción de estos datos generados y recopilados tiene valor. Debido a la falta de estándares de evaluación comparativa de datos, la mayoría de los datos recopilados están sesgados, plagados de problemas de calidad o no son representativos del entorno. Desde que cada vez más máquina de aprendizaje y se están desarrollando modelos de aprendizaje profundo que prosperan con cantidades masivas de datos, se siente cada vez más la necesidad de conjuntos de datos mejores, más nuevos y diversos.

Es donde entran en juego los trabajadores de la multitud.

Los datos de crowdsourcing están construyendo un conjunto de datos con la participación de grandes grupos de personas. Los trabajadores de multitudes infunden inteligencia humana en inteligencia artificial.

Plataformas de crowdsourcing asigne microtareas de recopilación y anotación de datos a un grupo grande y diversificado de personas. El crowdsourcing permite a las empresas acceder a una fuerza laboral masiva, dinámica, rentable y escalable.

La plataforma de colaboración colectiva más popular, Amazon Mechanical Turk, pudo obtener 11 15 diálogos de persona a persona en XNUMX horas y pagó a los trabajadores. $0.35 por cada diálogo exitoso. Los trabajadores de la multitud están siendo contratados por una cantidad tan escasa, lo que arroja luz sobre la importancia de desarrollar estándares éticos de obtención de datos.

En teoría, suena como un plan inteligente, sin embargo, no es una estrategia fácil de ejecutar. El anonimato de los trabajadores de la multitud ha dado lugar a problemas con salarios bajos, desprecio por los derechos de los trabajadores y trabajo de mala calidad que afectan el rendimiento del modelo de IA. 

Beneficios de tener trabajadores de multitud para obtener datos

Al involucrar a un grupo diverso de trabajadores colectivos, los desarrolladores de soluciones basadas en IA pueden distribuir microtareas y recopilar observaciones variadas y generalizadas rápidamente y a un costo relativamente bajo.

Algunos de los beneficios destacados de emplear trabajadores de multitud para proyectos de IA son

Beneficios de la recopilación de datos a través de trabajadores colectivos

Tiempo de comercialización más rápido: Según una investigación de Cognilytica, casi 80% of inteligencia artificial el tiempo del proyecto se dedica a actividades de recopilación de datos, como la limpieza, el etiquetado y la agregación de datos. Solo el 20% del tiempo se dedica al desarrollo y la formación. Las barreras tradicionales para generar datos se eliminan ya que se puede reclutar una gran cantidad de colaboradores en poco tiempo. 

Solución rentable: Recopilación de datos de fuentes múltiples reduce el tiempo y la energía gastados en capacitarlos, reclutarlos y traerlos a bordo. Esto elimina el costo, el tiempo y los recursos necesarios, ya que la fuerza laboral se emplea con un método de pago por tarea. 

Aumenta la diversidad en el conjunto de datos: La diversidad de datos es fundamental para toda la capacitación en soluciones de IA. Para que un modelo produzca resultados imparciales, debe entrenarse en un conjunto de datos diverso. Con el crowdsourcing de datos, es posible generar diversos conjuntos de datos (geográficos, idiomas, dialectos) con poco esfuerzo y costo.

Mejora la escalabilidad: Cuando contrata trabajadores en masa confiables, puede asegurarse alta calidad recopilación de datos que se puede escalar en función de las necesidades de su proyecto.

In-house vs. crowdsourcing: ¿quién resulta ganador?

Datos internosDatos de colaboración colectiva
Se puede garantizar la precisión y consistencia de los datos.La calidad, la precisión y la consistencia de los datos se pueden mantener si se involucran plataformas confiables de colaboración abierta con medidas de control de calidad estándar.
El abastecimiento interno de datos no siempre es una decisión práctica, ya que es posible que su equipo interno no cumpla con las demandas del proyecto.La diversidad de datos puede garantizarse, ya que es posible contratar a un grupo heterogéneo de trabajadores colectivos en función de las necesidades del proyecto.
Es costoso reclutar y capacitar a los trabajadores para las necesidades del proyecto.Solución rentable para la recopilación de datos ya que es posible reclutar, capacitar e incorporar trabajadores con menos inversión.
El tiempo de comercialización es elevado, ya que la recopilación interna de datos lleva un tiempo considerable.El tiempo de comercialización es significativamente menor ya que muchas contribuciones llegan rápidamente.
Un pequeño grupo de colaboradores y etiquetadores internosUn grupo grande y diverso de colaboradores y etiquetadoras de datos
La confidencialidad de los datos es muy alta con un equipo interno.La confidencialidad de los datos es difícil de mantener cuando se trabaja con grandes multitudes de trabajadores en todo el mundo.
Más fácil de rastrear, capacitar y evaluar a los recolectores de datosUn desafío para rastrear y capacitar a los recolectores de datos.

Cerrar la brecha entre los trabajadores de crowdsourcing y el solicitante.

Cerrando la brecha entre los trabajadores de crowdsourcing y el solicitante Existe una necesidad imperiosa de cerrar la brecha entre los trabajadores colectivos y los solicitantes, no solo en el ámbito de la remuneración.

Hay una falta flagrante de información por parte del solicitante porque a los trabajadores solo se les proporciona información sobre la tarea específica. Por ejemplo, aunque a los trabajadores se les asignan micro tareas, como grabar diálogos en su dialecto nativo, rara vez se les brinda contexto. No tienen la información requerida sobre por qué están haciendo lo que están haciendo y cuál es la mejor manera de hacerlo. Esta falta de información impacta en la calidad del trabajo colaborativo.

Para un ser humano, tener todo el contexto proporciona claridad y propósito a su trabajo.

Agregue a esta combinación otra dimensión de NDA: los acuerdos de confidencialidad que limitan la cantidad de información que se proporciona a un trabajador de multitudes. Desde la perspectiva de los trabajadores colectivos, esta retirada de información muestra una falta de confianza y una disminución de la importancia de su trabajo.

Cuando la misma situación se mira desde el otro extremo del espectro, hay una falta de transparencia por parte del trabajador. El solicitante no comprende completamente al trabajador comisionado para hacer el trabajo. Algunos proyectos pueden requerir un tipo específico de trabajador; sin embargo, en la mayoría de los proyectos, hay ambigüedad. los verdad fundamental Esto puede complicar la evaluación, la retroalimentación y la capacitación en el futuro.

Para contrarrestar estas dificultades, es importante trabajar con expertos en recopilación de datos con un historial de proporcionar datos diversos, seleccionados y bien representados de una amplia selección de colaboradores.

Elegir a Shaip como su socio de datos puede tener múltiples beneficios. Nos enfocamos en la diversidad y distribuciones representativas de datos. Nuestro personal experimentado y dedicado comprende las compulsiones de cada proyecto y desarrolla conjuntos de datos que pueden entrenar soluciones sólidas basadas en IA en muy poco tiempo.

[También lea: Guía de inicio de datos de entrenamiento de IA: definición, ejemplo, conjuntos de datos]

Social Share