Creación de un conjunto de datos de imágenes faciales fuera de la UE/Reino Unido con diversidad en la progresión de la edad
Un corpus de imágenes faciales separadas en el tiempo de 1,205 participantes para fortalecer la equidad y la robustez de los modelos de visión por computadora.
Resumen del proyecto
Una empresa tecnológica global que desarrolla IA centrada en el rostro para experiencias de seguridad, personalización e identidad buscaba un conjunto de datos de fuera de la UE/Reino Unido con fotos separadas en el tiempo para reducir el sesgo y mejorar la resistencia del modelo en función de la edad, el entorno y los accesorios.
El cliente se asoció con Shaip para recopilar, organizar y validar Se creó un extenso corpus de imágenes faciales donde cada participante aportó fotos recientes y antiguas. El objetivo era codificar la progresión natural de la edad, al tiempo que se garantizaba una procedencia estricta fuera de la UE/Reino Unido y se lograban cuotas equilibradas de género y edad.
Estadísticas clave
Participantes
1,205 (Solo fuera de la UE/Reino Unido, 50/50 por género ±10–15%)
Mezcla de edades
40 % (10-29), 40 % (30-49), 20 % (50+) ±10-15 % de tolerancia
Global
Asia meridional/sudeste, África del Norte y del Noreste/Este, Singapur, Sudamérica
Cronograma
19 semanas
Desafíos
Utilizando exclusivamente imágenes de poblaciones no pertenecientes a la UE/Reino Unido y evitando imágenes de origen europeo/británico procedentes de viajes.
Se alcanzaron los 1,205 participantes con estrictas tolerancias de género y edad.
Garantizar que cada documento de identidad incluya fotos tanto recientes como históricas, ajustadas a los diferentes grupos de edad.
Imponer límites mínimos de tamaño, variedad y duplicación de imágenes/rostros sin ralentizar el rendimiento.
Solución:
1. Paneles de países y controles de procedencia
establecimos grupos de abastecimiento a nivel de país en las regiones objetivo y socios capacitados en reglas de procedencia (Solo para personas fuera de la UE/Reino Unido). Las fotos se analizaron para detectar riesgos relacionados con el origen del viaje. Indicios de metadatos (año, marcadores de ubicación) Además, las certificaciones de los remitentes reducen las filtraciones de la UE/Reino Unido antes del control de calidad. Esto refleja la práctica probada de Shaip de adelantar las comprobaciones de riesgo para proteger el rendimiento posterior.
2. Diseño de captura de progresión de edad
En lugar de “pedir 20 imágenes”, diseñamos un flujo de envío de dos pistas que guió a los participantes a:
- Pista A (Reciente): fotos de los últimos dos años;
- Pista B (Histórica): fotos más antiguas alineadas con el rango de edad del participante al momento de la presentación (por ejemplo, ventanas de 2 a 10/15/20 años).
El portal guiaba a los usuarios con ejemplos (interior/exterior, ángulos, accesorios) para fomentar la variedad sin sobreespecificar.
3. Orquestación de la diversidad y límites de cuotas
A Panel de cuotas en tiempo real inscripciones supervisadas por género, grupo de edad y geografía, interrumpiendo la admisión una vez que un estrato alcanzaba los límites previstos. Esto evitaba la reelaboración al final del ciclo y refleja el enfoque estándar de Shaip de inscripción estratificada + bloqueos Se utilizó en conjuntos de datos biométricos anteriores para mantener una representación equilibrada.
4. Proceso de Calidad (Intervención Humana + Precontroles Automatizados)
- Puertas automáticas: Detección de rostros + umbrales de tamaño mínimo, comprobaciones básicas de desenfoque/ruido y agrupación en clústeres el mismo día para detectar posibles duplicados con antelación.
- Niveles de control de calidad humano: Los revisores a nivel de imagen validaron exclusividad del tema (solo participante principal), variedad de escenas/ángulos y Sin filtros de bellezaLos auditores de CQA realizaban controles aleatorios de los lotes antes de su aceptación. Control de calidad multicapa refleja los programas de datos biométricos publicados por Shaip.
5. Cumplimiento y consentimiento
Inscripción ≥20 años Con consentimiento firmado; los casos de menores de 20 años solo se aceptan con el consentimiento del tutor. Registramos la presencia del consentimiento en los metadatos y alineamos las listas de verificación de los revisores con elegibilidad + consentimiento campos, garantizando la auditabilidad.
6. Metadatos y trazabilidad
entregamos metadatos a nivel de participante e imagen (Vínculos de identificación, datos demográficos, nacionalidad/residencia, año de la foto, fecha de envío, etc.) y nombres de campos estandarizados para simplificar etiquetado y evaluación posterioresEsto sigue las mejores prácticas de Shaip. etiquetado de metadatos enriquecidos para conjuntos de datos biométricos.
7. Entrega gradual a la escala de reducción de riesgos
An Plan de 8 lotes comenzó con un Calibración de 10 participantes Se estableció un objetivo, seguido de un aumento controlado. Los comentarios de los clientes tras el primer lote permitieron realizar ajustes en la rúbrica, y posteriormente los volúmenes se incrementaron en tramos predecibles hasta alcanzar el objetivo. 1,205 participantes en aproximadamente 19 semanas.
Alcance del proyecto
| Dimensiones | Lo que entregamos |
|---|---|
| Población | 1,205 participantes no pertenecientes a la UE/Reino Unido con grupos de género y edad equilibrados. |
| Contenido | ≥20 imágenes por participante: recientes + históricas para codificar la progresión de la edad; escenas, ángulos y accesorios variados. |
| Operaciones de calidad | Comprobaciones previas automatizadas + control de calidad humano multicapa (controles de duplicación; exclusividad del sujeto; rechazo de filtros). |
| Cumplimiento | Verificación de procedencia fuera de la UE/Reino Unido; gobernanza del consentimiento y validación de la elegibilidad. |
| metadatos | Participante + atributos de imagen para trazabilidad y evaluación posterior mediante aprendizaje automático. |
| Entregas | 8 lotes escalonados, comenzando con la calibración y luego la entrega en estado estacionario al objetivo final. |
El Resultado
- Corpus equilibrado y listo para auditoría: Se cumplen las cuotas demográficas dentro de los límites de tolerancia; se exige la procedencia fuera de la UE/Reino Unido en todas las imágenes para la formación en cumplimiento normativo.
- Variabilidad lista para modelar: Las imágenes separadas en el tiempo, los diversos entornos/ángulos y la cobertura de accesorios respaldan las pruebas de robustez y el análisis de sesgo.
- Previsibilidad operativa: La primera implementación de la calibración y los límites de cuota redujeron el retrabajo y protegieron el cronograma para alcanzar el objetivo completo de 1,205 participantes.
- Eficiencia aguas abajo: Los metadatos enriquecidos y la correcta higiene de los archivos acortaron el camino hacia la anotación y la construcción de puntos de referencia, siguiendo las estrategias de Shaip para conjuntos de datos biométricos.
Shaip transformó un complejo conjunto de datos faciales de países no pertenecientes a la UE/Reino Unido en un corpus equilibrado y listo para auditorías. Su diseño de progresión de edad y el control de calidad por niveles proporcionaron a nuestro equipo de visión por computadora datos limpios y diversos en los que podíamos confiar, sin riesgos en los plazos.