Un estudio de caso sobre el modelo de reconocimiento facial
Conjunto de datos de vídeo anti-falsificación para modelos de inteligencia artificial de detección de fraudes
Descubra cómo Shaip entregó 25,000 XNUMX conjuntos de datos de video anti-spoofing de alta calidad que incluyen escenarios de ataques reales y repetidos para entrenar modelos de IA para la detección de fraudes.
Resumen del proyecto
Shaip se asoció con una empresa líder en seguridad de inteligencia artificial para proporcionar un conjunto de datos de video anti-spoofing listo para usar y de alta calidad, diseñado para mejorar el entrenamiento de modelos de inteligencia artificial para la detección de fraudes. El conjunto de datos incluía 25,000 XNUMX videos que capturaban escenarios de ataques reales y repetidos, lo que garantizaba datos de entrenamiento sólidos para modelos anti-spoofing.
Cada uno de los 12,500 participantes Contribuyó con dos videos, uno real y otro de repetición del ataque, grabados en Resolución de 720p o superior con una velocidad de cuadros de 26 FPS y más.
El objetivo del proyecto era entregar Conjuntos de datos auténticos y diversos Esto permitiría a los modelos de IA distinguir eficazmente entre vídeos biométricos reales y falsificados, reduciendo así los riesgos de fraude en los sistemas de autenticación biométrica.
Estadísticas clave
25,000 vídeos totales (12,500 videos reales, 12,500 (reproducir videos de ataques)
12,500 único
Participantes
5 grupos étnicos
representado en el conjunto de datos
Entrega por fases: 4 lotes de 6,250 videos cada uno
Atributos de metadatos: 12 Parámetros clave para una mejor usabilidad de los conjuntos de datos
Alcance del conjunto de datos biométricos anti-falsificación
Curación de conjuntos de datos: El proyecto se centró en entregar conjuntos de datos de video anti-suplantación de alta calidad que consisten en Vídeos de ataques reales y repetidosLos aspectos claves incluyeron:
- 12,500 participantes contribuyendo dos videos cada uno (1 real, 1 falso).
- Diversidad en dispositivos de grabación para mejorar la adaptabilidad del modelo.
- Representación étnica equilibrada para garantizar la inclusión del conjunto de datos.
Recopilación de metadatos: Cada vídeo estuvo acompañado de 12 atributos de metadatos para mejorar la usabilidad del conjunto de datos.
Desafíos de la recopilación de datos de video
Mantener una distribución de datos equilibrada en cuanto a etnicidad y, al mismo tiempo, obtener vídeos de alta calidad.
Garantizar que cada participante contribuya con un vídeo de ataque real y uno repetido para mantener la integridad del conjunto de datos.
Cumplimiento de pautas estrictas de FPS (≥ 26), resolución (≥ 720p) y precisión de marca de tiempo (+/- 0.5 ms).
Cómo lo solucionamos
Shaip proporcionó un conjunto de datos estructurado y de alta calidad para cumplir con los requisitos del proyecto. La solución incluía:
Control de calidad y curación de conjuntos de datos
- 25,000 vídeos recogidos a través de 4 para garantizar un flujo de datos constante y estructurado, evitando cuellos de botella.
- Proceso de validación riguroso para asegurar el cumplimiento de FPS, resolución y precisión de metadatosCada vídeo pasó por múltiples controles de calidad antes de su aceptación final.
- Etiquetado completo de metadatos con 12 atributos:
- Identificación/nombre del archivo
- Tipo de ataque (real/repetición)
- ID de persona
- Resolución de vídeo
- Duración del vídeo
- Etnicidad del sujeto
- Género del sujeto
- Si el vídeo es original o falso
- Nombre/modelo del dispositivo
- Persona que habla o no
- Hora de inicio de la marca de tiempo
- Hora de finalización de la marca de tiempo
- Distribución equilibrada de grupos étnicos: El conjunto de datos se seleccionó meticulosamente para mantener una representación étnica equilibrada. La distribución incluye poblaciones hispanas (33 %), del sur de Asia (21 %), caucásicas (20 %), africanas (15 %) y del este de Asia y Oriente Medio (cada una de ellas representa hasta un 6 %).
- Sin entradas duplicadas para mantener la singularidad del conjunto de datos y evitar sesgos en el entrenamiento de IA.
- Selección de participantes étnicamente diversos para crear un conjunto de datos que refleje las variaciones de los usuarios del mundo real, mejorando la adaptabilidad y la equidad del modelo de IA.
- Variación del dispositivo de grabación Incluyó múltiples modelos de teléfonos inteligentes, cámaras y condiciones de iluminación para mejorar la solidez del modelo frente a diferentes configuraciones ambientales.
Resultado
El conjunto de datos de video anti-spoofing de alta calidad y diverso proporcionado por Shaip permitió al cliente entrenar modelos de IA para diferenciar con precisión entre videos reales y falsificados en varios escenarios de autenticación biométrica. El conjunto de datos contribuyó a:
Rendimiento mejorado de la IA en la detección de ataques biométricos fraudulentos.
Se fortaleció la capacidad del modelo para reconocer ataques de repetición en diferentes etnias, dispositivos y condiciones ambientales.
El conjunto de datos sirve como base para futuras mejoras y ampliaciones del modelo anti-spoofing.
El conjunto de datos de Shaip ha sido fundamental para mejorar nuestros modelos anti-spoofing basados en IA. La diversidad, la calidad y los metadatos estructurados proporcionaron una base sólida para mejorar la detección de fraudes en los sistemas de autenticación biométrica.