La tecnología de reconocimiento facial (FR) ha avanzado significativamente en los últimos años, impulsada por la necesidad de una mayor seguridad y la proliferación de aplicaciones en sectores como los dispositivos de consumo de gama baja, el embarque en aeronaves, el control fronterizo y los servicios financieros. En el corazón de los sistemas FR eficaces se encuentra un componente crucial: los datos. Los conjuntos de datos a gran escala son esenciales para entrenar a estos modelos para que identifiquen y verifiquen rostros con precisión en una variedad de condiciones.
Para que los FR sean confiables, los modelos deben estar expuestos a diversos datos que incluyan variaciones en la demografía, la iluminación, los entornos, las expresiones y las oclusiones. Esto garantiza la solidez y la imparcialidad en la implementación, lo que reduce el riesgo de sesgo o falla al encontrarse con condiciones desconocidas.
Los conjuntos de datos sintéticos creados con técnicas genAI pueden resultar de ayuda, pero en su estado actual no pueden reemplazar por completo a los conjuntos de datos del mundo real. Este artículo explora las ventajas y desventajas de los conjuntos de datos FR sintéticos e investiga el estado actual de genAI para el reconocimiento facial.
LFW , Cfp-fp , Agedb-30 , Ca-lfw y Cp-lfw son algunos de los conjuntos de datos más utilizados para evaluar el rendimiento de verificación de los modelos FR. La Tabla 1 muestra el rendimiento de verificación de un modelo ML entrenado con el mismo algoritmo, en conjuntos de datos de rostros del mundo real de diferentes tamaños.
Se puede observar cómo el tamaño del conjunto de datos afecta el rendimiento del modelo y la escala en la que se debe realizar la adquisición de datos para obtener modelos FR robustos. La verificación significa que se le da al modelo un par de imágenes de rostros y predice si el par de rostros pertenece a la misma persona o a dos personas diferentes. Se informa el porcentaje de precisión de la verificación de las predicciones del modelo.
Conjunto de datos | Ml | # Capacitación | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
resnet-50 | 12 millones | 99,80 | 99,20 | 98.10 | -- | -- | |
resnet-50 | 17 millones | 99,83 | 99.33 | 98,55 | 96.21 | 94,78 |
Tabla 1. Precisiones de verificación (%) en cinco parámetros de referencia de FR diferentes. Para una comparación justa, todos los resultados se obtuvieron de trabajos publicados originales que utilizan el mismo modelo y algoritmo de aprendizaje automático.
Además de un conjunto de datos de entrenamiento a gran escala, es igualmente importante que el conjunto de datos contenga sesgos mínimos. Es importante entender primero qué significa sesgo en el contexto de FR. En general, para un modelo de aprendizaje automático, el sesgo se refiere a que el modelo no se comporta de manera uniforme en diferentes tipos de datos de entrada. Un modelo de FR puede tener sesgos de diferentes maneras.
El ejemplo más común es el sesgo étnico, donde un modelo FR tiende a tener un desempeño deficiente cuando se le presentan rostros de una etnia particular.
Sin embargo, este no es el único sesgo que se debe contrarrestar para obtener modelos FR confiables. El sesgo de edad, el sesgo de género y el sesgo ambiental (uso de mascarillas, vello facial, etc.) son otros ejemplos de cómo un modelo FR puede exhibir sesgo. Estos sesgos se pueden minimizar recopilando e incluyendo muestras representativas en el conjunto de datos utilizado para entrenar el modelo FR.
Obtener fotografías de personas de diferentes etnias, con una diferencia de diez a quince años, o fotografías de una persona en diferentes orígenes, en distintas condiciones de iluminación y con diferentes expresiones faciales puede resultar una tarea difícil.
Además, la recopilación de datos del mundo real para FR presenta otros muchos desafíos. Adquirir datos tan diversos y a gran escala de todo el mundo es costoso. Además de los costos y las limitaciones técnicas, la adquisición de datos es cada vez más difícil debido a preocupaciones éticas y de privacidad.
Los datos biométricos se rigen por leyes como el RGPD de Europa (
Estas leyes rigen la adquisición y el almacenamiento de datos biométricos de los respectivos residentes, lo que añade más complejidad a la adquisición de datos biométricos a gran escala. Dada la creciente demanda de aplicaciones de reconocimiento facial, este es un momento crucial para explorar la viabilidad de los datos sintéticos, examinando sus beneficios y desventajas para desarrollar sistemas de reconocimiento facial escalables, éticos y legalmente compatibles.
Estos desafíos, junto con el auge de la IA generativa (genAI), han motivado una gran cantidad de investigaciones para crear datos sintéticos que reemplacen los datos biométricos sensibles del mundo real. Antes de sumergirnos en el estado actual de los datos sintéticos en FR, es esencial comprender qué significa genAI.
En términos simples, genAI es un tipo de inteligencia artificial que puede crear contenido nuevo, como texto, imágenes o música, basándose en los datos con los que ha sido entrenado, y los datos generados se denominan "datos sintéticos".
La inteligencia artificial genómica para el reconocimiento facial es particularmente atractiva por múltiples razones. La más notable es que los conjuntos de datos sintéticos son generados por IA, lo que significa que los investigadores, ingenieros y entusiastas pueden crear (y entrenar) conjuntos de datos sin pasar por el proceso manual de obtener imágenes de personas reales.
Muchos de los requisitos de cumplimiento en la recopilación y el uso de conjuntos de datos de imágenes reales no están presentes para los datos sintéticos y, teóricamente, los sesgos que puede generar un algoritmo entrenado con datos de imágenes reales podrían explicarse mejor con datos sintéticos.
Sin embargo, los conjuntos de datos faciales sintéticos aún no son una panacea. Las siguientes secciones de este artículo explican en qué aspectos destacan los conjuntos de datos sintéticos, en qué aspectos se quedan cortos y el estado actual de genAI para el reconocimiento facial.
Los datos sintéticos ofrecen varias ventajas que los convierten en una herramienta valiosa en el desarrollo de la tecnología de reconocimiento facial. Uno de los principales beneficios es que los conjuntos de datos sintéticos no requieren la obtención de imágenes de personas reales. Los datos sintéticos no utilizan directamente datos personales reales, por lo que no se plantean requisitos de cumplimiento de la privacidad, como el consentimiento para el uso y el derecho al olvido.
La generación de datos sintéticos también puede resultar más rentable que la recopilación y anotación de grandes cantidades de datos del mundo real, lo que, además del tiempo y los recursos que se invierten en garantizar que un conjunto de datos de este tipo cumpla con las leyes y la ética, es un proceso manual, costoso y que requiere mucho tiempo. Los datos sintéticos permiten la creación de entornos controlados en los que se pueden manipular variables específicas, lo que ayuda a probar y ajustar los modelos de reconocimiento facial.
Además, los datos sintéticos facilitan la creación y obtención de grandes conjuntos de datos, especialmente en situaciones en las que los datos del mundo real son escasos, difíciles de recopilar o en las que los requisitos legales y las consideraciones éticas hacen que dicha recopilación sea insostenible. Los métodos GenAI también se pueden utilizar para complementar un conjunto de datos del mundo real existente, llenando los vacíos para reducir los sesgos, demográficos o de otro tipo.
Por ejemplo, muchos de los conjuntos de datos de rostros a gran escala que se publican se componen predominantemente de identidades caucásicas, lo que provoca un sesgo demográfico en los modelos de aprendizaje automático entrenados con esos datos. Esto se puede remediar fácilmente con un conjunto de datos sintéticos.
Para el dominio de las imágenes, las redes generativas antagónicas (GAN) son uno de los modelos más populares utilizados para generar datos.
Sin embargo, todas estas técnicas tienen limitaciones en términos de costo, tiempo, número de identidades únicas que se pueden generar y rendimiento.
En teoría, un conjunto de datos sintéticos con rostros de “aspecto real” y diversos atributos controlados para la etnia, el género, la pose, la iluminación y la variación del fondo debería tener un mejor rendimiento que un conjunto de datos reales “en la naturaleza”. Entonces, ¿por qué el rendimiento de los modelos entrenados con estos conjuntos de datos no se acerca en nada al de los modelos entrenados con conjuntos de datos del mundo real del mismo tamaño? La respuesta a esta pregunta se encuentra en las características no controladas de los propios datos del mundo real. Hasta el momento, ninguna investigación publicada ha captado por completo la magnitud de las variaciones en los datos reales.
Tener la misma cantidad limitada de variaciones para todas las identidades sintéticas en el conjunto de datos perjudica el rendimiento del modelo. Un intento de aumentar las variaciones da como resultado que la identidad del rostro también cambie, lo que introduce ruido en los datos, lo que nuevamente perjudica el rendimiento del modelo.
En la Tabla 2 se muestra el rendimiento de la misma arquitectura de modelo FR (Resnet 50) entrenada en diferentes conjuntos de datos sintéticos. También se muestra un rendimiento de referencia para un modelo entrenado en un conjunto de datos auténtico de aproximadamente el mismo tamaño. La tabla también muestra el año de publicación de cada dato sintético.
Nombre del conjunto de datos | Modelo ML | # Imágenes de entrenamiento | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
Sinface (2021) | resnet-50 | 500k | 91,93 | 75.03 | 61,63 | 74,73 | 70,43 |
Digiface-1m (2022) | resnet-50 | 500k | 95,40 | 87,40 | 76,97 | 78,62 | 78,87 |
Cara de DC (2023) | resnet-50 | 500k | 98,55 | 85.33 | 89,70 | 91.60 | 82,62 |
Tabla 2. Precisiones de verificación (%) en conjuntos de datos de evaluación de FR ampliamente utilizados logradas por modelos entrenados con datos sintéticos. La primera fila es el rendimiento de referencia logrado por el modelo en datos del mundo real de tamaño similar. Todos los resultados se obtienen de trabajos publicados originales que utilizan el mismo modelo y algoritmo de ML.
Como se puede ver en la Tabla 2, los modelos entrenados con datos sintéticos no funcionan tan bien como los modelos entrenados con datos del mundo real. Si bien la brecha de rendimiento en conjuntos de datos “simples” y pequeños como “LFW” es pequeña, la brecha es más prominente en otros conjuntos de datos más complejos como CFP-FP y Agedb-30, que contienen muestras de vistas de perfiles de rostros y rostros de la misma persona que abarcan varias edades respectivamente.
Notablemente, el rendimiento de los modelos entrenados con datos sintéticos ha mejorado en los últimos años.
Validar la eficacia de los datos sintéticos sigue siendo un desafío. Garantizar que los datos sintéticos representen con precisión las condiciones del mundo real es crucial para construir sistemas de reconocimiento facial confiables. Sin embargo, el proceso de validación es complejo y requiere metodologías sólidas para garantizar la calidad y la aplicabilidad de los datos.
Una posible solución es desarrollar un modelo genAI que también pueda imitar estas características en datos sintéticos. Se puede entrenar un modelo generativo para superar estas limitaciones entrenándolo con un conjunto de datos del mundo real que contenga amplias variaciones en atributos faciales, calidad de imagen y variación del fondo. Es razonable preguntarse de dónde podrían provenir esos datos. La adquisición de datos de este tipo se enfrentaría a todas las restricciones antes mencionadas, a saber, restricciones éticas, legales y de costos.
Sin embargo, estos problemas se ven mitigados por el menor tamaño del conjunto de datos necesario para entrenar modelos FR generativos.
Los datos sintéticos son una herramienta prometedora para el avance de la tecnología de reconocimiento facial, pero es esencial reconocer sus limitaciones actuales. Si bien los beneficios de genAI incluyen el realismo de las muestras sintéticas y la facilidad para ajustar con precisión las imágenes para realzar o atenuar rasgos, como las expresiones faciales, la postura de la cabeza, el vello facial, etc., la brecha de rendimiento entre los modelos entrenados con datos reales y sintéticos es significativa.
Los datos sintéticos aún no sustituyen a los conjuntos de datos reales bien seleccionados. Aun así, la calidad de los datos faciales sintéticos está alcanzando a la de los datos del mundo real a medida que mejoran las técnicas de generación de datos y, por lo tanto, podemos suponer que en un futuro cercano, los datos sintéticos pueden eliminar por completo la necesidad de utilizar datos faciales del mundo real para el entrenamiento de FR.
Imagen destacada de