El reconocimiento de la acción humana se ha convertido en un área activa de investigación dentro de la comunidad de aprendizaje profundo. El objetivo principal consiste en identificar y categorizar las acciones humanas en videos mediante el uso de múltiples flujos de entrada, como datos de video y audio.
Una aplicación particular de esta tecnología se encuentra en el dominio de la pornografía, que plantea desafíos técnicos únicos que complican el proceso de reconocimiento de la acción humana. Factores como las variaciones de iluminación, las oclusiones y las diferencias sustanciales en los ángulos de la cámara y las técnicas de filmación dificultan el reconocimiento de la acción.
Incluso cuando dos acciones son idénticas, las diversas perspectivas de la cámara pueden generar confusión en las predicciones del modelo. Para abordar estos desafíos en el dominio de la pornografía, hemos empleado técnicas de aprendizaje profundo que aprenden de varios flujos de entrada, incluidos RGB, Skeleton (Pose) y datos de audio. Los modelos más efectivos en términos de rendimiento y tiempo de ejecución incluyen arquitecturas basadas en transformadores para la transmisión RGB, PoseC3D para la transmisión esquelética y ResNet101 para la transmisión de audio.
Los resultados de estos modelos se combinan mediante la fusión tardía, en la que difiere la importancia de cada modelo en el esquema de puntuación final. Una estrategia alternativa podría implicar entrenar un modelo con dos flujos de entrada simultáneamente, como RGB+esqueleto o RGB+audio, y luego fusionar sus resultados. Sin embargo, este enfoque no es adecuado debido a las propiedades inherentes de los datos.
Los flujos de entrada de audio solo son útiles para acciones específicas, mientras que otras acciones carecen de características de audio distintas. Del mismo modo, el modelo basado en el esqueleto solo es aplicable cuando la estimación de la pose supera un cierto umbral de confianza, lo cual es difícil de alcanzar para algunas acciones.
Al emplear la técnica de fusión tardía, que se detalla en las secciones siguientes, logramos una impresionante tasa de precisión del 90 % para las dos predicciones principales entre 20 categorías distintas. Estas categorías abarcan una amplia gama de acciones y posiciones sexuales.
El flujo de entrada principal y más confiable para el modelo son los marcos RGB. Las dos arquitecturas más potentes en este contexto son las redes neuronales convolucionales 3D (CNN 3D) y los modelos basados en la atención. Los modelos basados en la atención, en particular los que utilizan arquitecturas de transformadores, se consideran actualmente de última generación en el campo. En consecuencia, empleamos una arquitectura basada en transformadores para lograr un rendimiento óptimo. Además, el modelo demuestra capacidades de inferencia rápida, que requieren aproximadamente 0,53 segundos para procesar videoclips de 7 segundos.
Inicialmente, el esqueleto humano se extrae utilizando un modelo de estimación de postura 2D y detección humana. La información del esqueleto extraída se introduce posteriormente en PoseC3D, una red neuronal convolucional 3D (3D CNN) diseñada específicamente para el reconocimiento de la acción humana basada en el esqueleto. Este modelo también se considera de última generación en el campo. Además de su desempeño, el modelo PoseC3D exhibe capacidades de inferencia eficientes, requiriendo aproximadamente 3 segundos para procesar clips de video de 7 segundos.
Debido a las perspectivas desafiantes que se encuentran en numerosas acciones (por ejemplo, no es posible extraer poses confiables que ayuden a un modelo a identificar una acción de digitación la mayor parte del tiempo), el reconocimiento de acción humana basado en esqueleto se emplea de manera selectiva, específicamente para un subconjunto de acciones. que incluye posiciones sexuales
Para el flujo de entrada de audio, se emplea una arquitectura basada en ResNet derivada del modelo Audiovisual SlowFast. Este enfoque se aplica a un conjunto más pequeño de acciones en comparación con el método basado en el esqueleto, principalmente debido a la información limitada disponible desde una perspectiva de audio para identificar de manera confiable las acciones dentro de este dominio específico.
El conjunto de datos ensamblado es extenso y heterogéneo, e incorpora una amplia gama de tipos de grabación, incluido el punto de vista (POV), profesional, amateur, con o sin un operador de cámara dedicado, y diversos entornos de fondo, individuos y perspectivas de cámara. El conjunto de datos comprende aproximadamente 100 horas de datos de entrenamiento que abarcan 20 categorías distintas. Sin embargo, se observaron algunos desequilibrios de categoría en el conjunto de datos. Se están considerando esfuerzos para abordar estos desequilibrios para futuras iteraciones del conjunto de datos.
La ilustración anterior proporciona una descripción general de la canalización de IA utilizada en nuestro sistema.
Inicialmente, se emplea un modelo de detección NSFW liviano para identificar segmentos del video que no son NSFW, lo que nos permite omitir el resto de la tubería para esas secciones. Este enfoque no solo acelera el tiempo total de inferencia de video, sino que también minimiza los falsos positivos. No es necesario ejecutar los modelos de reconocimiento de acción en imágenes irrelevantes, como una casa o un automóvil, ya que no están diseñados para reconocer dicho contenido.
Después de este paso preliminar, implementamos un modelo de reconocimiento de acción rápido basado en RGB. Según los dos resultados principales de este modelo, determinamos si ejecutar el modelo de reconocimiento de posición basado en RGB, el modelo de reconocimiento de acción basado en audio o el modelo de reconocimiento de acción basado en esqueleto. Si una de las dos predicciones principales del modelo de reconocimiento de acción RGB corresponde a la categoría de posición, procedemos con el modelo de reconocimiento de posición RGB para identificar con precisión la posición específica.
Posteriormente, utilizamos cuadros delimitadores y modelos de poses 2D para extraer el esqueleto humano, que luego se ingresa en el modelo de reconocimiento de posición basado en el esqueleto. Los resultados del modelo de reconocimiento de posición RGB y el modelo de reconocimiento de posición de esqueleto se integran mediante fusión tardía.
Si el grupo de audio se detecta dentro de las dos etiquetas superiores, se ejecuta el modelo de reconocimiento de acciones basado en audio. Sus resultados se combinan con los del modelo de reconocimiento de acción RGB mediante fusión tardía.
Por último, analizamos los resultados de los modelos de acción y posición, generando una o dos predicciones finales. Ejemplos de tales predicciones incluyen acciones individuales (p. ej., Missi***ry), combinaciones de posición y acción (p. ej., Cowgirl & Kissing o Doggy & An*l), o acciones duales (p. ej., Cunngus & Fing** *ng).
Para obtener más información, puede leer nuestros documentos API de P-HAR