La reconnaissance de l'action humaine est devenue un domaine de recherche actif au sein de la communauté de l'apprentissage en profondeur. L'objectif principal consiste à identifier et à catégoriser les actions humaines dans les vidéos en utilisant plusieurs flux d'entrée, tels que des données vidéo et audio.
Une application particulière de cette technologie réside dans le domaine de la pornographie, qui pose des défis techniques uniques qui compliquent le processus de reconnaissance de l'action humaine. Des facteurs tels que les variations d'éclairage, les occlusions et les différences substantielles dans les angles de caméra et les techniques de tournage rendent difficile la reconnaissance des actions.
Même lorsque deux actions sont identiques, les diverses perspectives de la caméra peuvent prêter à confusion dans les prédictions du modèle. Pour relever ces défis dans le domaine de la pornographie, nous avons utilisé des techniques d'apprentissage en profondeur qui apprennent à partir de divers flux d'entrée, notamment les données RVB, squelette (Pose) et audio. Les modèles les plus efficaces en termes de performances et d'exécution incluent les architectures basées sur des transformateurs pour le flux RVB, PoseC3D pour le flux squelette et ResNet101 pour le flux audio.
Les sorties de ces modèles sont combinées à l'aide d'une fusion tardive, dans laquelle la signification de chaque modèle dans le schéma de notation final diffère. Une stratégie alternative pourrait impliquer de former un modèle avec deux flux d'entrée simultanément, tels que RVB + squelette ou RVB + audio, puis de fusionner leurs résultats. Cependant, cette approche est inadaptée en raison des propriétés inhérentes aux données.
Les flux d'entrée audio ne sont utiles que pour des actions spécifiques, tandis que d'autres actions manquent de caractéristiques audio distinctes. De même, le modèle basé sur le squelette n'est applicable que lorsque l'estimation de la pose dépasse un certain seuil de confiance, ce qui est difficile à atteindre pour certaines actions.
En utilisant la technique de fusion tardive, détaillée dans les sections suivantes, nous atteignons un taux de précision impressionnant de 90 % pour les deux premières prédictions parmi 20 catégories distinctes. Ces catégories englobent un large éventail d'actions et de positions sexuelles.
Le flux d'entrée principal et le plus fiable pour le modèle est les trames RVB. Les deux architectures les plus puissantes dans ce contexte sont les réseaux de neurones convolutifs 3D (CNN 3D) et les modèles basés sur l'attention. Les modèles basés sur l'attention, en particulier ceux utilisant des architectures de transformateurs, sont actuellement considérés comme l'état de l'art dans le domaine. Par conséquent, nous utilisons une architecture basée sur des transformateurs pour obtenir des performances optimales. De plus, le modèle démontre des capacités d'inférence rapide, nécessitant environ 0,53 seconde pour traiter des clips vidéo de 7 secondes.
Initialement, le squelette humain est extrait à l'aide d'un modèle de détection humaine et d'estimation de pose 2D. Les informations extraites du squelette sont ensuite introduites dans PoseC3D, un réseau de neurones convolutifs 3D (3D CNN) spécialement conçu pour la reconnaissance des actions humaines basée sur le squelette. Ce modèle est également considéré comme l'état de l'art dans le domaine. En plus de ses performances, le modèle PoseC3D présente des capacités d'inférence efficaces, nécessitant environ 3 secondes pour traiter des clips vidéo de 7 secondes.
En raison des perspectives difficiles rencontrées dans de nombreuses actions (par exemple, il n'est pas possible d'extraire des poses fiables qui aideront un modèle à identifier une action de doigté la plupart du temps), la reconnaissance d'action humaine basée sur le squelette est utilisée de manière sélective, spécifiquement pour un sous-ensemble d'actions, qui comprend les positions sexuelles
Pour le flux d'entrée audio, une architecture basée sur ResNet dérivée du modèle audiovisuel SlowFast est utilisée. Cette approche est appliquée à un plus petit ensemble d'actions par rapport à la méthode basée sur le squelette, principalement en raison des informations limitées disponibles d'un point de vue audio pour identifier de manière fiable les actions dans ce domaine spécifique.
L'ensemble de données assemblé est vaste et hétérogène, incorporant un large éventail de types d'enregistrement, y compris le point de vue (POV), professionnel, amateur, avec ou sans opérateur de caméra dédié, et divers environnements d'arrière-plan, individus et perspectives de caméra. L'ensemble de données comprend environ 100 heures de données d'entraînement couvrant 20 catégories distinctes. Cependant, certains déséquilibres de catégorie ont été observés dans l'ensemble de données. Des efforts pour remédier à ces déséquilibres sont envisagés pour les futures itérations de l'ensemble de données.
L'illustration ci-dessus donne un aperçu du pipeline d'IA utilisé dans notre système.
Initialement, un modèle de détection NSFW léger est utilisé pour identifier les segments non NSFW de la vidéo, ce qui nous permet de contourner le reste du pipeline pour ces sections. Cette approche accélère non seulement le temps d'inférence vidéo global, mais minimise également les faux positifs. L'exécution des modèles de reconnaissance d'action sur des séquences non pertinentes, telles qu'une maison ou une voiture, n'est pas nécessaire car ils ne sont pas conçus pour reconnaître un tel contenu.
Suite à cette étape préliminaire, nous déployons un modèle de reconnaissance d'action rapide basé sur RVB. En fonction des deux premiers résultats de ce modèle, nous déterminons s'il faut exécuter le modèle de reconnaissance de position basé sur RVB, le modèle de reconnaissance d'action basé sur l'audio ou le modèle de reconnaissance d'action basé sur le squelette. Si l'une des deux premières prédictions du modèle de reconnaissance d'action RVB correspond à la catégorie de position, nous procédons avec le modèle de reconnaissance de position RVB pour identifier avec précision la position spécifique.
Par la suite, nous utilisons des modèles de boîte englobante et de pose 2D pour extraire le squelette humain, qui est ensuite entré dans le modèle de reconnaissance de position basé sur le squelette. Les résultats du modèle de reconnaissance de la position RVB et du modèle de reconnaissance de la position du squelette sont intégrés par fusion tardive.
Si le groupe audio est détecté dans les deux étiquettes supérieures, le modèle de reconnaissance d'action basé sur l'audio est exécuté. Ses résultats sont combinés avec ceux du modèle de reconnaissance d'action RVB par fusion tardive.
Enfin, nous analysons les résultats des modèles d'action et de position, générant une ou deux prédictions finales. Des exemples de telles prédictions incluent des actions simples (par exemple, Missi *** ry), des combinaisons de position et d'action (par exemple, Cowgirl & Kissing ou Doggy & An * l) ou des actions doubles (par exemple, Cunn *** ngus & Fing ** *ng).
Pour plus d'informations, vous pouvez lire nos documents sur l'API P-HAR