O reconhecimento da ação humana emergiu como uma área ativa de pesquisa dentro da comunidade de aprendizado profundo. O objetivo principal envolve identificar e categorizar as ações humanas em vídeos, utilizando vários fluxos de entrada, como dados de vídeo e áudio.
Uma aplicação particular dessa tecnologia está no domínio da pornografia, que apresenta desafios técnicos únicos que complicam o processo de reconhecimento da ação humana. Fatores como variações de iluminação, oclusões e diferenças substanciais nos ângulos da câmera e nas técnicas de filmagem dificultam o reconhecimento da ação.
Mesmo quando duas ações são idênticas, as diversas perspectivas da câmera podem confundir as previsões do modelo. Para enfrentar esses desafios no domínio da pornografia, empregamos técnicas de aprendizado profundo que aprendem com vários fluxos de entrada, incluindo RGB, esqueleto (Pose) e dados de áudio. Os modelos mais eficazes em termos de desempenho e tempo de execução incluem arquiteturas baseadas em transformador para o fluxo RGB, PoseC3D para o fluxo de esqueleto e ResNet101 para o fluxo de áudio.
As saídas desses modelos são combinadas usando fusão tardia, em que a significância de cada modelo no esquema de pontuação final difere. Uma estratégia alternativa pode envolver o treinamento de um modelo com dois fluxos de entrada simultaneamente, como RGB+esqueleto ou RGB+áudio, e subsequentemente mesclar seus resultados. No entanto, esta abordagem é inadequada devido às propriedades inerentes dos dados.
Os fluxos de entrada de áudio são úteis apenas para ações específicas, enquanto outras ações carecem de características de áudio distintas. Da mesma forma, o modelo baseado em esqueleto só é aplicável quando a estimativa de pose ultrapassa um determinado limite de confiança, o que é difícil de atingir para algumas ações.
Ao empregar a técnica de fusão tardia, detalhada nas seções subsequentes, atingimos uma impressionante taxa de precisão de 90% para as duas principais previsões entre 20 categorias distintas. Essas categorias abrangem uma gama diversificada de ações e posições sexuais.
O fluxo de entrada primário e mais confiável para o modelo são os quadros RGB. As duas arquiteturas mais potentes neste contexto são as Redes Neurais Convolucionais 3D (3D CNNs) e os modelos baseados em atenção. Os modelos baseados em atenção, particularmente aqueles que utilizam arquiteturas de transformadores, são atualmente considerados o estado da arte no campo. Consequentemente, empregamos uma arquitetura baseada em transformadores para obter o desempenho ideal. Além disso, o modelo demonstra recursos de inferência rápida, exigindo aproximadamente 0,53 segundos para processar videoclipes de 7 segundos.
Inicialmente, o esqueleto humano é extraído utilizando uma detecção humana e um modelo de estimativa de pose 2D. As informações extraídas do esqueleto são posteriormente alimentadas no PoseC3D, uma Rede Neural Convolucional 3D (3D CNN) projetada especificamente para o reconhecimento de ações humanas baseadas em esqueletos. Este modelo também é considerado o estado da arte na área. Além de seu desempenho, o modelo PoseC3D exibe recursos de inferência eficientes, exigindo aproximadamente 3 segundos para processar videoclipes de 7 segundos.
Devido às perspectivas desafiadoras encontradas em inúmeras ações (por exemplo, não é possível extrair poses confiáveis que ajudarão um modelo a identificar uma ação de dedilhado na maioria das vezes), o reconhecimento de ação humana baseado em esqueleto é empregado seletivamente, especificamente para um subconjunto de ações, que inclui posições sexuais
Para o fluxo de entrada de áudio, uma arquitetura baseada em ResNet derivada do modelo Audiovisual SlowFast é empregada. Essa abordagem é aplicada a um conjunto menor de ações em comparação com o método baseado em esqueleto, principalmente devido às informações limitadas disponíveis a partir de uma perspectiva de áudio para identificar ações de forma confiável dentro desse domínio específico.
O conjunto de dados montado é extenso e heterogêneo, incorporando uma ampla gama de tipos de gravação, incluindo ponto de vista (POV), profissional, amador, com ou sem um operador de câmera dedicado e ambientes de fundo variados, indivíduos e perspectivas de câmera. O conjunto de dados compreende aproximadamente 100 horas de dados de treinamento abrangendo 20 categorias distintas. No entanto, alguns desequilíbrios de categoria foram observados no conjunto de dados. Esforços para resolver esses desequilíbrios estão sendo considerados para futuras iterações do conjunto de dados.
A ilustração acima fornece uma visão geral do pipeline de IA utilizado em nosso sistema.
Inicialmente, um modelo leve de detecção NSFW é empregado para identificar segmentos não NSFW do vídeo, permitindo-nos ignorar o restante do pipeline para essas seções. Essa abordagem não apenas acelera o tempo geral de inferência de vídeo, mas também minimiza os falsos positivos. Executar os modelos de reconhecimento de ação em filmagens irrelevantes, como uma casa ou um carro, é desnecessário, pois eles não foram projetados para reconhecer esse conteúdo.
Após esta etapa preliminar, implantamos um modelo rápido de reconhecimento de ação baseado em RGB. Dependendo dos dois primeiros resultados desse modelo, determinamos se devemos executar o modelo de reconhecimento de posição baseado em RGB, o modelo de reconhecimento de ação baseado em áudio ou o modelo de reconhecimento de ação baseado em esqueleto. Se uma das duas principais previsões do modelo de reconhecimento de ação RGB corresponder à categoria de posição, procedemos com o modelo de reconhecimento de posição RGB para identificar com precisão a posição específica.
Posteriormente, utilizamos modelos de caixa delimitadora e pose 2D para extrair o esqueleto humano, que é inserido no modelo de reconhecimento de posição baseado em esqueleto. Os resultados do modelo de reconhecimento de posição RGB e do modelo de reconhecimento de posição de esqueleto são integrados por fusão tardia.
Se o grupo de áudio for detectado nos dois primeiros rótulos, o modelo de reconhecimento de ação baseado em áudio será executado. Seus resultados são combinados com os do modelo de reconhecimento de ação RGB através da fusão tardia.
Por fim, analisamos os resultados dos modelos de ação e posição, gerando uma ou duas previsões finais. Exemplos de tais previsões incluem ações simples (por exemplo, Missi***ry), combinações de posição e ação (por exemplo, Cowgirl & Kissing ou Doggy & An*l) ou ações duplas (por exemplo, Cunn***ngus & Fing** *ng).
Para obter mais informações, você pode ler nossos documentos da API P-HAR