人类行为识别已成为深度学习社区中的一个活跃研究领域。主要目标涉及通过利用多个输入流(例如视频和音频数据)来识别和分类视频中的人类行为。
这项技术的一个特殊应用在于色情领域,它提出了独特的技术挑战,使人类行为识别过程复杂化。诸如光照变化、遮挡以及摄像机角度和拍摄技术的显着差异等因素使得动作识别变得困难。
即使两个动作相同,不同的相机视角也会导致模型预测混乱。为了应对色情领域的这些挑战,我们采用了从各种输入流中学习的深度学习技术,包括 RGB、骨架(姿势)和音频数据。在性能和运行时方面最有效的模型包括用于 RGB 流的基于转换器的架构、用于骨架流的 PoseC3D 和用于音频流的 ResNet101。
这些模型的输出使用后期融合进行组合,其中每个模型在最终评分方案中的重要性不同。另一种策略可能涉及同时使用两个输入流训练模型,例如 RGB+骨架或 RGB+音频,然后合并它们的结果。但是,由于数据的固有属性,这种方法并不适用。
音频输入流仅对特定动作有用,而其他动作则缺乏明显的音频特征。同样,基于骨架的模型仅适用于姿态估计超过某个置信度阈值的情况,这对于某些动作来说很难达到。
通过采用后续部分详述的后期融合技术,我们在 20 个不同类别中的前两个预测中获得了令人印象深刻的 90% 的准确率。这些类别包括各种各样的性行为和性姿势。
模型的主要和最可靠的输入流是 RGB 帧。在这种情况下,两种最有效的架构是 3D 卷积神经网络 (3D CNN) 和基于注意力的模型。基于注意力的模型,特别是那些利用变压器架构的模型,目前被认为是该领域的最新技术。因此,我们采用基于变压器的架构来实现最佳性能。此外,该模型还展示了快速推理能力,处理 7 秒视频剪辑需要大约 0.53 秒。
最初,利用人体检测和 2D 姿态估计模型提取人体骨骼。提取的骨骼信息随后被输入 PoseC3D,这是一种专为基于骨骼的人类动作识别而设计的 3D 卷积神经网络 (3D CNN)。该模型也被认为是该领域的最新技术。除了性能之外,PoseC3D 模型还展示了高效的推理能力,处理 7 秒视频剪辑需要大约 3 秒。
由于在众多动作中遇到具有挑战性的观点(例如,不可能提取可靠的姿势来帮助模型在大多数情况下识别指法动作),有选择地采用基于骨架的人类动作识别,特别是针对动作的子集,其中包括性姿势
对于音频输入流,采用了从 Audiovisual SlowFast 模型派生的基于 ResNet 的架构。与基于骨架的方法相比,这种方法适用于较小的一组动作,这主要是由于从音频角度可用于可靠识别该特定域内动作的信息有限。
组装的数据集广泛且异构,包含多种记录类型,包括视点 (POV)、专业、业余、有或没有专门的摄像师,以及不同的背景环境、个人和摄像头视角。该数据集包含大约 100 小时的训练数据,涵盖 20 个不同的类别。然而,在数据集中观察到一些类别不平衡。正在考虑为数据集的未来迭代努力解决这些不平衡问题。
上图概述了我们系统中使用的 AI 管道。
最初,使用轻量级 NSFW 检测模型来识别视频的非 NSFW 片段,使我们能够绕过这些部分的其余管道。这种方法不仅加快了整体视频推理时间,而且最大限度地减少了误报。在不相关的镜头(例如房屋或汽车)上运行动作识别模型是不必要的,因为它们并非旨在识别此类内容。
在这个初步步骤之后,我们部署了一个基于 RGB 的快速动作识别模型。根据该模型的前两个结果,我们确定是执行基于 RGB 的位置识别模型、基于音频的动作识别模型还是基于骨架的动作识别模型。如果来自 RGB 动作识别模型的前两个预测之一对应于位置类别,我们继续使用 RGB 位置识别模型以准确识别特定位置。
随后,我们利用边界框和 2D 姿势模型提取人体骨骼,然后将其输入到基于骨骼的位置识别模型中。 RGB 位置识别模型和骨架位置识别模型的结果通过后期融合进行了整合。
如果在前两个标签中检测到音频组,则执行基于音频的动作识别模型。其结果通过后期融合与 RGB 动作识别模型的结果相结合。
最后,我们解析动作和位置模型的结果,生成一两个最终预测。此类预测的示例包括单一动作(例如,Missi***ry)、位置和动作组合(例如,Cowgirl & Kissing 或 Doggy & An*l)或双重动作(例如,Cunn***ngus & Fing** *吴)。
有关更多信息,您可以阅读我们的P-HAR API 文档