人間の行動認識は、ディープ ラーニング コミュニティ内の活発な研究分野として浮上しています。主な目的は、ビデオやオーディオ データなどの複数の入力ストリームを利用して、ビデオ内の人間の行動を識別して分類することです。
この技術の特定のアプリケーションの 1 つは、ポルノの分野にあり、これは、人間の行動認識のプロセスを複雑にする独自の技術的課題をもたらします。照明の変化、遮蔽、カメラ アングルや撮影技術の大幅な違いなどの要因により、アクションの認識が困難になります。
2 つのアクションが同じ場合でも、カメラの視点が多様であるため、モデルの予測に混乱が生じる可能性があります。ポルノグラフィー領域におけるこれらの課題に対処するために、RGB、スケルトン (ポーズ)、およびオーディオ データを含むさまざまな入力ストリームから学習するディープ ラーニング技術を採用しました。パフォーマンスとランタイムの点で最も効果的なモデルには、RGB ストリーム用のトランスフォーマー ベースのアーキテクチャ、スケルトン ストリーム用の PoseC3D、およびオーディオ ストリーム用の ResNet101 が含まれます。
これらのモデルの出力は、最終的なスコアリング スキームにおける各モデルの重要性が異なる後期融合を使用して結合されます。別の戦略として、RGB + スケルトンまたは RGB + オーディオなどの 2 つの入力ストリームを同時に使用してモデルをトレーニングし、その後それらの結果をマージすることが含まれる場合があります。ただし、このアプローチは、データ固有のプロパティのため、適切ではありません。
オーディオ入力ストリームは特定のアクションにのみ役立ちますが、他のアクションには明確なオーディオ特性がありません。同様に、スケルトンベースのモデルは、ポーズの推定が特定の信頼しきい値を超えた場合にのみ適用できます。これは、一部のアクションでは達成が困難です。
以降のセクションで詳しく説明する後期融合手法を採用することで、20 の異なるカテゴリの上位 2 つの予測で 90% という驚異的な精度を達成しています。これらのカテゴリには、さまざまな性行為や体位が含まれます。
モデルの主要で最も信頼性の高い入力ストリームは、RGB フレームです。このコンテキストで最も強力な 2 つのアーキテクチャは、3D 畳み込みニューラル ネットワーク (3D CNN) と注意ベースのモデルです。 Attention ベースのモデル、特にトランス アーキテクチャを利用するモデルは、現在、この分野で最先端と見なされています。その結果、トランスフォーマーベースのアーキテクチャを採用して、最適なパフォーマンスを実現しています。さらに、このモデルは、7 秒のビデオ クリップを処理するのに約 0.53 秒を必要とする、迅速な推論機能を示しています。
最初に、人間の検出と 2D 姿勢推定モデルを使用して、人間の骨格が抽出されます。抽出されたスケルトン情報は、その後、スケルトンベースの人間の行動認識用に特別に設計された 3D 畳み込みニューラル ネットワーク (3D CNN) である PoseC3D に供給されます。このモデルは、この分野でも最先端と見なされています。そのパフォーマンスに加えて、PoseC3D モデルは効率的な推論機能を発揮し、7 秒のビデオ クリップを処理するのに約 3 秒かかります。
多数のアクションで遭遇する困難な視点 (たとえば、ほとんどの場合、モデルが運指アクションを識別するのに役立つ信頼できるポーズを抽出することはできません) により、スケルトンベースの人間のアクション認識が、特にアクションのサブセットに対して選択的に採用されます。セックスの体位を含む
オーディオ入力ストリームには、Audiovisual SlowFast モデルから派生した ResNet ベースのアーキテクチャが採用されています。このアプローチは、主に、この特定のドメイン内のアクションを確実に識別するためにオーディオの観点から入手できる情報が限られているため、スケルトンベースの方法と比較してより小さな一連のアクションに適用されます。
集められたデータセットは広範かつ異種であり、視点 (POV)、プロ、アマチュア、専用のカメラ オペレーターの有無、さまざまな背景環境、個人、カメラの視点など、さまざまな種類の記録が組み込まれています。このデータセットは、20 の異なるカテゴリにわたる約 100 時間のトレーニング データで構成されています。ただし、データセットでいくつかのカテゴリの不均衡が観察されました。これらの不均衡に対処するための取り組みは、データセットの将来の反復で検討されています。
上の図は、当社のシステムで利用されている AI パイプラインの概要を示しています。
最初に、軽量の NSFW 検出モデルを使用してビデオの非 NSFW セグメントを識別し、それらのセクションの残りのパイプラインをバイパスできるようにします。このアプローチは、全体的なビデオ推論時間を短縮するだけでなく、誤検知を最小限に抑えます。家や車などの無関係な映像でアクション認識モデルを実行する必要はありません。それらはそのようなコンテンツを認識するように設計されていないためです。
この準備段階に続いて、迅速な RGB ベースの行動認識モデルを展開します。このモデルの上位 2 つの結果に応じて、RGB ベースの位置認識モデル、音声ベースの行動認識モデル、または骨格ベースの行動認識モデルを実行するかどうかを決定します。 RGB アクション認識モデルからの上位 2 つの予測のいずれかが位置カテゴリに対応する場合、RGB 位置認識モデルに進み、特定の位置を正確に識別します。
その後、バウンディング ボックスと 2D ポーズ モデルを使用して人間の骨格を抽出し、骨格ベースの位置認識モデルに入力します。 RGB 位置認識モデルと骨格位置認識モデルの結果は、後期融合によって統合されます。
音声グループが上位 2 つのラベル内で検出された場合、音声ベースのアクション認識モデルが実行されます。その結果は、後期融合によって RGB アクション認識モデルの結果と結合されます。
最後に、アクション モデルと位置モデルの結果を解析し、1 つまたは 2 つの最終的な予測を生成します。このような予測の例には、単一のアクション (例: Missi***ry)、位置とアクションの組み合わせ (例: Cowgirl & Kissing または Doggy & An*l)、またはデュアル アクション (例: Cunn***ngus & Fing**) が含まれます。 *ng)。
詳細については、 P-HAR API ドキュメントをご覧ください。