paint-brush
AI生成の顔の発見:モデル@botbeat
164 測定値

AI生成の顔の発見:モデル

長すぎる; 読むには

AI はオンライン詐欺のためにリアルな偽の顔を作成することができます。この研究では、画像内で AI が生成した顔を検出する方法を提案します。
featured image - AI生成の顔の発見:モデル
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

著者:

(1)ゴンザロ・J・アニアーノ・ポルシル、LinkedIn

(2)ジャック・ギンディ、LinkedIn

(3)シヴァンシュ・ムンドラ、LinkedIn

(4)ジェームズ・R・バーバス、LinkedIn

(5)ハニー・ファリド、LinkedInおよびカリフォルニア大学バークレー校。

リンク一覧

3. モデル

我々は本物の顔とAIが生成した顔を区別するモデルを訓練した。基礎となるモデルはEfficientNet-B1[7]畳み込みニューラルネットワーク[30]である。このアーキテクチャは他の最先端のアーキテクチャ(Swin-T [22]、Resnet50 [14]、XceptionNet [7])と比較して優れたパフォーマンスを発揮することが判明した。EfficientNet-B1ネットワークには、ImageNet1K画像データセット[30]で事前訓練された780万の内部パラメータがある。


私たちのパイプラインは、(1) 画像前処理段階、(2) 画像埋め込み段階、(3) スコアリング段階の 3 つの段階で構成されています。このモデルはカラー画像を入力として受け取り、[0, 1] の範囲の数値スコアを生成します。スコアが 0 に近い場合は画像が本物である可能性が高く、スコアが 1 に近い場合は画像が AI によって生成された可能性が高いことを示します。



表 2. ベースライン トレーニングと評価の真陽性 (AI 生成画像を正しく分類し、すべての合成エンジンで平均化 (TPR))。各条件で、偽陽性率は 0.5% (実際の顔を誤って分類 (FPR)) です。また、2TP/(2TP + FP + FN) として定義される F1 スコアも報告されています。TP、FP、および FN は、それぞれ真陽性、偽陽性、および偽陰性の数を表します。エンジン内/エンジン外は、画像がトレーニングで使用されたものと同じ/異なる合成エンジンで作成されたことを示します。



画像の事前処理ステップでは、入力画像のサイズを 512×512 ピクセルの解像度に変更します。次に、このサイズ変更されたカラー画像は、EfficientNet-B1 転送学習レイヤーに渡されます。スコアリング ステージでは、転送学習レイヤーの出力が、ReLU アクティベーション関数を持つサイズがそれぞれ 2,048 の 2 つの完全接続レイヤー、ドロップアウト確率が 0.8 のドロップアウト レイヤー、およびシグモイド アクティベーションを持つ最終スコアリング レイヤーに送られます。680 万のトレーニング可能なパラメーターを持つスコアリング レイヤーのみが調整されます。トレーニング可能な重みは、サイズ 32 のミニバッチ、学習率 0.0001 の AdaGrad アルゴリズムを使用して最適化され、最大 10,000 ステップでトレーニングされます。モデルのトレーニングには、60 個の NVIDIA A100 GPU を備えたクラスターが使用されました。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[7] ここで説明しているのは、以前LinkedInで運用していたEfficientNetモデルの古いバージョンです。このモデルはその後新しいモデルに置き換えられました。このモデルが最新のものではないことは認識していますが、このモデルが使用されなくなったため、今になってようやくこれらの結果を報告できるようになりました。