著者:
(1)ゴンザロ・J・アニアーノ・ポルシル、LinkedIn
(2)ジャック・ギンディ、LinkedIn
(3)シヴァンシュ・ムンドラ、LinkedIn
(4)ジェームズ・R・バーバス、LinkedIn
(5)ハニー・ファリド、LinkedInおよびカリフォルニア大学バークレー校。
我々は本物の顔とAIが生成した顔を区別するモデルを訓練した。基礎となるモデルはEfficientNet-B1[7]畳み込みニューラルネットワーク[30]である。このアーキテクチャは他の最先端のアーキテクチャ(Swin-T [22]、Resnet50 [14]、XceptionNet [7])と比較して優れたパフォーマンスを発揮することが判明した。EfficientNet-B1ネットワークには、ImageNet1K画像データセット[30]で事前訓練された780万の内部パラメータがある。
私たちのパイプラインは、(1) 画像前処理段階、(2) 画像埋め込み段階、(3) スコアリング段階の 3 つの段階で構成されています。このモデルはカラー画像を入力として受け取り、[0, 1] の範囲の数値スコアを生成します。スコアが 0 に近い場合は画像が本物である可能性が高く、スコアが 1 に近い場合は画像が AI によって生成された可能性が高いことを示します。
画像の事前処理ステップでは、入力画像のサイズを 512×512 ピクセルの解像度に変更します。次に、このサイズ変更されたカラー画像は、EfficientNet-B1 転送学習レイヤーに渡されます。スコアリング ステージでは、転送学習レイヤーの出力が、ReLU アクティベーション関数を持つサイズがそれぞれ 2,048 の 2 つの完全接続レイヤー、ドロップアウト確率が 0.8 のドロップアウト レイヤー、およびシグモイド アクティベーションを持つ最終スコアリング レイヤーに送られます。680 万のトレーニング可能なパラメーターを持つスコアリング レイヤーのみが調整されます。トレーニング可能な重みは、サイズ 32 のミニバッチ、学習率 0.0001 の AdaGrad アルゴリズムを使用して最適化され、最大 10,000 ステップでトレーニングされます。モデルのトレーニングには、60 個の NVIDIA A100 GPU を備えたクラスターが使用されました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
[7] ここで説明しているのは、以前LinkedInで運用していたEfficientNetモデルの古いバージョンです。このモデルはその後新しいモデルに置き換えられました。このモデルが最新のものではないことは認識していますが、このモデルが使用されなくなったため、今になってようやくこれらの結果を報告できるようになりました。