著者:
(1)ゴンザロ・J・アニアーノ・ポルシル、LinkedIn
(2)ジャック・ギンディ、LinkedIn
(3)シヴァンシュ・ムンドラ、LinkedIn
(4)ジェームズ・R・バーバス、LinkedIn
(5)ハニー・ファリド、LinkedInおよびカリフォルニア大学バークレー校。
ベースラインのトレーニングと評価のパフォーマンスを表 2 に示します。評価は、評価画像に顔が含まれているかどうか (トレーニング画像には顔のみが含まれていました)、および画像がトレーニングで使用されたものと同じ (エンジン内) または異なる (エンジン外) 合成エンジンで生成されたかどうかに基づいて分類されます (セクション 2.6 を参照)。トレーニングと評価の真陽性率[8] (TPR) を直接比較するために、最終分類しきい値を調整して、偽陽性率[9] (FPR) が 0.5% になるようにします。
FPR が 0.5% に固定されている場合、AI 生成の顔はトレーニングと評価で 98% の割合で正しく分類されます。トレーニングに使用されたさまざまな合成エンジン (StyleGAN 1、2、3、Stable Diffusion 1、2、および DALL-E 2) 間で、TPR は、最低 93.3% (Stable Diffusion 1) から最高 99.5% (StyleGAN 2)、最高 98.9% (StyleGAN1)、99.9% (StyleGAN3)、94.9% (Stable Diffusion 2)、および 99.2% (DALL-E 2) まで多少変化しました。
合成エンジンで生成された顔は、
トレーニング (エンジン外) では、同じ FPR で TPR が 84.5% に低下し、ドメイン外の一般化は良好ですが、完璧ではないことを示しています。トレーニングで使用されていないさまざまな合成エンジン間では、TPR は大きく異なり、最低 19.4% の Midjourney から最高 99.5% の EG3D、95.4% の generated.photos まであります。私たちの分類器は、場合によってはうまく一般化しますが、他の場合には一般化しません。ただし、この制限は、これらのエンジン外の画像を初期トレーニングに組み込むことで緩和できる可能性があります。
特に印象的な結果では、トレーニングで使用されたのと同じ合成エンジンによって生成された非顔画像がすべて誤って分類されています。これは、実際の画像の一部に非顔画像が含まれているのに対し (セクション 2.1 を参照)、AI 生成画像にはすべて顔が含まれているためであると考えられます。アカウント作成に使用された偽の顔を検出することのみに関心があるため、これは大きな制限とは見なしていません。この結果はまた、分類器が AI 生成顔の特定の特性を捉えており、基礎となる合成からの低レベルのアーティファクト (ノイズ フィンガープリント [8] など) を捉えていないことを示唆しています。セクション 4.1 では、この仮説を裏付ける追加の証拠を示します。
上記のベースライン結果は、512×512 ピクセルの解像度で画像をトレーニングおよび評価した結果に基づいています。図 3(a) (青の実線) に示されているのは、トレーニング画像を低い解像度 (256、128、64、32) に縮小し、分類のために 512 に戻したときの TPR です。同じ FPR 0.5% の場合、AI 生成の顔を分類するための TPR は、ベースラインの 98.0% からかなり急速に低下します。
ただし、モデルを N × N (N = 32、64、128、または 256) の解像度の画像でトレーニングし、トレーニングで確認されたのと同じ TPR に対して評価すると、真陽性率は大幅に向上します (図 3(a) (赤の破線))。前と同様に、偽陽性率は 0.5% に固定されています。ここでは、解像度 128 × 128 での TPR が比較的高い (91.9%) ままであり、最低解像度の 32×32 でのみ低下する (44.1%) ことがわかります。比較的低い解像度でも AI 生成の顔を検出できるということは、このレベルのダウンサンプリングに耐えられないような低レベルのアーティファクトにモデルが引っかかっていないことを示しています。
図 3(b) は、さまざまな品質の非圧縮 PNG および JPEG 画像でトレーニングされた分類器の TPR を示しており、さまざまな JPEG 品質 (最高品質 100 から最低品質 20 まで) の画像に対して評価されています。ここでは、AI 生成の顔 (FPR は 0.5%) を識別するための TPR が、品質 80 で TPR 94.3%、品質 60 で TPR 88.0% と、徐々に低下していることがわかります。繰り返しになりますが、JPEG 圧縮アーティファクトが存在する状態で AI 生成の顔を検出できるということは、モデルが低レベルのアーティファクトにとらわれていないことを示しています。
セクション 4 で示したように、私たちの分類器は、さまざまな合成エンジンから生成された AI 顔を区別する能力に優れています。ただし、この分類器は顔のみに限定されています (表 2)。つまり、トレーニングで使用したのと同じ合成エンジンから顔以外の画像が提示された場合、分類器はそれらを AI 生成として分類することができません。
我々は、分類器が意味レベルのアーティファクトを学習した可能性があると仮定しています。この主張は、分類器が 128×128 ピクセルという低い解像度でも非常に正確であり (図 3(a))、かなり強力な JPEG 圧縮に対してもかなり正確である (図 3(b)) という事実によって部分的に裏付けられています。ここでは、構造レベルまたは意味レベルのアーティファクトを学習したという主張を裏付けるさらなる証拠を示します。
人間の視覚システムにおける汎用的な物体認識は物体の向き、姿勢、遠近法の歪みに対して非常に堅牢であるのに対し、顔の認識と処理は単純な反転に対してさえそれほど堅牢ではないことはよく知られています [27]。この効果は、古典的なマーガレット サッチャー錯視 [31] で楽しく説明されています。図 4 の上段の顔は、下段の顔の反転バージョンです。右側のバージョンでは、目と口が顔に対して反転しています。このグロテスクな特徴の組み合わせは、正立した顔では明らかですが、反転した顔では明らかではありません。
私たちの分類器は分類に苦労するのではないかと考えました
垂直に反転した顔。同じ 10,000 枚の検証画像 (セクション 2.6) を反転して再分類しました。同じ 0.5% の固定 FPR で、TPR は 98.0% から 77.7% に 20 パーセント ポイント低下しました。
比較すると、検証画像を垂直軸のみで反転(左右反転)すると、TPR は 98.0% のまま変化せず、FPR は同じ 0.5% になります。この 2 つの結果と、解像度と圧縮品質に対する堅牢性を組み合わせると、モデルが低レベルのアーティファクトにとらわれているのではなく、AI 生成の顔と実際の顔を区別する構造的または意味的な特性を発見した可能性があることが示唆されます。
さらに、統合勾配法 [28] を使用して分類器の性質を調査します。この方法は、ディープ ネットワークによる予測を入力特徴に帰属させます。この方法は、トレーニング済みのモデルに変更を加えることなく適用できるため、モデルの決定に対する各入力画像ピクセルの関連性を計算できます。
図 5(a) に示されているのは、100 枚の StyleGAN 2 画像にわたって平均化された (範囲 [0, 1] に) 統合勾配の符号なし大きさです (StyleGAN で生成された顔はすべて揃っているため、平均勾配はすべての画像にわたって顔の特徴と一致しています)。図 5(b) ~ (e) に示されているのは、DALL-2、Midjourney、Stable Diffusion 1、および Stable Diffusion 2 によって生成された画像の代表的な画像とそれらの正規化された統合勾配です。すべてのケースで、より大きな勾配に対応する最も関連性の高いピクセルは、主に顔の領域と皮膚の他の領域に集中していることがわかります。
[23]の研究は、GANで生成された顔の検出に特化しているため、私たちの研究と最も直接的に関連しています。この研究では、著者らは、低次元の線形モデルがStyleGANで生成された顔の一般的な顔の配置を捉えていることを示しています。3,000のStyleGANの顔に対して評価したところ、彼らのモデルはGANの顔の99.5%を正しく分類し、実際の顔の1%がAIとして誤って分類されました。比較すると、私たちは同様のTPRを達成しましたが、FPRは0.5%と低くなっています。
しかし、generated.photos などの他の GAN 顔に一般化する私たちのアプローチとは異なり、この以前の作業の TPR は 86.0% に低下します (同じ 1% の FPR で)。さらに、この以前の作業では、拡散ベースの顔を検出できません。これは、これらの顔には StyleGAN の顔と同じアライメント アーティファクトが含まれていないためです。これに比べて、私たちの手法は、GAN および拡散で生成された顔全体、およびトレーニングでは見られなかった合成エンジンに一般化されます。
また、AI生成画像に存在するフーリエアーティファクトを活用する最新のモデルも評価しました[8]。実際の顔とエンジン内のAI生成顔の評価データセットでは、このモデルはAI生成顔の23.8%のみを、同じFPR 0.5%で正しく分類しました。このTPRは、私たちのモデルのTPR 98.0%よりもかなり低く、[8]で報告された90%TPRよりも低いです。この矛盾は、私たちのデータセットの実際の画像がより多様で難しいためではないかと仮説を立てています。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
[8] 真陽性率(TPR)は、AIによって生成された写真が正しく分類された割合です。
[9] 偽陽性率(FPR)は、誤って分類された実際の写真の割合です。