paint-brush
AI 生成の顔の発見: データセット@botbeat
186 測定値

AI 生成の顔の発見: データセット

長すぎる; 読むには

AI はオンライン詐欺のためにリアルな偽の顔を作成できます。この研究では、画像内で AI によって生成された顔を検出する方法を提案します。
featured image - AI 生成の顔の発見: データセット
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

著者:

(1)ゴンザロ・J・アニアーノ・ポルシル、LinkedIn

(2)ジャック・ギンディ、LinkedIn

(3)シヴァンシュ・ムンドラ、LinkedIn

(4)ジェームズ・R・バーバス、LinkedIn

(5)ハニー・ファリド、LinkedInおよびカリフォルニア大学バークレー校。

リンク一覧

2. データセット

私たちのトレーニングと評価では、5 つの異なる GAN と 5 つの異なる拡散合成エンジンにまたがる 120,000 枚の実際の LinkedIn プロフィール写真と 105,900 枚の AI 生成顔画像からなる 18 のデータ セットを活用しています。AI 生成画像は、顔ありと顔なしの 2 つの主なカテゴリで構成されています。実際の画像と合成カラー (RGB) 画像は、元の解像度から 512 × 512 ピクセルにサイズ変更されます。表 1 にこれらの画像の一覧を示し、図 2 に次に説明する AI 生成カテゴリのそれぞれからの代表的な例を示します。

2.1. 本当の顔

120,000枚の本物の写真は、2019年1月1日から2022年12月1日の間にアップロードされた、公開アクセス可能なプロフィール写真を持つLinkedInユーザーからサンプリングされました。これらのアカウントは、偽アカウント検出器をトリガーすることなく、少なくとも30日間プラットフォーム上でアクティビティ(サインイン、投稿、メッセージ、検索など)を示していました。アカウントの築年数とアクティビティを考えると、これらの写真は本物であると確信できます。これらの画像の解像度と品質は大きく異なっていました。これらの画像のほとんどは、1人の人物で構成された標準的なプロフィール写真ですが、顔が含まれていないものもあります。対照的に、AI生成画像(次に説明)はすべて顔で構成されています。本物の画像と偽の画像のこの違いについては、セクション4で再度検討します。

2.2. GAN フェイス


図 2. トレーニングと評価に使用した AI 生成画像の代表的な例 (表 1 も参照)。一部の合成エンジンは顔のみを生成するために使用され、他の合成エンジンは顔と非顔の両方を合成するために使用されました。ユーザーのプライバシーを尊重するため、実際の写真の例は示していません。



2、3では、カラー画像は1024×1024ピクセルの解像度、ψ = 0.5で合成されました。[1] StyleGANのいわゆる3DバージョンであるEG3D(Efficient Geometry-aware 3D Generative Adversarial Networks)では、512×512の解像度、ψ = 0.5、ランダムな頭部ポーズで10,000枚の画像を合成しました。


generated.photos[2]から、解像度1024×1024ピクセルの画像が合計10,000枚ダウンロードされました。これらのGAN合成画像は、写真スタジオで記録された高品質の画像のデータセットでネットワークがトレーニングされているため、一般的に、よりプロフェッショナルな外観のヘッドショットを生成します。

2.3. GAN 非顔

寝室、車、猫の3つの顔以外のカテゴリごとに合計5,000枚のStyleGAN 1画像がダウンロードされました[3](他のStyleGANバージョンのリポジトリでは顔以外のカテゴリの画像は提供されていません)。これらの画像のサイズは512×384(車)から256×256(寝室と猫)まででした。

2.4. 拡散面

我々は、Stable Diffusion [26]の各バージョン(1、2)[4]から9,000枚の画像を生成した。上述のGANの顔とは異なり、テキストから画像への拡散合成では、顔の外観をより細かく制御できる。多様性を確保するため、30の人口統計ごとに300枚の顔を用意し、「{若者、中年、高齢者}、{黒人、東アジア人、ヒスパニック、南アジア人、白人}、{女性、男性}の写真」というプロンプトを出した。これらの画像は、512×512の解像度で合成された。このデータセットは、顔が見えないなどの明らかな合成の失敗を除去するようにキュレーションされている。


さらに、最新バージョンの Stable Diffusion (xl) から 900 枚の画像が合成されました。以前と同じ人口統計カテゴリを使用して、30 のカテゴリごとに 30 枚の画像が生成され、各画像の解像度は 768 × 768 でした。


DALL-E 2 [5]から30の人口統計グループごとに300枚の画像、計9,000枚の画像を生成した。これらの画像は512×512ピクセルの解像度で合成された。


合計1,000枚のMidjourney[6]画像が512×512の解像度でダウンロードされました。これらの画像は、1つの顔のみで構成されるように手動でキュレーションされました。

2.5. 拡散非面

Stable Diffusion の 2 つのバージョン (1、2) から、顔以外の画像をそれぞれ 1,000 枚合成しました。これらの画像は、ランダム キャプション (ChatGPT によって生成) を使用して生成され、手動で確認されて人物や顔を含む画像が削除されました。これらの画像は、600 × 600 ピクセルの解像度で合成されました。同様の 1,000 枚の DALL-E 2 画像と 1,000 枚の Midjourney 画像のセットは、512 × 512 の解像度で合成されました。

2.6. トレーニングと評価データ

上記の画像セットは、次のようにトレーニングと評価に分割されます。私たちのモデル (セクション 3 で説明) は、30,000 の実際の顔と 30,000 の AI 生成顔のランダム サブセットでトレーニングされます。AI 生成顔は、5,250 の StyleGAN 1、5,250 の StyleGAN 2、4,500 の StyleGAN 3、3,750 の Stable Diffusion 1、3,750 の Stable Diffusion 2、および 7,500 の DALL-E 2 画像のランダム サブセットで構成されています。


私たちは以下の基準でモデルを評価します。


• トレーニングで使用されたものと同じ合成エンジン (StyleGAN 1、StyleGAN 2、StyleGAN 3、Stable Diffusion 1、Stable Diffusion 2、および DALL-E 2) からの 5,000 枚の顔画像のセット。


• トレーニングに使用されていない合成エンジンからの 5,000 枚の顔画像のセット (Generated.photos、EG3D、Stable Diffusion xl、Midjourney)。


• 5 つの合成エンジン (StyleGAN 1、DALL-E 2、Stable Diffusion 1、Stable Diffusion 2、Midjourney) のそれぞれから取得した 3,750 枚の非顔画像のセット。


• 13,750 枚の実際の顔のセット。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[1] StyleGANパラメータψ(通常は範囲[0, 1])は、画像生成に使用される潜在空間表現のシード値の切り捨てを制御します。ψの値が小さいほど画像の品質は向上しますが、顔の多様性は減少します。中間値ψ = 0.5では、比較的アーティファクトのない顔が生成され、合成された顔の性別、年齢、民族の多様性が許容されます。


[2] https://generated.photos/faces


[3] https://github.com/NVlabs/stylegan)


[4] https://github.com/安定性-AI/StableDiffusion


[5] https://openai.com/dall-e-2


[6] https://www.midjourney.com