6,193 測定値

すべてのディープフェイク検出器が同じように作られているわけではない

に Sumsub11m2023/11/28

長すぎる; 読むには

Sumsub は、過去数年間のディープフェイク検出器の機能と進歩についてのリアリティチェックを共有します。

featured image - すべてのディープフェイク検出器が同じように作られているわけではない

‘a club bouncer checking to see whether someone is a robot’ Image created by HackerNoon AI Image Generator

ディープフェイクはここ数年増加しており、複数の顔交換ツールが詐欺師や組織犯罪グループの間で人気を集めています。

ユーロポールの報告書によると「現実に直面していますか？法執行機関とディープフェイクへの挑戦ディープフェイクは、CEOの詐欺、証拠改ざん、同意のないポルノの制作など、より重大な犯罪にも使用される可能性があります。

ただし、AI に関連するあらゆるものと同様に、詐欺師と最新のディープフェイク検出器の間では常に軍拡競争が行われています。国際詐欺啓発週間を記念して、私たちは過去数年間のディープフェイク検出器の機能と進歩についてのリアリティチェックを提供したいと考えました。リアリティチェックが必要なのは、ディープフェイク詐欺の問題が依然として非常に膨大であるためです。

当社の内部調査では、2020 年以降に公開されたオープンソースの最新のディープフェイク検出器のパフォーマンスを分析しました。

これが私たちの基本的な観察です。本物のコンテンツと偽物のコンテンツを区別することに関しては、コンピューターは長い間人間を上回っています。この発見は、最先端のアルゴリズムと手法の力を活用する必要性を強調しています。

この分野の主要な作品のほぼすべては、アルゴリズムの基本要素として顔検出を顕著に特徴としています。顔検出はほぼソリューションであり、完璧ではありませんが、それに近い精度の高さが特徴です。

顔が画像内で目立つ位置にあり、前方を向いている場合、最新の検出モデルは高速かつ信頼性の高い識別に優れています。

ディープフェイク画像を作成する方法はいくつかありますが、人気が高く堅牢な方法として際立っているのが、ワンショットの顔交換です。この技術では、ソースとターゲットの 2 つの画像を使用して、前者から後者に顔の特徴を転送します。

現在の状況では、ディープフェイク画像やビデオを作成するための最も強力なアプローチと考えられています。

あなたは私たちを試すことができますディープフェイクゲームあなた自身で、それをチェックしてください。

研究

関連研究の大部分に、すぐに利用できるコードと重みが欠如していることは、ディープフェイク検出の分野における共通の課題を浮き彫りにしています。

この状況では、科学の普及よりもビジネスアプリケーションが優先されることが多く、その結果、学術コミュニティや研究コミュニティに不可欠なツールやリソースへのアクセスが制限されます。

このコードとモデルの重みがオープンに共有されていないことが、ディープフェイク検出方法の広範な進歩にとって大きな障壁となっています。

ディープフェイク検出には数多くのアプローチがあり、カンファレンスごとに新しい記事が登場します。

これらの記事の一部は主にディープフェイク検出のためのモデルアーキテクチャに焦点を当てており、トランスフォーマーモデルから多大なインスピレーションを引き出し、それを課題に適応させることを試みています。

一方、他の記事では、トレーニング方法、特に偽の画像で満たされた合成データセットに焦点を当てています。この分野にはベンチマークが豊富にあります。次のセクションでは、その中で最も強力なもののいくつかについて説明し、オープンソースコードと利用可能な重みを備えたものに重点を置きます。

フェイスフォレンジック++

すべての最新のディープフェイク検出方法の最も顕著なベースラインは、論文で発表された研究です。 FaceForensics++: 操作された顔画像の検出方法を学習する。著者らの主な貢献は、1,000 本の YouTube 動画からの 180 万を超える画像の広範なデータセットであり、未加工、高品質、低品質のオプションに分類されています。

彼らはこれらの違いを検証するために人間の観察者を使用しました。この論文のディープフェイク分類モデルは、データセットに基づいて微調整された ImageNet 重みを備えた XceptionNet バックボーンに基づくバイナリシステムです。

モデルの応答に基づく単純な投票メカニズムを採用することで、モデルの構造が単純であるにもかかわらず、著者らはディープフェイク検出の分野で大きな影響を与えました。

マルチアテンションディープフェイク検出

著者らは、単純なバイナリ分類器アプローチへの依存を主な特徴とする以前のディープフェイク検出モデルに共通する問題を強調しています。

本物の画像と偽の画像の間の微妙な区別を考慮しない、基本的なバイナリ分類子アプローチ。著者らはここで、複数のアテンションヘッドを備えたマルチアテンションネットワークを使用して、さまざまなアーティファクト領域に焦点を当てる、きめの細かい分類にヒントを得た代替案を提案している。

このネットワークは、低レベルのテクスチャ特徴と高レベルのセマンティック特徴を組み合わせて、画像表現とトレーニング用の独特の注意誘導型データ拡張メカニズムを作成します。

このアプローチは既存のモデルの制限に対処し、ディープフェイク検出の有望な方法となっています。

ディープフェイク検出用のマルチモーダルマルチスケールトランスフォーマー

「M2TR」の著者:ディープフェイク検出用のマルチモーダルマルチスケールトランスフォーマー」は、偽のコンテンツが表示される可能性のある画像内の特定の領域に焦点を当てることの重要性を強調しています。

彼らは、周波数フィルターを使用して、圧縮後に表示されない可能性のあるアーティファクトを検出する、マルチスケール構造を備えたマルチモーダルなアプローチを導入しています。

さらに、セルフアテンションからインスピレーションを得た Cross-Modality Fusion ブロックを採用し、RGB と周波数の特徴を統一表現にマージし、ディープフェイクの検出方法を強化しています。

顔偽造検出のためのエンドツーエンドの再構成-分類学習

で " 顔偽造検出のためのエンドツーエンドの再構成-分類学習」の著者らは、考えられるすべての操作を網羅しているわけではない特定の偽造パターンに焦点を当てたディープフェイク検出方法に共通する問題に取り組んでいます。

彼らは、再構成学習と分類学習という 2 つのコンポーネントに基づくアプローチを提案しています。

再構成学習により表現が強化され、未知の偽造パターンが検出されます。

分類学習により、本物の画像と偽の画像の間の差異が特定されます。

著者らは、専用の再構成ネットワークを使用して本物の顔をモデル化し、計量学習損失を使用してこれまで知られていなかった偽造パターンの検出を強化することで、これらの表現を改善するためにマルチスケールのアプローチを採用しています。

暗黙的な ID 漏洩: ディープフェイク検出の一般化を改善するための障害

作品の中で、「暗黙的な ID 漏洩: ディープフェイク検出の一般化を改善するための障害著者らは、ディープフェイクの検出に関する重要な問題に取り組んでいます。多くのディープフェイクモデルは顔交換技術に基づいており、これが特有の課題につながる可能性があると指摘しています。

これらのモデルは本物の ID の分布を記憶する傾向があるため、偽の画像が 2 つの異なる ID の混合として表示される場合があります。ただし、この問題は、これらのモデルを新しいデータセット、見たことのないデータセット、または複数のデータセットに適用しようとする場合に特に困難になります。このような場合、モデルはこれまで画像に遭遇したことがないため、その画像の正体を解読するのに苦労します。

著者らは「暗黙的アイデンティティ漏洩」と呼ぶこの問題に対処するために、トレーニングデータセットの範囲を超えてディープフェイク検出モデルの一般化を改善する解決策を見つけるよう努めています。

この現象の証拠を提供するために、著者らは最初に事前トレーニングされたディープフェイク分類器を使用し、最後の層を除くすべての層を凍結しました。彼らは最後のレイヤーを線形レイヤーに置き換え、ID 分類タスク用に微調整しました。

この実験は、単一の線形層を効果的にトレーニングして ID を高精度に分類できることを示し、ID 漏洩の可能性を示しました。次に、著者らは、顔の特定の領域を交換することに主な焦点を当てて、異なるスケールで顔の一部を交換するための新しい方法を作成しました。

次に、このプロセスで生成された画像を利用して、マルチスケール検出モデルをトレーニングしました。このモデルは、さまざまなレイヤーのさまざまなサイズの特徴マップを精査してアーティファクト領域の存在を検出し、ディープフェイク操作の可能性のある信号を徹底的に観察します。

自己ブレンド画像によるディープフェイクの検出

ディープフェイク検出の分野における最新の注目すべき論文は「自己ブレンド画像によるディープフェイクの検出この研究では、著者らは独自のデータセットを使用して独自のモデルをトレーニングするという新しいアプローチを採用しました。

このデータセットは、個々の元の画像から派生した疑似ソース画像とターゲット画像のブレンドによって生成された画像で構成されます。このプロセスは、ディープフェイクでよく見られる一般的な偽造アーティファクトを効果的に複製します。

このアプローチの背後にある重要な洞察は、より一般的で認識しにくい偽のサンプルを使用することで、分類器が操作固有のアーティファクトに過剰適合することなく、より一般的で堅牢な表現を学習できるということです。

著者らは、一般的なディープフェイクアーティファクトの主な 4 つのタイプ、つまりランドマークの不一致、混合境界、色の不一致、および周波数の不一致を特定しています。次に、特殊なモデルを使用してこれらのアーティファクトを合成します。

モデルアーキテクチャとして、著者らは ImageNet データセットで事前トレーニングされた EfficientNet-b4 を採用しました。彼らは、自己ブレンド画像 (SBI) データセットに基づいてこのモデルを微調整し、一般的な偽造アーティファクトを含むこれらのブレンド画像から学習することで、モデルがディープフェイクの検出に熟達していることを保証します。

私たちの実験。メトリクスとデータセット

私たちは、2020 年以降に公開された最新のディープフェイク検出器のパフォーマンスを分析し、そのコードとモデルの重みを公開および研究で利用できるようにしました。

著者によって開示された品質がどのように同様のデータセットに転送されるかを確認するために、同じ公開データセット上の各モデルに関連するメトリクスを計算しました。次に、詐欺師が検証 (顔の交換など) を回避するために頻繁に使用する単純な変換を適用し、ディープフェイク検出器がどれほど効率的に機能するかを確認しました。

私たちが使用したセレバ本社そしてLFWグラウンドトゥルースリアル画像のベースデータセットとして。どちらも研究開発で広く使用されています。これら 2 つのデータセットからの画像は、ほとんどのコンピュータービジョンタスクの「ドメイン」画像として分類できます。

グラウンドトゥルースの偽画像データセットを導入するために、最先端のSimSwapと呼ばれる2021年のディープフェイクモデル。これは今でも、最高かつ最も人気のある 1 枚の写真のディープフェイクジェネレーターとして多くの人に考えられています。

十分な量の画像を生成するために、データセットからソース写真と参照写真のランダムなペアを使用して、Fake-Celeba-HQ と Fake-LFW を作成しました。各データセットはちょうど 10,000 枚の画像です。

わかりやすくするために、モデルの品質を測定するための主なメトリックには、デフォルトのしきい値 0.5 で 1 クラスの精度を使用しました。言い換えれば、データセットごとに、正しく推測されたラベルの割合を計算しました。さらに、本物のデータセットと偽のデータセットを組み合わせた合計 ROC-AUC メトリクスを計算します。

実験1:

	LFW	セレバ本社	フェイクLFW	偽セレバHQ	AUCスコア
SBI	0.82	0.57	0.82	0.96	0.84
CADDM	0.49	0.69	0.80	0.54	0.67
試走	0.01	0.00	0.98	0.00	0.54
マット	0.00	0.74	1.	1.	0.75
FF++	0.13	0.67	0.88	0.53	0.57
M2TR	0.42	0.56	0.69	0.51	0.56

表 1. 変更なしの本物/偽データセットの 1 クラスの精度と AUC

予想通り、ほとんどのモデルには SimSwap ディープフェイクの検出にいくつかの問題がありました。最良のモデルは SBI で、スコアは 82% と 96% で、期待できる AUC スコアは 0.84 です。

予想外なのは、実際のデータセットからの画像を本物として分類するのが難しい有能なモデルが多数存在することです。

RECCE は、本物の画像のほとんどを偽物として採点しました。

MAT、FF、M2TR がディープフェイクとしてスコア付けしたのは、LFW の顔の半分未満でした。

AUC スコアが 0.5 に近いモデルが 3 つあります。このため、これらのモデルをより現実的な領域に移行できるかどうか、また、どのようにして詐欺師が簡単に回避できるかについて疑問が生じます。

実験 2:

これらのモデルがより現実的なドメインでどのように動作するかをテストするために、詐欺師がディープフェイクを使用するときに通常悪用する 2 つの異なる手法を試します。

アーティファクトや不規則性のほとんどを隠すために彼らが最初に行うことは、スケールダウンです。ほとんどのライブネスチェックとディープフェイクチェックではビデオ品質に関する要件がないため、詐欺師は通常ディープフェイクビデオを圧縮します。

このアプローチをシミュレートするには、同じデータセットを使用しますが、双線形アルゴリズムを使用して各画像をはるかに小さい解像度 (128x128) に圧縮します。理想的には、ディープフェイク検出器は、推論時の画像の解像度がトレーニングプロセス中の解像度と異なる場合でも、ディープフェイクを検出できる必要があります。

	LFW	セレバ本社	フェイクLFW	偽セレバHQ	AUCスコア
SBI	0.82	0.82	0.43	0.23	0.6
CADDM	0.55	0.46	0.62	0.65	0.6
試走	0.83	0.89	0.13	0.08	0.54
MAT c40	1.	1.	0.	0.	0.5

図 2: 低品質のデータセットにおけるディープフェイク検出器の最高のメトリクス

ここでの結果は混乱を招くだけではありません。多かれ少なかれ競争力のあるパフォーマンスを達成していたモデルは、現在、偽のデータセットに対してほぼゼロの精度を持っています。 MAT モデルは単純にすべてを実際の画像としてスコア付けし、RECCE モデルは同じ決定に非常に近いことがわかります。

実験 3:

2 番目の詐欺行為は、画像を拡大してディープフェイク画像をレタッチし、捏造された画像を検出器に「提供」する可能性があるすべての欠陥を除去することです。そのような多くの例の 1 つは目です。ほとんどのディープフェイク画像には丸い瞳孔や光の屈折がありません。

そのため、詐欺師は通常、Instagram や TikTok で使用されているものと同様の特定の美化または「強化」ソフトウェアを使用して、すべての不純物を隠します。

このようなソフトウェアの効果をシミュレートするために、私たちはその密接に関連したソフトウェアを使用しました。オープンソースアナログ: GPEN 。 GANを利用して顔を拡大・強化するエンハンサーです。

	LFW	セレバ本社	フェイクLFW	偽セレバHQ	AUCスコア
SBI	0.76	0.63	0.38	0.58	0.62
CADDM	0.52	0.71	0.59	0.38	0.57
試走	0.18	0.	0.8	1.	0.52
MAT c40	0.99	1.	0.	0.	0.5

図 3: 強化されたデータセットにおけるディープフェイク検出器の優れたメトリクス

ここでは、実験 2 と同じ傾向が見られます。MAT モデルはすべてを本物としてスコア付けし、RECCE はすべてを偽物としてスコア付けしました。 SBI と CADDM のパフォーマンスはランダムよりも優れていますが、Fake-LFW および Fake-CELEBA-HQ データセット内のディープフェイクの半分以上を見逃していました。

結論

100% 安全なオープンソースのディープフェイク検出器は存在しないため、この研究の結果は暗いものですが、その生成が容易かつ安価になっているため、ディープフェイク詐欺はさらに発展すると予想されます。 Sumsub の内部統計によると、ディープフェイク詐欺の蔓延は 2022 年から 2023 年の第 1 四半期にかけて大幅に増加しました。

2022 年から 2023 年第 1 四半期にかけて、すべての詐欺タイプに占めるディープフェイクの割合は、カナダで 4,500%、米国で 1,200%、ドイツで 407%、英国で 392% 増加しました。

2023 年第 1 四半期、最も多くのディープフェイクが発生したのはイギリスとスペインで、世界のディープフェイク詐欺のうちそれぞれ 11.8% と 11.2% を占め、次いでドイツ (6.7%)、オランダ (4.7%) でした。米国は 5 位で、世界のディープフェイク詐欺事件の 4.3% を占めています。

私たちの実験は、ディープフェイクの検出に関してやるべきことがまだたくさんあることを示しています。最高のオープンソースのディープフェイク検出モデルであっても、現実世界に対応する準備ができていないため、詐欺師と戦うことはできません。

ディープフェイク検出器に関する論文は数多くありますが、そのほとんどには利用可能なコードやモデルの重みがありません。

そのため、ここでの問題の 1 つは、ディープフェイク検出方法の改善に障壁となるオープン性の欠如です。

したがって、Sumsub では次のことを行います。