ディープフェイクはここ数年増加しており、複数の顔交換ツールが詐欺師や組織犯罪グループの間で人気を集めています。
ユーロポールの報告書によると「
ただし、AI に関連するあらゆるものと同様に、詐欺師と最新のディープフェイク検出器の間では常に軍拡競争が行われています。国際詐欺啓発週間を記念して、私たちは過去数年間のディープフェイク検出器の機能と進歩についてのリアリティ チェックを提供したいと考えました。リアリティ チェックが必要なのは、ディープフェイク詐欺の問題が依然として非常に膨大であるためです。
当社の内部調査では、2020 年以降に公開されたオープンソースの最新のディープフェイク検出器のパフォーマンスを分析しました。
これが私たちの基本的な観察です。本物のコンテンツと偽物のコンテンツを区別することに関しては、コンピューターは長い間人間を上回っています。この発見は、最先端のアルゴリズムと手法の力を活用する必要性を強調しています。
この分野の主要な作品のほぼすべては、アルゴリズムの基本要素として顔検出を顕著に特徴としています。顔検出はほぼソリューションであり、完璧ではありませんが、それに近い精度の高さが特徴です。
顔が画像内で目立つ位置にあり、前方を向いている場合、最新の検出モデルは高速かつ信頼性の高い識別に優れています。
ディープフェイク画像を作成する方法はいくつかありますが、人気が高く堅牢な方法として際立っているのが、ワンショットの顔交換です。この技術では、ソースとターゲットの 2 つの画像を使用して、前者から後者に顔の特徴を転送します。
現在の状況では、ディープフェイク画像やビデオを作成するための最も強力なアプローチと考えられています。
あなたは私たちを試すことができます
関連研究の大部分に、すぐに利用できるコードと重みが欠如していることは、ディープフェイク検出の分野における共通の課題を浮き彫りにしています。
この状況では、科学の普及よりもビジネス アプリケーションが優先されることが多く、その結果、学術コミュニティや研究コミュニティに不可欠なツールやリソースへのアクセスが制限されます。
このコードとモデルの重みがオープンに共有されていないことが、ディープフェイク検出方法の広範な進歩にとって大きな障壁となっています。
ディープフェイク検出には数多くのアプローチがあり、カンファレンスごとに新しい記事が登場します。
これらの記事の一部は主にディープフェイク検出のためのモデル アーキテクチャに焦点を当てており、トランスフォーマー モデルから多大なインスピレーションを引き出し、それを課題に適応させることを試みています。
一方、他の記事では、トレーニング方法、特に偽の画像で満たされた合成データセットに焦点を当てています。この分野にはベンチマークが豊富にあります。次のセクションでは、その中で最も強力なもののいくつかについて説明し、オープンソース コードと利用可能な重みを備えたものに重点を置きます。
すべての最新のディープフェイク検出方法の最も顕著なベースラインは、論文で発表された研究です。
彼らはこれらの違いを検証するために人間の観察者を使用しました。この論文のディープフェイク分類モデルは、データセットに基づいて微調整された ImageNet 重みを備えた XceptionNet バックボーンに基づくバイナリ システムです。
モデルの応答に基づく単純な投票メカニズムを採用することで、モデルの構造が単純であるにもかかわらず、著者らはディープフェイク検出の分野で大きな影響を与えました。
著者らは、単純なバイナリ分類器アプローチへの依存を主な特徴とする以前のディープフェイク検出モデルに共通する問題を強調しています。
本物の画像と偽の画像の間の微妙な区別を考慮しない、基本的なバイナリ分類子アプローチ。著者らはここで、複数のアテンションヘッドを備えたマルチアテンションネットワークを使用して、さまざまなアーティファクト領域に焦点を当てる、きめの細かい分類にヒントを得た代替案を提案している。
このネットワークは、低レベルのテクスチャ特徴と高レベルのセマンティック特徴を組み合わせて、画像表現とトレーニング用の独特の注意誘導型データ拡張メカニズムを作成します。
このアプローチは既存のモデルの制限に対処し、ディープフェイク検出の有望な方法となっています。
「M2TR」の著者:
彼らは、周波数フィルターを使用して、圧縮後に表示されない可能性のあるアーティファクトを検出する、マルチスケール構造を備えたマルチモーダルなアプローチを導入しています。
さらに、セルフアテンションからインスピレーションを得た Cross-Modality Fusion ブロックを採用し、RGB と周波数の特徴を統一表現にマージし、ディープフェイクの検出方法を強化しています。
で "
彼らは、再構成学習と分類学習という 2 つのコンポーネントに基づくアプローチを提案しています。
分類学習により、本物の画像と偽の画像の間の差異が特定されます。
著者らは、専用の再構成ネットワークを使用して本物の顔をモデル化し、計量学習損失を使用してこれまで知られていなかった偽造パターンの検出を強化することで、これらの表現を改善するためにマルチスケールのアプローチを採用しています。
作品の中で、「
これらのモデルは本物の ID の分布を記憶する傾向があるため、偽の画像が 2 つの異なる ID の混合として表示される場合があります。ただし、この問題は、これらのモデルを新しいデータセット、見たことのないデータセット、または複数のデータセットに適用しようとする場合に特に困難になります。このような場合、モデルはこれまで画像に遭遇したことがないため、その画像の正体を解読するのに苦労します。
著者らは「暗黙的アイデンティティ漏洩」と呼ぶこの問題に対処するために、トレーニング データセットの範囲を超えてディープフェイク検出モデルの一般化を改善する解決策を見つけるよう努めています。
この現象の証拠を提供するために、著者らは最初に事前トレーニングされたディープフェイク分類器を使用し、最後の層を除くすべての層を凍結しました。彼らは最後のレイヤーを線形レイヤーに置き換え、ID 分類タスク用に微調整しました。
この実験は、単一の線形層を効果的にトレーニングして ID を高精度に分類できることを示し、ID 漏洩の可能性を示しました。次に、著者らは、顔の特定の領域を交換することに主な焦点を当てて、異なるスケールで顔の一部を交換するための新しい方法を作成しました。
次に、このプロセスで生成された画像を利用して、マルチスケール検出モデルをトレーニングしました。このモデルは、さまざまなレイヤーのさまざまなサイズの特徴マップを精査してアーティファクト領域の存在を検出し、ディープフェイク操作の可能性のある信号を徹底的に観察します。
ディープフェイク検出の分野における最新の注目すべき論文は「
このデータセットは、個々の元の画像から派生した疑似ソース画像とターゲット画像のブレンドによって生成された画像で構成されます。このプロセスは、ディープフェイクでよく見られる一般的な偽造アーティファクトを効果的に複製します。
このアプローチの背後にある重要な洞察は、より一般的で認識しにくい偽のサンプルを使用することで、分類器が操作固有のアーティファクトに過剰適合することなく、より一般的で堅牢な表現を学習できるということです。
著者らは、一般的なディープフェイク アーティファクトの主な 4 つのタイプ、つまりランドマークの不一致、混合境界、色の不一致、および周波数の不一致を特定しています。次に、特殊なモデルを使用してこれらのアーティファクトを合成します。
モデル アーキテクチャとして、著者らは ImageNet データセットで事前トレーニングされた EfficientNet-b4 を採用しました。彼らは、自己ブレンド画像 (SBI) データセットに基づいてこのモデルを微調整し、一般的な偽造アーティファクトを含むこれらのブレンド画像から学習することで、モデルがディープフェイクの検出に熟達していることを保証します。
私たちは、2020 年以降に公開された最新のディープフェイク検出器のパフォーマンスを分析し、そのコードとモデルの重みを公開および研究で利用できるようにしました。
著者によって開示された品質がどのように同様のデータセットに転送されるかを確認するために、同じ公開データセット上の各モデルに関連するメトリクスを計算しました。次に、詐欺師が検証 (顔の交換など) を回避するために頻繁に使用する単純な変換を適用し、ディープフェイク検出器がどれほど効率的に機能するかを確認しました。
私たちが使用した
グラウンド トゥルースの偽画像データセットを導入するために、最先端の
十分な量の画像を生成するために、データセットからソース写真と参照写真のランダムなペアを使用して、Fake-Celeba-HQ と Fake-LFW を作成しました。各データセットはちょうど 10,000 枚の画像です。
わかりやすくするために、モデルの品質を測定するための主なメトリックには、デフォルトのしきい値 0.5 で 1 クラスの精度を使用しました。言い換えれば、データセットごとに、正しく推測されたラベルの割合を計算しました。さらに、本物のデータセットと偽のデータセットを組み合わせた合計 ROC-AUC メトリクスを計算します。
LFW | セレバ本社 | フェイクLFW | 偽セレバHQ | AUCスコア | |
---|---|---|---|---|---|
SBI | 0.82 | 0.57 | 0.82 | 0.96 | 0.84 |
CADDM | 0.49 | 0.69 | 0.80 | 0.54 | 0.67 |
試走 | 0.01 | 0.00 | 0.98 | 0.00 | 0.54 |
マット | 0.00 | 0.74 | 1. | 1. | 0.75 |
FF++ | 0.13 | 0.67 | 0.88 | 0.53 | 0.57 |
M2TR | 0.42 | 0.56 | 0.69 | 0.51 | 0.56 |
表 1. 変更なしの本物/偽データセットの 1 クラスの精度と AUC
予想通り、ほとんどのモデルには SimSwap ディープフェイクの検出にいくつかの問題がありました。最良のモデルは SBI で、スコアは 82% と 96% で、期待できる AUC スコアは 0.84 です。
予想外なのは、実際のデータセットからの画像を本物として分類するのが難しい有能なモデルが多数存在することです。
MAT、FF、M2TR がディープフェイクとしてスコア付けしたのは、LFW の顔の半分未満でした。
AUC スコアが 0.5 に近いモデルが 3 つあります。このため、これらのモデルをより現実的な領域に移行できるかどうか、また、どのようにして詐欺師が簡単に回避できるかについて疑問が生じます。
これらのモデルがより現実的なドメインでどのように動作するかをテストするために、詐欺師がディープフェイクを使用するときに通常悪用する 2 つの異なる手法を試します。
アーティファクトや不規則性のほとんどを隠すために彼らが最初に行うことは、スケールダウンです。ほとんどのライブネスチェックとディープフェイクチェックではビデオ品質に関する要件がないため、詐欺師は通常ディープフェイクビデオを圧縮します。
このアプローチをシミュレートするには、同じデータセットを使用しますが、双線形アルゴリズムを使用して各画像をはるかに小さい解像度 (128x128) に圧縮します。理想的には、ディープフェイク検出器は、推論時の画像の解像度がトレーニング プロセス中の解像度と異なる場合でも、ディープフェイクを検出できる必要があります。
LFW | セレバ本社 | フェイクLFW | 偽セレバHQ | AUCスコア | |
---|---|---|---|---|---|
SBI | 0.82 | 0.82 | 0.43 | 0.23 | 0.6 |
CADDM | 0.55 | 0.46 | 0.62 | 0.65 | 0.6 |
試走 | 0.83 | 0.89 | 0.13 | 0.08 | 0.54 |
MAT c40 | 1. | 1. | 0. | 0. | 0.5 |
図 2: 低品質のデータセットにおけるディープフェイク検出器の最高のメトリクス
ここでの結果は混乱を招くだけではありません。多かれ少なかれ競争力のあるパフォーマンスを達成していたモデルは、現在、偽のデータセットに対してほぼゼロの精度を持っています。 MAT モデルは単純にすべてを実際の画像としてスコア付けし、RECCE モデルは同じ決定に非常に近いことがわかります。
2 番目の詐欺行為は、画像を拡大してディープフェイク画像をレタッチし、捏造された画像を検出器に「提供」する可能性があるすべての欠陥を除去することです。そのような多くの例の 1 つは目です。ほとんどのディープフェイク画像には丸い瞳孔や光の屈折がありません。
そのため、詐欺師は通常、Instagram や TikTok で使用されているものと同様の特定の美化または「強化」ソフトウェアを使用して、すべての不純物を隠します。
このようなソフトウェアの効果をシミュレートするために、私たちはその密接に関連したソフトウェアを使用しました。
LFW | セレバ本社 | フェイクLFW | 偽セレバHQ | AUCスコア | |
---|---|---|---|---|---|
SBI | 0.76 | 0.63 | 0.38 | 0.58 | 0.62 |
CADDM | 0.52 | 0.71 | 0.59 | 0.38 | 0.57 |
試走 | 0.18 | 0. | 0.8 | 1. | 0.52 |
MAT c40 | 0.99 | 1. | 0. | 0. | 0.5 |
図 3: 強化されたデータセットにおけるディープフェイク検出器の優れたメトリクス
ここでは、実験 2 と同じ傾向が見られます。MAT モデルはすべてを本物としてスコア付けし、RECCE はすべてを偽物としてスコア付けしました。 SBI と CADDM のパフォーマンスはランダムよりも優れていますが、Fake-LFW および Fake-CELEBA-HQ データセット内のディープフェイクの半分以上を見逃していました。
100% 安全なオープンソースのディープフェイク検出器は存在しないため、この研究の結果は暗いものですが、その生成が容易かつ安価になっているため、ディープフェイク詐欺はさらに発展すると予想されます。 Sumsub の内部統計によると、ディープフェイク詐欺の蔓延は 2022 年から 2023 年の第 1 四半期にかけて大幅に増加しました。
私たちの実験は、ディープフェイクの検出に関してやるべきことがまだたくさんあることを示しています。最高のオープンソースのディープフェイク検出モデルであっても、現実世界に対応する準備ができていないため、詐欺師と戦うことはできません。
ディープフェイク検出器に関する論文は数多くありますが、そのほとんどには利用可能なコードやモデルの重みがありません。
そのため、ここでの問題の 1 つは、ディープフェイク検出方法の改善に障壁となるオープン性の欠如です。
したがって、Sumsub では次のことを行います。
それでも、インターネット ユーザーの画像をオンラインで保護する主な責任はユーザー自身にあります。個人の写真をオンラインで共有する場合は注意してください。私たちの著者と同じように、代わりにスタイリッシュなアバターを使用することをお勧めします。
そして
Sumsub のリード コンピュータ ビジョン エンジニアである Maksim Artemev とコンピュータ ビジョン エンジニアである Slava Pirogov が執筆