顔認識 (FR) 技術は、セキュリティ強化の必要性と、低価格の消費者向けデバイス、航空機の搭乗、国境管理、金融サービスなどの業界全体にわたるアプリケーションの急増により、近年大幅に進歩しました。効果的な FR システムの中心には、重要なコンポーネントであるデータがあります。大規模なデータセットは、さまざまな状況で顔を正確に識別および検証できるようにこれらのモデルをトレーニングするために不可欠です。
FR の信頼性を高めるには、人口統計、照明、環境、表情、遮蔽などのさまざまなデータにモデルをさらす必要があります。これにより、展開の堅牢性と公平性が確保され、不慣れな状況に遭遇したときにバイアスや障害が発生するリスクが軽減されます。
genAI 技術を使用して作成された合成データセットは潜在的に役立つ可能性がありますが、現状では現実世界のデータセットを完全に置き換えることはできません。この記事では、合成 FR データセットの利点と欠点を探り、顔認識における genAI の現状を調査します。
LFW 、 Cfp-fp 、 Agedb-30 、 Ca-lfw 、 Cp-lfwは、FR モデルの検証パフォーマンスを評価するために最も広く使用されているデータセットの一部です。表 1 は、異なるサイズの実際の顔データセットで同じアルゴリズムを使用してトレーニングされた ML モデルの検証パフォーマンスを示しています。
データセットのサイズがモデルのパフォーマンスにどのように影響するか、また堅牢な FR モデルを取得するためにデータ取得を行う必要がある規模がわかります。検証とは、モデルに顔画像のペアが与えられ、顔のペアが同じ人物のものか、2 人の別々の人物のものかを予測することを意味します。モデル予測の検証精度のパーセンテージが報告されます。
データセット | ML | # トレーニング | |||||
---|---|---|---|---|---|---|---|
レスネット50 | 50万 | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
レスネット50 | 1200万 | 99.80 | 99.20 | 98.10 | -- | -- | |
レスネット50 | 1700万 | 99.83 | 99.33 | 98.55 | 96.21 | 94.78 |
表 1. 5 つの異なる FR ベンチマークにおける検証精度 (%)。公平な比較のため、すべての結果は同じ ML モデルとアルゴリズムを使用して公開されたオリジナルの研究から取得されています。
大規模なトレーニング データセットに加えて、データセットに含まれるバイアスが最小限であることも同様に重要です。まず、FR のコンテキストでバイアスが何を意味するかを理解することが重要です。一般に、機械学習モデルの場合、バイアスとは、モデルが異なるタイプの入力データにわたって均一に動作しないことを指します。FR モデルは、さまざまな方法でバイアスされる可能性があります。
最も一般的な例は民族バイアスであり、FR モデルは特定の民族の顔が提示されるとパフォーマンスが低下する傾向があります。
ただし、信頼性の高い FR モデルを取得するために対処する必要があるバイアスはこれだけではありません。年齢バイアス、性別バイアス、環境バイアス (顔を覆うもの、ひげなど) は、FR モデルがバイアスを示す可能性がある他の例です。これらのバイアスは、FR モデルのトレーニングに使用するデータセットに代表的なサンプルを収集して含めることで最小限に抑えることができます。
異なる民族、10 ~ 15 歳の年齢差がある人々の写真、または異なる背景、さまざまな照明条件、異なる表情を持つ人物の写真を入手することは、困難な作業となる場合があります。
さらに、FR 用のリアルワールド データの収集には、他にも数多くの課題があります。世界中から大規模かつ多様なデータを取得するにはコストがかかります。コストと技術的な制限に加え、倫理的およびプライバシー上の懸念から、データの取得はますます困難になっています。
生体認証データは、欧州のGDPR(
これらの法律は、各居住者の生体認証データの取得と保管を規制しており、大規模な生体認証データの取得をさらに複雑にしています。FR アプリケーションの需要が高まっていることを考えると、今こそ合成データの実行可能性を探り、スケーラブルで倫理的かつ法的に準拠した顔認識システムの開発における利点と欠点を検討する重要な時期です。
これらの課題と生成型 AI (genAI) の台頭により、現実世界の機密性の高い生体認証データを置き換える合成データを作成するための膨大な研究が促進されました。FR における合成データの現状を詳しく検討する前に、genAI が何を意味するかを理解することが重要です。
簡単に言えば、genAI はトレーニング済みのデータに基づいてテキスト、画像、音楽などの新しいコンテンツを作成できる人工知能の一種であり、生成されたデータは「合成データ」と呼ばれます。
顔認識用の GenAI は、さまざまな理由で特に魅力的です。最も注目すべきは、合成データセットが AI によって生成されることです。つまり、研究者、エンジニア、愛好家は、実際の個人から画像を取得する手動プロセスを経ることなく、データセットを構築 (およびトレーニング) できます。
実際の画像データセットの収集と使用に関するコンプライアンス要件の多くは合成データには存在せず、理論的には、実際の画像データでトレーニングされたアルゴリズムによって生じる可能性のあるバイアスは、合成データではより適切に説明できる可能性があります。
ただし、合成顔データセットはまだ万能薬ではありません。この記事の次のセクションでは、合成データセットの優れた点、不十分な点、顔認識における genAI の現状について説明します。
合成データには、顔認識技術の開発において貴重なツールとなるいくつかの利点があります。主な利点の 1 つは、合成データセットでは実際の人物の画像を取得する必要がないことです。合成データは実際の個人データを直接使用しないため、使用の同意や忘れられる権利などのプライバシー コンプライアンス要件は発生しません。
合成データを生成することは、膨大な量の現実世界のデータを収集して注釈を付けるよりもコスト効率が高い場合もあります。現実世界の膨大な量のデータを収集して注釈を付ける作業は、データセットが法的および倫理的に準拠していることを確認するために費やす時間とリソースに加えて、手作業で時間がかかり、費用のかかるプロセスです。合成データを使用すると、特定の変数を操作できる制御された環境を作成できるため、顔認識モデルのテストと微調整に役立ちます。
さらに、合成データを使用すると、特に現実世界のデータが不足している、収集が難しい、または法的要件や倫理的配慮によりそのような収集が不可能な状況で、大規模なデータセットの作成と取得が容易になります。GenAI メソッドは、既存の現実世界のデータセットを補完し、ギャップを埋めて人口統計的またはその他のバイアスを減らすためにも使用できます。
たとえば、公開されている大規模な顔データセットの多くは、主に白人のアイデンティティで構成されており、そのようなデータでトレーニングされた ML モデルでは人口統計学的バイアスが生じます。これは合成データセットで簡単に修正できます。
画像分野では、敵対的生成ネットワーク(GAN)がデータ生成に最もよく使われるモデルの1つです。Nvidiaの
しかし、これらの技術は、コスト、時間、生成できる一意のIDの数、パフォーマンスの点で限界があります。
理論的には、「本物そっくりの」顔と、民族、性別、ポーズ、照明、背景のバリエーションなど、制御された多様な属性を持つ合成データセットは、実際の「自然」データセットよりも優れたパフォーマンスを発揮するはずです。では、なぜこれらのデータセットでトレーニングされたモデルのパフォーマンスは、同じサイズの現実世界のデータセットでトレーニングされたモデルに遠く及ばないのでしょうか。この質問の答えは、現実世界のデータ自体の制御されていない特徴にあります。実際のデータにおけるバリエーションの大きさは、これまで公開されたどの研究でも完全には捉えられていません。
データセット内のすべての合成 ID のバリエーションの数が同じ限られた数しかないと、モデルのパフォーマンスが低下します。バリエーションを増やそうとすると、顔の ID も変化し、データにノイズが発生し、モデルのパフォーマンスが再び低下します。
表 2 は、異なる合成データセットでトレーニングされた同じ FR モデル アーキテクチャ (Resnet 50) のパフォーマンスを示しています。ほぼ同じサイズの本物のデータセットでトレーニングされたモデルのベースライン パフォーマンスも示されています。表には、各合成データのリリース年も示されています。
データセット名 | MLモデル | # トレーニング画像 | |||||
---|---|---|---|---|---|---|---|
レスネット50 | 50万 | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
シンフェイス(2021) | レスネット50 | 50万 | 91.93 | 75.03 | 61.63 | 74.73 | 70.43 |
デジフェイス-1m (2022) | レスネット50 | 50万 | 95.40 | 87.40 | 76.97 | 78.62 | 78.87 |
DCフェイス(2023) | レスネット50 | 50万 | 98.55 | 85.33 | 89.70 | 91.60 | 82.62 |
表 2.合成データでトレーニングされたモデルによって達成された、広く使用されている FR 評価データセットでの検証精度 (%)。最初の行は、同様のサイズの実世界のデータでモデルによって達成されたベースライン パフォーマンスです。すべての結果は、同じ ML モデルとアルゴリズムを使用して公開されたオリジナルの研究から取得されています。
表 2 からわかるように、合成データでトレーニングされたモデルは、実世界のデータでトレーニングされたモデルほどパフォーマンスがよくありません。「LFW」のような「シンプル」で小さなデータセットでのパフォーマンスの差は小さいですが、CFP-FP や Agedb-30 などの他のより厳しいデータセットでは、その差はより顕著です。これらのデータセットには、それぞれ顔の横顔のサンプルや、複数の年齢にまたがる同一人物の顔のサンプルが含まれています。
注目すべきことに、近年、合成データでトレーニングされたモデルのパフォーマンスが向上しています。
合成データの有効性を検証することは依然として課題です。合成データが現実世界の状況を正確に表していることを確認することは、信頼性の高い顔認識システムを構築する上で非常に重要です。ただし、検証プロセスは複雑であり、データの品質と適用性を保証するための堅牢な方法論が必要です。
考えられる解決策は、合成データでもこれらの特徴を模倣できる genAI モデルを開発することです。顔の属性、画像品質、背景の変化が豊富な現実世界のデータセットでトレーニングすることで、生成モデルをトレーニングしてこれらの制限を克服できます。そのようなデータがどこから来るのか疑問に思うのは当然です。そのようなデータの取得には、倫理的、法的、コスト上の制限など、前述のすべての制約が伴います。
しかし、生成FRモデルのトレーニングに必要なデータセットのサイズが小さいため、これらの問題は軽減されます。Nvidiaの
合成データは顔認識技術の進歩に期待が寄せられていますが、現在の限界を認識することが重要です。genAI の利点には、合成サンプルのリアルさや、表情、頭の姿勢、ひげなどの特徴を強調または強調解除するために画像を微調整する容易さなどがありますが、実際のデータと合成データでトレーニングされたモデルのパフォーマンスの差は顕著です。
合成データはまだ、厳選された実際のデータセットの代替にはなりません。それでも、データ生成技術の向上に伴い、合成顔データの品質は現実世界のデータの品質に追いつきつつあり、近い将来、合成データによって FR トレーニングに現実世界の顔データを使用する必要性が完全になくなると推測できます。
特集画像提供