Az arcfelismerő (FR) technológia jelentős fejlődésen ment keresztül az elmúlt években, ami a fokozott biztonság iránti igény és az olyan alkalmazások elterjedése miatt következett be, mint például az alacsony kategóriás fogyasztói eszközök, a repülőgépek beszállása, a határellenőrzés és a pénzügyi szolgáltatások. A hatékony FR-rendszerek középpontjában egy kulcsfontosságú összetevő – az adatok – áll. A nagyméretű adatkészletek elengedhetetlenek ezeknek a modelleknek a betanításához, hogy pontosan azonosítsák és ellenőrizzék az arcokat különféle körülmények között.
Ahhoz, hogy az FR megbízható legyen, a modelleket különféle adatoknak kell kitenni, amelyek magukban foglalják a demográfiai adatok, a világítás, a környezet, a kifejezések és az elzáródások változásait. Ez biztosítja az üzembe helyezés robusztusságát és méltányosságát, csökkentve a torzítás vagy a meghibásodás kockázatát, ha ismeretlen körülményekkel találkozik.
A genAI technikákkal létrehozott szintetikus adatkészletek potenciálisan segíthetnek, de jelenlegi állapotukban nem tudják teljesen helyettesíteni a valós adatkészleteket. Ez a cikk feltárja a szintetikus FR-adatkészletek előnyeit és hátrányait, és megvizsgálja a genAI jelenlegi állapotát az arcfelismeréshez.
Az LFW , Cfp-fp , Agedb-30 , Ca-lfw és Cp-lfw a legszélesebb körben használt adatkészletek, amelyeket az FR modellek ellenőrzési teljesítményének értékelésére használnak. Az 1. táblázat egy azonos algoritmussal betanított ML-modell ellenőrzési teljesítményét mutatja, különböző méretű valós arcadatkészleteken.
Látható, hogy az adatkészlet mérete hogyan befolyásolja a modell teljesítményét és azt a léptéket, amelyen az adatgyűjtésnek meg kell történnie ahhoz, hogy robusztus FR modelleket kapjunk. Az ellenőrzés azt jelenti, hogy a modell egy pár arcképet kap, és megjósolja, hogy az arcpár ugyanahhoz a személyhez vagy két különálló személyhez tartozik-e. A modell-előrejelzések ellenőrzési pontosságának százalékos arányát jelentik.
Adatkészlet | ML | # Képzés | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
resnet-50 | 12 millió | 99,80 | 99.20 | 98.10 | -- | -- | |
resnet-50 | 17 millió | 99,83 | 99,33 | 98,55 | 96.21 | 94,78 |
1. táblázat: Ellenőrzési pontosságok (%) öt különböző FR benchmarkon. A tisztességes összehasonlítás érdekében az összes eredményt az eredeti publikált munkákból nyerjük, ugyanazt az ML-modellt és algoritmust használva.
A nagyszabású betanítási adatkészlet mellett ugyanilyen fontos, hogy az adatkészlet minimális torzítást tartalmazzon. Fontos először megérteni, mit jelent az elfogultság az FR összefüggésében. Általánosságban elmondható, hogy a gépi tanulási modelleknél a torzítás arra utal, hogy a modell nem viselkedik egységesen a különböző típusú bemeneti adatok között. Egy FR-modell többféleképpen torzítható.
A leggyakoribb példa az etnikai torzítás, amikor egy FR-modell általában gyengén teljesít, ha egy adott etnikai hovatartozáshoz tartozó arcokat jelenítenek meg.
Mindazonáltal nem ez az egyetlen torzítás, amelyet a megbízható FR-modellek megszerzéséhez le kell küzdeni. Az életkor, a nemi elfogultság és a környezeti elfogultság (arctakarók, arcszőrzet stb.) néhány további példa arra, hogy egy FR-modell hogyan mutathat elfogultságot. Ezek a torzítások minimálisra csökkenthetők, ha reprezentatív mintákat gyűjtenek, és az FR-modell betanításához használt adatkészletbe belefoglalják őket.
Nehéz feladatnak bizonyulhat különböző etnikumokhoz tartozó, tíz-tizenöt év különbséggel rendelkező emberek fényképeinek beszerzése, vagy különböző háttérrel rendelkező, változatos fényviszonyok mellett, eltérő arckifejezésű személyek fényképeinek beszerzése.
Ezenkívül a valós adatok FR-re vonatkozó gyűjtése számos más kihívást is jelent. Az ilyen nagyszabású, változatos adatok beszerzése a világ minden tájáról költséges. A költségek és a technikai korlátok mellett az adatgyűjtés egyre nehezebbé válik etikai és adatvédelmi aggályok miatt.
A biometrikus adatokat olyan törvények szabályozzák, mint az európai GDPR (
Ezek a törvények szabályozzák az adott lakosok biometrikus adatainak megszerzését és tárolását, ami tovább bonyolítja a nagy léptékű biometrikus adatgyűjtést. Tekintettel az FR-alkalmazások iránti növekvő keresletre, most döntő idő van a szintetikus adatok életképességének feltárására, annak előnyeire és hátrányaira a méretezhető, etikus és jogilag megfelelő arcfelismerő rendszerek fejlesztése érdekében.
Ezek a kihívások, a Generatív AI (genAI) térnyerésével párosulva, nagy mennyiségű kutatást motiváltak a valós érzékeny biometrikus adatok helyettesítésére szolgáló szintetikus adatok létrehozására. Mielőtt belemerülnénk a szintetikus adatok jelenlegi állapotába Franciaországban, elengedhetetlen megérteni, mit jelent a genAI.
Egyszerűen fogalmazva, a genAI a mesterséges intelligencia egy olyan fajtája, amely képes új tartalmat, például szöveget, képeket vagy zenét létrehozni a betanított adatok alapján, és a generált adatokat „szintetikus adatoknak” nevezik.
Az arcfelismerő GenAI több okból is különösen csábító. A szintetikus adatkészleteket leginkább a mesterséges intelligencia állítja elő, ami azt jelenti, hogy a kutatók, mérnökök és rajongók anélkül építhetnek adatkészleteket (és képezhetnek rajtuk) anélkül, hogy a valódi személyektől származó képek kézi beszerzésének folyamatát elvégeznék.
A valós képi adatkészletek gyűjtésére és felhasználására vonatkozó megfelelőségi követelmények közül sok nem vonatkozik a szintetikus adatokra, és elméletileg a valós képadatokra kiképzett algoritmusokat eredményező torzításokat jobban figyelembe lehetne venni szintetikus adatokkal.
A szintetikus arcadatkészletek azonban még nem jelentenek ezüstgolyót. A cikk következő szakaszai bemutatják, hogy a szintetikus adatkészletek hol ragyognak, hol maradnak el, és az arcfelismerés genAI jelenlegi állapotáról.
A szintetikus adatok számos előnnyel rendelkeznek, amelyek értékes eszközzé teszik az arcfelismerő technológia fejlesztésében. Az egyik elsődleges előny az, hogy a szintetikus adatkészletekhez nincs szükség valós emberekről készült képek beszerzésére. A szintetikus adatok közvetlenül nem használnak valós személyes adatokat, ezért az adatvédelmi megfelelési követelmények, például a felhasználáshoz való hozzájárulás és az elfelejtéshez való jogok nem merülnek fel.
A szintetikus adatok előállítása költséghatékonyabb is lehet, mint hatalmas mennyiségű valós adat gyűjtése és megjegyzésekkel való ellátása, ami az ilyen adatkészlet jogi és etikai megfelelőségének biztosítására fordított idő és erőforrások mellett manuális, időigényes, és drága eljárás. A szintetikus adatok lehetővé teszik ellenőrzött környezetek létrehozását, ahol bizonyos változók manipulálhatók, segítve az arcfelismerő modellek tesztelését és finomhangolását.
Ezenkívül a szintetikus adatok megkönnyítik a nagy adathalmazok létrehozását és megszerzését, különösen olyan helyzetekben, amikor a valós adatok szűkösek, nehezen gyűjthetők, vagy ahol a jogi követelmények és etikai megfontolások az ilyen gyűjtést tarthatatlanná teszik. A GenAI metódusai egy meglévő valós adatkészlet kiegészítésére is használhatók, kitöltve a hiányosságokat a torzítások csökkentése érdekében; demográfiai vagy egyéb.
Példaként említjük, hogy a nyilvánosan közzétett nagyméretű arcadatkészletek többsége túlnyomórészt kaukázusi identitásokból áll, ami demográfiai torzítást okoz az ilyen adatokra képzett ML-modellekben. Ez szintetikus adatkészlettel könnyen orvosolható.
A képtartományban a Generatív Adversarial Networks (GAN) az egyik legnépszerűbb adatgenerálási modell. Nvidia
Ezeknek a technikáknak azonban vannak korlátai a költségek, az idő, a generálható egyedi identitások száma és a teljesítmény tekintetében.
Elméletileg egy szintetikus adatkészletnek „igazi kinézetű” arcokkal és ellenőrzött különböző attribútumokkal az etnikai hovatartozás, nem, póz, világítás és háttérváltoztatás tekintetében felül kell múlnia a valódi „vadon” adatkészletet. Akkor miért nem közelíti meg az ezeken az adatkészleteken betanított modellek teljesítménye az azonos méretű, valós adatkészleteken betanított modelleket? A válasz erre a kérdésre magának a valós adatoknak az ellenőrizetlen jellemzőiben rejlik. A valós adatok eltéréseinek nagyságát eddig egyetlen publikált kutatás sem ragadta meg teljes mértékben.
Ha az adatkészletben az összes szintetikus identitás azonos korlátozott számú variációja van, az rontja a modell teljesítményét. A variációk növelésére tett kísérlet azt eredményezi, hogy az arc azonossága is megváltozik, ami zajt visz be az adatokba, ami ismét rontja a modell teljesítményét.
A 2. táblázat ugyanazon FR-modellarchitektúra (Resnet 50) teljesítményét sorolja fel, amelyet különböző szintetikus adatkészleteken tanítottak. A nagyjából azonos méretű autentikus adatkészleten betanított modell alapteljesítménye is szerepel a listán. A táblázat az egyes szintetikus adatok kiadásának évét is felsorolja.
Adatkészlet neve | ML modell | # Képzési képek | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
Synface (2021) | resnet-50 | 500k | 91,93 | 75.03 | 61.63 | 74,73 | 70,43 |
Digiface-1m (2022) | resnet-50 | 500k | 95,40 | 87,40 | 76,97 | 78,62 | 78,87 |
DCFace (2023) | resnet-50 | 500k | 98,55 | 85.33 | 89,70 | 91,60 | 82,62 |
2. táblázat: Szintetikus adatokon betanított modellekkel elért, széles körben használt FR kiértékelési adatkészletek ellenőrzési pontossága (%). Az első sor a modell által hasonló méretű valós adatokon elért alapteljesítményt mutatja. Minden eredmény eredeti publikált munkákból származik, ugyanazt az ML modellt és algoritmust használva.
Amint az a 2. táblázatból látható, a szintetikus adatokon betanított modellek nem teljesítenek olyan jól, mint a valós adatokon betanított modellek. Míg az „egyszerű” és a kis adatkészleteknél, például az „LFW”-nél kicsi a teljesítménybeli különbség, a különbség szembetűnőbb más szigorúbb adatkészleteknél, mint például a CFP-FP és az Agedb-30, amelyek az arcok és az arcok profilnézeteinek mintáit tartalmazzák. több korosztályt felölelő személy.
Észrevehető, hogy a szintetikus adatokra képzett modellek teljesítménye javult az elmúlt években.
A szintetikus adatok hatékonyságának ellenőrzése továbbra is kihívást jelent. Annak biztosítása, hogy a szintetikus adatok pontosan tükrözzék a valós körülményeket, elengedhetetlen a megbízható arcfelismerő rendszerek felépítéséhez. Az érvényesítési folyamat azonban összetett, és robusztus módszereket igényel az adatok minőségének és alkalmazhatóságának biztosítása érdekében.
Egy lehetséges megoldás egy olyan genAI modell kifejlesztése, amely a szintetikus adatokban is képes utánozni ezeket a jellemzőket. Egy generatív modell megtanítható ezeknek a korlátoknak a leküzdésére, ha egy valós adathalmazra tanítja, amely számos variációt tartalmaz az arc attribútumaiban, a képminőségben és a háttérben. Felmerülhet a kérdés, honnan származhatnak ilyen adatok. Az ilyen adatgyűjtés az összes fent említett korláttal szembesülne, nevezetesen etikai, jogi és költségkorlátozásokkal.
Ezeket azonban enyhíti a generatív FR-modellek betanításához szükséges kisebb adatkészletméret. Nvidia
A szintetikus adatok ígéretesek az arcfelismerő technológia fejlesztésében, de elengedhetetlen felismerni a jelenlegi korlátait. Míg a genAI előnyei közé tartozik a szintetikus minták valósághűsége, valamint a képek finomhangolása a funkciók, például az arckifejezések, a fejtartás, az arcszőrzet stb. javítása vagy hatástalanítása érdekében, a valódi és a szintetikus adatokra képzett modellek teljesítménye közötti különbségek jelentős.
A szintetikus adatok még nem helyettesítik a jól összeállított valós adatkészleteket. Ennek ellenére a szintetikus arcadatok minősége felzárkózik a valós adatok minőségéhez, ahogy az adatgenerálási technikák javulnak, és így feltételezhetjük, hogy a közeljövőben a szintetikus adatok teljes mértékben megszüntethetik a valós adatok használatának szükségességét. -World arcadatok az FR képzéshez.
Feature Image by