Դեմքի ճանաչման (FR) տեխնոլոգիան զգալիորեն առաջադիմել է վերջին տարիներին՝ պայմանավորված ուժեղացված անվտանգության անհրաժեշտությամբ և հավելվածների տարածմամբ այնպիսի ոլորտներում, ինչպիսիք են ցածրորակ սպառողական սարքերը, ինքնաթիռների նստեցումը, սահմանային հսկողությունը և ֆինանսական ծառայությունները: Արդյունավետ FR համակարգերի հիմքում ընկած է կարևոր բաղադրիչը՝ տվյալները: Լայնածավալ տվյալների հավաքածուները կարևոր են այս մոդելներին տարբեր պայմաններում դեմքերը ճշգրիտ նույնականացնելու և ստուգելու համար:
Որպեսզի FR-ն հուսալի լինի, մոդելները պետք է ենթարկվեն տարբեր տվյալների, որոնք ներառում են ժողովրդագրության, լուսավորության, միջավայրի, արտահայտությունների և խցանումների տատանումները: Սա ապահովում է ամրություն և արդարություն տեղակայման մեջ՝ նվազեցնելով կողմնակալության կամ ձախողման վտանգը անծանոթ պայմանների հետ հանդիպելիս:
Սինթետիկ տվյալների հավաքածուները, որոնք ստեղծվել են genAI տեխնիկայի միջոցով, կարող են պոտենցիալ օգնել, բայց իրենց ներկայիս վիճակում դրանք չեն կարող ամբողջությամբ փոխարինել իրական աշխարհի տվյալների հավաքածուները: Այս հոդվածը ուսումնասիրում է սինթետիկ FR տվյալների հավաքածուների առավելություններն ու թերությունները և ուսումնասիրում է genAI-ի ներկայիս վիճակը դեմքի ճանաչման համար:
LFW-ը , Cfp-fp-ը , Agedb-30-ը , Ca-lfw-ը և Cp-lfw-ն ամենաշատ օգտագործվող տվյալների հավաքածուներից են, որոնք օգտագործվում են FR մոդելների ստուգման կատարողականը գնահատելու համար: Աղյուսակ 1. ցուցադրում է նույն ալգորիթմով վարժեցված ML մոդելի ստուգման կատարումը իրական աշխարհի դեմքերի տարբեր չափերի տվյալների հավաքածուների վրա:
Կարելի է տեսնել, թե ինչպես է տվյալների բազայի չափը ազդում մոդելի կատարողականի և այն մասշտաբի վրա, որով տվյալների հավաքագրումը պետք է տեղի ունենա՝ կայուն FR մոդելներ ստանալու համար: Ստուգումը նշանակում է, որ մոդելին տրվում է մի զույգ դեմքի պատկեր, և այն կանխատեսում է՝ արդյոք դեմքի զույգը պատկանում է նույն անձին, թե երկու առանձին մարդկանց: Հաղորդվում է մոդելի կանխատեսումների ստուգման ճշգրտության տոկոսը:
Տվյալների հավաքածու | ՄԼ | #Թրեյնինգ | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500 հազար | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
resnet-50 | 12 մլն | 99,80 | 99.20 | 98.10 | -- | -- | |
resnet-50 | 17 մլն | 99,83 | 99.33 | 98,55 | 96.21 | 94,78 |
Աղյուսակ 1. Ստուգման ճշտություններ (%) հինգ տարբեր FR հենանիշերի վրա: Արդար համեմատության համար բոլոր արդյունքները ստացվում են բնօրինակ հրապարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը:
Ի լրումն ուսուցման լայնածավալ տվյալների բազայի, նույնքան կարևոր է, որ տվյալների բազան պարունակի նվազագույն շեղումներ: Կարևոր է նախ հասկանալ, թե ինչ է նշանակում կողմնակալություն FR-ի համատեքստում: Ընդհանուր առմամբ, մեքենայական ուսուցման մոդելի համար կողմնակալությունը վերաբերում է այն մոդելին, որը միատեսակ չի վարվում տարբեր տեսակի մուտքային տվյալների միջև: FR մոդելը կարող է կողմնակալ լինել տարբեր ձևերով:
Ամենատարածված օրինակը էթնիկական կողմնակալությունն է, որտեղ FR մոդելը հակված է վատ արդյունքների, երբ ներկայացվում է որոշակի ազգության դեմքերով:
Այնուամենայնիվ, սա միակ կողմնակալությունը չէ, որին պետք է հակադարձել հուսալի FR մոդելներ ձեռք բերելու համար: Տարիքային կողմնակալությունը, գենդերային կողմնակալությունը և շրջակա միջավայրի կողմնակալությունը (դեմքի ծածկույթ, դեմքի մազեր և այլն) մի քանի այլ օրինակներ են, թե ինչպես FR մոդելը կարող է կողմնակալություն դրսևորել: Այս կողմնակալությունները կարելի է նվազագույնի հասցնել՝ հավաքելով և ներառելով ներկայացուցչական նմուշներ տվյալների շտեմարանում, որն օգտագործվում է FR մոդելը պատրաստելու համար:
Տարբեր էթնիկ պատկանելության մարդկանց լուսանկարներ ստանալը՝ տասը-տասնհինգ տարի տարբերությամբ, կամ տարբեր ֆոնի վրա գտնվող մարդկանց լուսանկարներ, լուսավորության տարբեր պայմաններում, դեմքի տարբեր արտահայտություններով, կարող է դժվար գործ լինել:
Բացի այդ, FR-ի համար իրական տվյալների հավաքագրումը բազմաթիվ այլ մարտահրավերներ է ներկայացնում: Նման լայնածավալ բազմազան տվյալների ձեռքբերումն ամբողջ աշխարհից ծախսատար է: Բացի ծախսերի և տեխնիկական սահմանափակումներից, տվյալների ձեռքբերումն ավելի ու ավելի դժվար է դառնում էթիկայի և գաղտնիության հետ կապված խնդիրների պատճառով:
Կենսաչափական տվյալները կարգավորվում են այնպիսի օրենքներով, ինչպիսիք են Եվրոպայի GDPR-ը (
Այս օրենքները կարգավորում են համապատասխան բնակիչների կենսաչափական տվյալների ձեռքբերումը և պահպանումը, ինչը լրացուցիչ բարդություն է հաղորդում լայնածավալ կենսաչափական տվյալների ձեռքբերմանը: Հաշվի առնելով FR հավելվածների աճող պահանջարկը, հենց հիմա վճռորոշ ժամանակ է ուսումնասիրելու սինթետիկ տվյալների կենսունակությունը՝ ուսումնասիրելու դրանց առավելություններն ու թերությունները մասշտաբային, էթիկական և օրինական դեմքերի ճանաչման համակարգերի մշակման համար:
Այս մարտահրավերները, զուգորդված Generative AI (genAI) աճի հետ, դրդել են մեծ քանակությամբ հետազոտություններ ստեղծել սինթետիկ տվյալներ՝ փոխարինելու իրական աշխարհի զգայուն կենսաչափական տվյալները: Նախքան FR-ում սինթետիկ տվյալների ներկայիս վիճակի մեջ մտնելը, անհրաժեշտ է հասկանալ, թե ինչ է նշանակում genAI:
Պարզ ասած, genAI-ն արհեստական ինտելեկտի տեսակ է, որը կարող է ստեղծել նոր բովանդակություն, ինչպիսիք են տեքստը, պատկերները կամ երաժշտությունը՝ հիմնվելով այն տվյալների վրա, որոնց վրա վերապատրաստվել է, և ստացված տվյալները կոչվում են «սինթետիկ տվյալներ»:
Դեմքի ճանաչման GenAI-ը հատկապես գայթակղիչ է բազմաթիվ պատճառներով: Հատկանշական է, որ սինթետիկ տվյալների հավաքածուները ստեղծվում են AI-ի կողմից, ինչը նշանակում է, որ հետազոտողները, ինժեներները և էնտուզիաստները կարող են ստեղծել (և վարժեցնել) տվյալների հավաքածուներ՝ առանց իրական անձանցից պատկերներ ստանալու ձեռքով գործընթացի անցնելու:
Իրական պատկերների տվյալների հավաքածուների հավաքագրման և օգտագործման համապատասխանության պահանջներից շատերը սինթետիկ տվյալների համար չեն, և, տեսականորեն, կողմնակալությունները, որոնք կարող են հանգեցնել իրական պատկերի տվյալների վրա պատրաստված ալգորիթմի, կարող են ավելի լավ հաշվառվել սինթետիկ տվյալների հետ:
Այնուամենայնիվ, դեմքի սինթետիկ տվյալների հավաքածուները դեռևս արծաթե փամփուշտ չեն: Այս հոդվածի հետևյալ բաժինները ներառում են, թե որտեղ են փայլում սինթետիկ տվյալների շտեմարանները, որտեղ դրանք պակասում են, և դեմքի ճանաչման genAI-ի ներկայիս վիճակը:
Սինթետիկ տվյալներն առաջարկում են մի քանի առավելություններ, որոնք այն դարձնում են արժեքավոր գործիք դեմքերի ճանաչման տեխնոլոգիայի զարգացման գործում: Առաջնային առավելություններից մեկն այն է, որ սինթետիկ տվյալների հավաքածուները չեն պահանջում իրական մարդկանց պատկերներ ստանալ: Սինթետիկ տվյալները ուղղակիորեն չեն օգտագործում իրական անձնական տվյալներ, հետևաբար, գաղտնիության պահպանման պահանջները, ինչպիսիք են օգտագործման համաձայնությունը և մոռացվելու իրավունքները, չեն բարձրացվում:
Սինթետիկ տվյալների ստեղծումը կարող է նաև ավելի ծախսարդյունավետ լինել, քան իրական աշխարհի տվյալների հսկայական քանակություն հավաքելը և ծանոթագրելը, որը, ի լրումն ժամանակի և ռեսուրսների, որոնք ծախսվում են՝ ապահովելու համար, որ տվյալների բազան օրինական և էթիկական է, ձեռնարկ է, ժամանակատար, և թանկ գործընթաց: Սինթետիկ տվյալները թույլ են տալիս ստեղծել վերահսկվող միջավայրեր, որտեղ կարող են շահարկվել հատուկ փոփոխականներ՝ օգնելով դեմքի ճանաչման մոդելների փորձարկմանն ու ճշգրտմանը:
Ավելին, սինթետիկ տվյալները հեշտացնում են տվյալների մեծ հավաքածուներ ստեղծելն ու ստանալը, հատկապես այն իրավիճակներում, երբ իրական աշխարհի տվյալները սակավ են, դժվար է հավաքել, կամ երբ իրավական պահանջներն ու էթիկական նկատառումները նման հավաքագրումն անհիմն են դարձնում: GenAI մեթոդները կարող են օգտագործվել նաև գոյություն ունեցող իրական աշխարհի տվյալների բազան լրացնելու համար՝ լրացնելով բացերը՝ կանխակալությունները նվազեցնելու համար. ժողովրդագրական կամ այլ կերպ:
Որպես օրինակ՝ հրապարակայնորեն հրապարակված դեմքերի լայնածավալ տվյալների հավաքածուներից շատերը հիմնականում բաղկացած են կովկասյան ինքնություններից, ինչը ժողովրդագրական կողմնակալություն է առաջացնում նման տվյալների վրա պատրաստված ՓԼ մոդելներում: Սա հեշտությամբ կարելի է շտկել սինթետիկ տվյալների բազայի միջոցով:
Պատկերի տիրույթի համար Generative Adversarial Networks-ը (GANs) հանդիսանում է տվյալների ստեղծման համար օգտագործվող ամենատարածված մոդելներից մեկը: Nvidia-ի
Այնուամենայնիվ, այս բոլոր տեխնիկան սահմանափակումներ ունի ծախսերի, ժամանակի, եզակի նույնականությունների քանակի, որոնք կարող են ստեղծվել և կատարողականության առումով.
Տեսականորեն, «իրական տեսք ունեցող» դեմքերով և էթնիկ պատկանելության, սեռի, կեցվածքի, լուսավորության և ֆոնային տատանումների վերահսկվող տարբեր հատկանիշներով սինթետիկ տվյալների բազան պետք է գերազանցի իրական «վայրի բնության մեջ» տվյալներից: Այդ դեպքում ինչու՞ այս տվյալների հավաքածուների վրա պատրաստված մոդելների աշխատանքը ոչ մի տեղ մոտ չէ իրական աշխարհի նույն չափի տվյալների հավաքածուների վրա պատրաստված մոդելներին: Այս հարցի պատասխանը բուն իրական աշխարհի տվյալների անվերահսկելի հատկանիշների մեջ է: Իրական տվյալների տատանումների մեծությունը մինչ այժմ ամբողջությամբ չի բացահայտվել որևէ հրապարակված հետազոտության կողմից:
Տվյալների հավաքածուի բոլոր սինթետիկ ինքնությունների համար նույն սահմանափակ թվով տատանումների առկայությունը վնասում է մոդելի կատարողականին: Տատանումները մեծացնելու փորձը հանգեցնում է նրան, որ դեմքի ինքնությունը նույնպես փոխվում է, ինչը աղմուկ է բերում տվյալների մեջ՝ կրկին վնասելով մոդելի աշխատանքին:
Աղյուսակ 2. թվարկում է նույն FR մոդելի ճարտարապետության աշխատանքը (Resnet 50), որը վերապատրաստվել է տարբեր սինթետիկ տվյալների հավաքածուների վրա: Ցուցակված է նաև մոտավորապես նույն չափի իսկական տվյալների բազայի վրա պատրաստված մոդելի ելակետային կատարումը: Աղյուսակում նշված է նաև յուրաքանչյուր սինթետիկ տվյալների թողարկման տարեթիվը:
Տվյալների հավաքածուի անվանումը | ML մոդել | # Վերապատրաստման պատկերներ | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500 հազար | 99,55 | 95.31 | 94,55 | 93,78 | 89,95 | |
Synface (2021) | resnet-50 | 500 հազար | 91.93 | 75.03 | 61.63 | 74,73 | 70.43 |
Digiface-1m (2022) | resnet-50 | 500 հազար | 95.40 | 87.40 | 76,97 | 78.62 | 78,87 |
DCFace (2023) | resnet-50 | 500 հազար | 98,55 | 85.33 | 89,70 | 91,60 | 82.62 |
Աղյուսակ 2. Ստուգման ճշգրտություններ (%) լայնորեն օգտագործվող FR գնահատման տվյալների հավաքածուների վրա, որոնք ձեռք են բերվել սինթետիկ տվյալների վրա վերապատրաստված մոդելների միջոցով: Առաջին շարքը ելակետային ցուցանիշն է, որը ձեռք է բերվել մոդելի կողմից նույն չափի իրական տվյալների վրա: Բոլոր արդյունքները ստացված են բնօրինակ հրատարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը:
Ինչպես երևում է Աղյուսակ 2-ում, սինթետիկ տվյալների վրա պատրաստված մոդելներն այնքան լավ չեն աշխատում, որքան իրական աշխարհի տվյալների վրա պատրաստված մոդելները: Թեև կատարողականի բացը «պարզ» և փոքր տվյալների հավաքածուներում, ինչպիսին «LFW»-ն է, փոքր է, այդ բացն ավելի ցայտուն է այլ ավելի կոշտ տվյալների հավաքածուներում, ինչպիսիք են CFP-FP-ը և Agedb-30-ը, որոնք պարունակում են դեմքերի պրոֆիլային դիտումների և նույն դեմքերի նմուշներ: անձ, որը ընդգրկված է համապատասխանաբար մի քանի տարիքի վրա:
Հատկանշական է, որ վերջին տարիներին բարելավվել է սինթետիկ տվյալների վրա պատրաստված մոդելների կատարումը:
Սինթետիկ տվյալների արդյունավետության վավերացումը մնում է մարտահրավեր: Ապահովել, որ սինթետիկ տվյալները ճշգրիտ կերպով ներկայացնում են իրական աշխարհի պայմանները, շատ կարևոր է դեմքի ճանաչման հուսալի համակարգեր ստեղծելու համար: Այնուամենայնիվ, վավերացման գործընթացը բարդ է և պահանջում է ամուր մեթոդաբանություններ՝ ապահովելու տվյալների որակը և կիրառելիությունը:
Հնարավոր լուծում է genAI մոդելի մշակումը, որը կարող է նաև նմանակել այս հատկանիշները սինթետիկ տվյալների մեջ: Գեներատիվ մոդելը կարող է վերապատրաստվել՝ հաղթահարելու այս սահմանափակումները՝ վարժեցնելով այն իրական աշխարհի տվյալների բազայի վրա, որը պարունակում է դեմքի հատկանիշների, պատկերի որակի և ֆոնային տատանումների մեծ տատանումներ: Ողջամիտ է կասկածի տակ առնել, թե որտեղից կարող են գալ նման տվյալներ: Տվյալների նման ձեռքբերումը կբախվի վերոհիշյալ բոլոր սահմանափակումներին, մասնավորապես՝ էթիկական, իրավական և ծախսերի սահմանափակումներին:
Այնուամենայնիվ, դրանք մեղմվում են տվյալների բազայի ավելի փոքր չափի շնորհիվ, որն անհրաժեշտ է գեներատիվ FR մոդելների պատրաստման համար: Nvidia-ն
Սինթետիկ տվյալները խոստումնալից են դեմքի ճանաչման տեխնոլոգիայի առաջընթացի համար, սակայն կարևոր է ճանաչել դրա ներկայիս սահմանափակումները: Թեև genAI-ի առավելությունները ներառում են սինթետիկ նմուշների ռեալիզմը և պատկերների մանրակրկիտ կարգավորման հեշտությունը՝ բարելավելու կամ նվազեցնելու հատկությունները, ինչպիսիք են դեմքի արտահայտությունները, գլխի դիրքը, դեմքի մազերը և այլն: իրական և սինթետիկ տվյալների վրա պատրաստված մոդելների միջև կատարողականի տարբերությունը. նշանակալից.
Սինթետիկ տվյալները դեռ չեն փոխարինում լավ մշակված իրական տվյալների հավաքածուներին: Այնուամենայնիվ, դեմքի սինթետիկ տվյալների որակը հասնում է իրական տվյալների որակին, քանի որ տվյալների ստեղծման տեխնիկան բարելավվում է, և, հետևաբար, մենք կարող ենք ենթադրել, որ մոտ ապագայում սինթետիկ տվյալները կարող են լիովին հեռացնել իրական օգտագործման անհրաժեշտությունը: - աշխարհի դեմքի տվյալներ FR մարզումների համար:
Առանձնահատկություն պատկերի կողմից