Սինթետիկ տվյալներ դեմքերի ճանաչման մեջ.

Դեմքի ճանաչման (FR) տեխնոլոգիան զգալիորեն առաջադիմել է վերջին տարիներին՝ պայմանավորված ուժեղացված անվտանգության անհրաժեշտությամբ և հավելվածների տարածմամբ այնպիսի ոլորտներում, ինչպիսիք են ցածրորակ սպառողական սարքերը, ինքնաթիռների նստեցումը, սահմանային հսկողությունը և ֆինանսական ծառայությունները: Արդյունավետ FR համակարգերի հիմքում ընկած է կարևոր բաղադրիչը՝ տվյալները: Լայնածավալ տվյալների հավաքածուները կարևոր են այս մոդելներին տարբեր պայմաններում դեմքերը ճշգրիտ նույնականացնելու և ստուգելու համար: Որպեսզի FR-ն հուսալի լինի, մոդելները պետք է ենթարկվեն տարբեր տվյալների, որոնք ներառում են ժողովրդագրության, լուսավորության, միջավայրի, արտահայտությունների և խցանումների տատանումները: Սա ապահովում է ամրություն և արդարություն տեղակայման մեջ՝ նվազեցնելով կողմնակալության կամ ձախողման վտանգը անծանոթ պայմանների հետ հանդիպելիս: Սինթետիկ տվյալների հավաքածուները, որոնք ստեղծվել են genAI տեխնիկայի միջոցով, կարող են պոտենցիալ օգնել, բայց իրենց ներկայիս վիճակում դրանք չեն կարող ամբողջությամբ փոխարինել իրական աշխարհի տվյալների հավաքածուները: Այս հոդվածը ուսումնասիրում է սինթետիկ FR տվյալների հավաքածուների առավելություններն ու թերությունները և ուսումնասիրում է genAI-ի ներկայիս վիճակը դեմքի ճանաչման համար: Դեմքի տվյալների ձեռքբերում. իրական աշխարհ ընդդեմ սինթետիկ , , , և ամենաշատ օգտագործվող տվյալների հավաքածուներից են, որոնք օգտագործվում են FR մոդելների ստուգման կատարողականը գնահատելու համար: Աղյուսակ 1. ցուցադրում է նույն ալգորիթմով վարժեցված ML մոդելի ստուգման կատարումը իրական աշխարհի դեմքերի տարբեր չափերի տվյալների հավաքածուների վրա: LFW-ը Cfp-fp-ը Agedb-30-ը Ca-lfw-ը Cp-lfw-ն Կարելի է տեսնել, թե ինչպես է տվյալների բազայի չափը ազդում մոդելի կատարողականի և այն մասշտաբի վրա, որով տվյալների հավաքագրումը պետք է տեղի ունենա՝ կայուն FR մոդելներ ստանալու համար: Ստուգումը նշանակում է, որ մոդելին տրվում է մի զույգ դեմքի պատկեր, և այն կանխատեսում է՝ արդյոք դեմքի զույգը պատկանում է նույն անձին, թե երկու առանձին մարդկանց: Հաղորդվում է մոդելի կանխատեսումների ստուգման ճշգրտության տոկոսը: Տվյալների հավաքածու Անուն ՄԼ Մոդել #Թրեյնինգ Պատկերներ LFW Cfp-fp Ագեդբ-30 Ca-LFW Cp-LFW Casia վեբ էջ resnet-50 500 հազար 99,55 95.31 94,55 93,78 89,95 վեբ երես 12 մ resnet-50 12 մլն 99,80 99.20 98.10 -- -- փայլ 360կ resnet-50 17 մլն 99,83 99.33 98,55 96.21 94,78 Ստուգման ճշտություններ (%) հինգ տարբեր FR հենանիշերի վրա: Արդար համեմատության համար բոլոր արդյունքները ստացվում են բնօրինակ հրապարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը: Աղյուսակ 1. Ի լրումն ուսուցման լայնածավալ տվյալների բազայի, նույնքան կարևոր է, որ տվյալների բազան պարունակի նվազագույն շեղումներ: Կարևոր է նախ հասկանալ, թե ինչ է նշանակում կողմնակալություն FR-ի համատեքստում: Ընդհանուր առմամբ, մեքենայական ուսուցման մոդելի համար կողմնակալությունը վերաբերում է այն մոդելին, որը միատեսակ չի վարվում տարբեր տեսակի մուտքային տվյալների միջև: FR մոդելը կարող է կողմնակալ լինել տարբեր ձևերով: Ամենատարածված օրինակը էթնիկական կողմնակալությունն է, որտեղ FR մոդելը հակված է վատ արդյունքների, երբ ներկայացվում է որոշակի ազգության դեմքերով: Այնուամենայնիվ, սա միակ կողմնակալությունը չէ, որին պետք է հակադարձել հուսալի FR մոդելներ ձեռք բերելու համար: Տարիքային կողմնակալությունը, գենդերային կողմնակալությունը և շրջակա միջավայրի կողմնակալությունը (դեմքի ծածկույթ, դեմքի մազեր և այլն) մի քանի այլ օրինակներ են, թե ինչպես FR մոդելը կարող է կողմնակալություն դրսևորել: Այս կողմնակալությունները կարելի է նվազագույնի հասցնել՝ հավաքելով և ներառելով ներկայացուցչական նմուշներ տվյալների շտեմարանում, որն օգտագործվում է FR մոդելը պատրաստելու համար: Տարբեր էթնիկ պատկանելության մարդկանց լուսանկարներ ստանալը՝ տասը-տասնհինգ տարի տարբերությամբ, կամ տարբեր ֆոնի վրա գտնվող մարդկանց լուսանկարներ, լուսավորության տարբեր պայմաններում, դեմքի տարբեր արտահայտություններով, կարող է դժվար գործ լինել: Բացի այդ, FR-ի համար իրական տվյալների հավաքագրումը բազմաթիվ այլ մարտահրավերներ է ներկայացնում: Նման լայնածավալ բազմազան տվյալների ձեռքբերումն ամբողջ աշխարհից ծախսատար է: Բացի ծախսերի և տեխնիկական սահմանափակումներից, տվյալների ձեռքբերումն ավելի ու ավելի դժվար է դառնում էթիկայի և գաղտնիության հետ կապված խնդիրների պատճառով: Կենսաչափական տվյալները կարգավորվում են այնպիսի օրենքներով, ինչպիսիք են Եվրոպայի GDPR-ը ( ), Կալիֆորնիայի CCPA ( ), և Իլլիոնիսի BIPA ( ), մի քանիսը նշելու համար: Տվյալների պաշտպանության ընդհանուր կանոնակարգ Կալիֆորնիայի սպառողների գաղտնիության ակտ Կենսաչափական տեղեկատվության գաղտնիության ակտ Այս օրենքները կարգավորում են համապատասխան բնակիչների կենսաչափական տվյալների ձեռքբերումը և պահպանումը, ինչը լրացուցիչ բարդություն է հաղորդում լայնածավալ կենսաչափական տվյալների ձեռքբերմանը: Հաշվի առնելով FR հավելվածների աճող պահանջարկը, հենց հիմա վճռորոշ ժամանակ է ուսումնասիրելու սինթետիկ տվյալների կենսունակությունը՝ ուսումնասիրելու դրանց առավելություններն ու թերությունները մասշտաբային, էթիկական և օրինական դեմքերի ճանաչման համակարգերի մշակման համար: Այս մարտահրավերները, զուգորդված Generative AI (genAI) աճի հետ, դրդել են մեծ քանակությամբ հետազոտություններ ստեղծել սինթետիկ տվյալներ՝ փոխարինելու իրական աշխարհի զգայուն կենսաչափական տվյալները: Նախքան FR-ում սինթետիկ տվյալների ներկայիս վիճակի մեջ մտնելը, անհրաժեշտ է հասկանալ, թե ինչ է նշանակում genAI: Պարզ ասած, genAI-ն արհեստական ինտելեկտի տեսակ է, որը կարող է ստեղծել նոր բովանդակություն, ինչպիսիք են տեքստը, պատկերները կամ երաժշտությունը՝ հիմնվելով այն տվյալների վրա, որոնց վրա վերապատրաստվել է, և ստացված տվյալները կոչվում են «սինթետիկ տվյալներ»: Դեմքի ճանաչման GenAI-ը հատկապես գայթակղիչ է բազմաթիվ պատճառներով: Հատկանշական է, որ սինթետիկ տվյալների հավաքածուները ստեղծվում են AI-ի կողմից, ինչը նշանակում է, որ հետազոտողները, ինժեներները և էնտուզիաստները կարող են ստեղծել (և վարժեցնել) տվյալների հավաքածուներ՝ առանց իրական անձանցից պատկերներ ստանալու ձեռքով գործընթացի անցնելու: Իրական պատկերների տվյալների հավաքածուների հավաքագրման և օգտագործման համապատասխանության պահանջներից շատերը սինթետիկ տվյալների համար չեն, և, տեսականորեն, կողմնակալությունները, որոնք կարող են հանգեցնել իրական պատկերի տվյալների վրա պատրաստված ալգորիթմի, կարող են ավելի լավ հաշվառվել սինթետիկ տվյալների հետ: Այնուամենայնիվ, դեմքի սինթետիկ տվյալների հավաքածուները դեռևս արծաթե փամփուշտ չեն: Այս հոդվածի հետևյալ բաժինները ներառում են, թե որտեղ են փայլում սինթետիկ տվյալների շտեմարանները, որտեղ դրանք պակասում են, և դեմքի ճանաչման genAI-ի ներկայիս վիճակը: Սինթետիկ տվյալների առավելությունները դեմքի ճանաչման մեջ Սինթետիկ տվյալներն առաջարկում են մի քանի առավելություններ, որոնք այն դարձնում են արժեքավոր գործիք դեմքերի ճանաչման տեխնոլոգիայի զարգացման գործում: Առաջնային առավելություններից մեկն այն է, որ սինթետիկ տվյալների հավաքածուները չեն պահանջում իրական մարդկանց պատկերներ ստանալ: Սինթետիկ տվյալները ուղղակիորեն չեն օգտագործում իրական անձնական տվյալներ, հետևաբար, գաղտնիության պահպանման պահանջները, ինչպիսիք են օգտագործման համաձայնությունը և մոռացվելու իրավունքները, չեն բարձրացվում: Սինթետիկ տվյալների ստեղծումը կարող է նաև ավելի ծախսարդյունավետ լինել, քան իրական աշխարհի տվյալների հսկայական քանակություն հավաքելը և ծանոթագրելը, որը, ի լրումն ժամանակի և ռեսուրսների, որոնք ծախսվում են՝ ապահովելու համար, որ տվյալների բազան օրինական և էթիկական է, ձեռնարկ է, ժամանակատար, և թանկ գործընթաց: Սինթետիկ տվյալները թույլ են տալիս ստեղծել վերահսկվող միջավայրեր, որտեղ կարող են շահարկվել հատուկ փոփոխականներ՝ օգնելով դեմքի ճանաչման մոդելների փորձարկմանն ու ճշգրտմանը: Ավելին, սինթետիկ տվյալները հեշտացնում են տվյալների մեծ հավաքածուներ ստեղծելն ու ստանալը, հատկապես այն իրավիճակներում, երբ իրական աշխարհի տվյալները սակավ են, դժվար է հավաքել, կամ երբ իրավական պահանջներն ու էթիկական նկատառումները նման հավաքագրումն անհիմն են դարձնում: GenAI մեթոդները կարող են օգտագործվել նաև գոյություն ունեցող իրական աշխարհի տվյալների բազան լրացնելու համար՝ լրացնելով բացերը՝ կանխակալությունները նվազեցնելու համար. ժողովրդագրական կամ այլ կերպ: Որպես օրինակ՝ հրապարակայնորեն հրապարակված դեմքերի լայնածավալ տվյալների հավաքածուներից շատերը հիմնականում բաղկացած են կովկասյան ինքնություններից, ինչը ժողովրդագրական կողմնակալություն է առաջացնում նման տվյալների վրա պատրաստված ՓԼ մոդելներում: Սա հեշտությամբ կարելի է շտկել սինթետիկ տվյալների բազայի միջոցով: Սինթետիկ տվյալների ներկայիս սահմանափակումները դեմքի ճանաչման մեջ Պատկերի տիրույթի համար Generative Adversarial Networks-ը (GANs) հանդիսանում է տվյալների ստեղծման համար օգտագործվող ամենատարածված մոդելներից մեկը: Nvidia-ի , և հրաշքներ են գործել՝ ստեղծելով դեմքի սինթետիկ պատկերներ, որոնք չեն տարբերվում իրական դեմքերից: Microsoft-ի հետազոտողները , Քիմ և այլք , Tencents' և Միչիգանի պետական համալսարանում ի թիվս այլոց, զգալի առաջընթաց են գրանցել դեմքերի ճանաչման համար սինթետիկ տվյալների շտեմարանների ստեղծման գործում և դրական արդյունքներ են ցույց տվել իրական աշխարհի տվյալների վրա: Stylegan Stylegan2 Դիջիֆեյս-1մ DiscoGAN Synface DCFace Այնուամենայնիվ, այս բոլոր տեխնիկան սահմանափակումներ ունի ծախսերի, ժամանակի, եզակի նույնականությունների քանակի, որոնք կարող են ստեղծվել և կատարողականության առումով. իրական դեմքի տվյալների հավաքածուների վրա վերապատրաստված մոդելներով: ոչ մինչև պար Տեսականորեն, «իրական տեսք ունեցող» դեմքերով և էթնիկ պատկանելության, սեռի, կեցվածքի, լուսավորության և ֆոնային տատանումների վերահսկվող տարբեր հատկանիշներով սինթետիկ տվյալների բազան պետք է գերազանցի իրական «վայրի բնության մեջ» տվյալներից: Այդ դեպքում ինչու՞ այս տվյալների հավաքածուների վրա պատրաստված մոդելների աշխատանքը ոչ մի տեղ մոտ չէ իրական աշխարհի նույն չափի տվյալների հավաքածուների վրա պատրաստված մոդելներին: Այս հարցի պատասխանը բուն իրական աշխարհի տվյալների անվերահսկելի հատկանիշների մեջ է: Իրական տվյալների տատանումների մեծությունը մինչ այժմ ամբողջությամբ չի բացահայտվել որևէ հրապարակված հետազոտության կողմից: Տվյալների հավաքածուի բոլոր սինթետիկ ինքնությունների համար նույն սահմանափակ թվով տատանումների առկայությունը վնասում է մոդելի կատարողականին: Տատանումները մեծացնելու փորձը հանգեցնում է նրան, որ դեմքի ինքնությունը նույնպես փոխվում է, ինչը աղմուկ է բերում տվյալների մեջ՝ կրկին վնասելով մոդելի աշխատանքին: Սինթետիկ դեմքի տվյալների հավաքածուների ներկա վիճակը Աղյուսակ 2. թվարկում է նույն FR մոդելի ճարտարապետության աշխատանքը (Resnet 50), որը վերապատրաստվել է տարբեր սինթետիկ տվյալների հավաքածուների վրա: Ցուցակված է նաև մոտավորապես նույն չափի իսկական տվյալների բազայի վրա պատրաստված մոդելի ելակետային կատարումը: Աղյուսակում նշված է նաև յուրաքանչյուր սինթետիկ տվյալների թողարկման տարեթիվը: Տվյալների հավաքածուի անվանումը ML մոդել # Վերապատրաստման պատկերներ LFW Cfp-fp Ագեդբ-30 Ca-LFW Cp-LFW (իրական աշխարհ) Casia-webface resnet-50 500 հազար 99,55 95.31 94,55 93,78 89,95 (2021) Synface resnet-50 500 հազար 91.93 75.03 61.63 74,73 70.43 (2022) Digiface-1m resnet-50 500 հազար 95.40 87.40 76,97 78.62 78,87 (2023) DCFace resnet-50 500 հազար 98,55 85.33 89,70 91,60 82.62 Ստուգման ճշգրտություններ (%) լայնորեն օգտագործվող FR գնահատման տվյալների հավաքածուների վրա, որոնք ձեռք են բերվել սինթետիկ տվյալների վրա վերապատրաստված մոդելների միջոցով: Առաջին շարքը ելակետային ցուցանիշն է, որը ձեռք է բերվել մոդելի կողմից նույն չափի իրական տվյալների վրա: Բոլոր արդյունքները ստացված են բնօրինակ հրատարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը: Աղյուսակ 2. Ինչպես երևում է Աղյուսակ 2-ում, սինթետիկ տվյալների վրա պատրաստված մոդելներն այնքան լավ չեն աշխատում, որքան իրական աշխարհի տվյալների վրա պատրաստված մոդելները: Թեև կատարողականի բացը «պարզ» և փոքր տվյալների հավաքածուներում, ինչպիսին «LFW»-ն է, փոքր է, այդ բացն ավելի ցայտուն է այլ ավելի կոշտ տվյալների հավաքածուներում, ինչպիսիք են CFP-FP-ը և Agedb-30-ը, որոնք պարունակում են դեմքերի պրոֆիլային դիտումների և նույն դեմքերի նմուշներ: անձ, որը ընդգրկված է համապատասխանաբար մի քանի տարիքի վրա: Հատկանշական է, որ վերջին տարիներին բարելավվել է սինթետիկ տվյալների վրա պատրաստված մոդելների կատարումը: Սինթետիկ տվյալների արդյունավետության վավերացումը մնում է մարտահրավեր: Ապահովել, որ սինթետիկ տվյալները ճշգրիտ կերպով ներկայացնում են իրական աշխարհի պայմանները, շատ կարևոր է դեմքի ճանաչման հուսալի համակարգեր ստեղծելու համար: Այնուամենայնիվ, վավերացման գործընթացը բարդ է և պահանջում է ամուր մեթոդաբանություններ՝ ապահովելու տվյալների որակը և կիրառելիությունը: Հնարավոր լուծում է genAI մոդելի մշակումը, որը կարող է նաև նմանակել այս հատկանիշները սինթետիկ տվյալների մեջ: Գեներատիվ մոդելը կարող է վերապատրաստվել՝ հաղթահարելու այս սահմանափակումները՝ վարժեցնելով այն իրական աշխարհի տվյալների բազայի վրա, որը պարունակում է դեմքի հատկանիշների, պատկերի որակի և ֆոնային տատանումների մեծ տատանումներ: Ողջամիտ է կասկածի տակ առնել, թե որտեղից կարող են գալ նման տվյալներ: Տվյալների նման ձեռքբերումը կբախվի վերոհիշյալ բոլոր սահմանափակումներին, մասնավորապես՝ էթիկական, իրավական և ծախսերի սահմանափակումներին: Այնուամենայնիվ, դրանք մեղմվում են տվյալների բազայի ավելի փոքր չափի շնորհիվ, որն անհրաժեշտ է գեներատիվ FR մոդելների պատրաստման համար: Nvidia-ն կարող է ստեղծել իրատեսական դեմքի պատկերներ, միայն մարզվել է , և չի պարունակում տվյալների հավաքածուի դեմքերի ինքնության մասին տեղեկատվություն: Այս պատկերները չեն հավաքվել՝ հաշվի առնելով FR-ը, և ոչ էլ մոդելը պատրաստված է այդ նպատակով, այդ իսկ պատճառով StyleGAN2-ի կողմից ստեղծված սինթետիկ FR տվյալների հավաքածուների վրա պատրաստված մոդելները չեն համապատասխանում իրական աշխարհի կատարողականին: StyleGAN2 70000 պատկեր Եզրակացություն Սինթետիկ տվյալները խոստումնալից են դեմքի ճանաչման տեխնոլոգիայի առաջընթացի համար, սակայն կարևոր է ճանաչել դրա ներկայիս սահմանափակումները: Թեև genAI-ի առավելությունները ներառում են սինթետիկ նմուշների ռեալիզմը և պատկերների մանրակրկիտ կարգավորման հեշտությունը՝ բարելավելու կամ նվազեցնելու հատկությունները, ինչպիսիք են դեմքի արտահայտությունները, գլխի դիրքը, դեմքի մազերը և այլն: իրական և սինթետիկ տվյալների վրա պատրաստված մոդելների միջև կատարողականի տարբերությունը. նշանակալից. Սինթետիկ տվյալները դեռ չեն փոխարինում լավ մշակված իրական տվյալների հավաքածուներին: Այնուամենայնիվ, դեմքի սինթետիկ տվյալների որակը հասնում է իրական տվյալների որակին, քանի որ տվյալների ստեղծման տեխնիկան բարելավվում է, և, հետևաբար, մենք կարող ենք ենթադրել, որ մոտ ապագայում սինթետիկ տվյալները կարող են լիովին հեռացնել իրական օգտագործման անհրաժեշտությունը: - աշխարհի դեմքի տվյալներ FR մարզումների համար: Առանձնահատկություն պատկերի կողմից Ստեֆ Միդ