paint-brush
Սինթետիկ տվյալներ դեմքերի ճանաչման մեջ.կողմից@chinmayjog
409 ընթերցումներ
409 ընթերցումներ

Սինթետիկ տվյալներ դեմքերի ճանաչման մեջ.

կողմից Chinmay Jog8m2024/12/07
Read on Terminal Reader

Չափազանց երկար; Կարդալ

Դեմքի ճանաչման (FR) տեխնոլոգիան զգալիորեն առաջընթաց է ապրել վերջին տարիներին: Այս հոդվածը ուսումնասիրում է սինթետիկ տվյալների օգտագործման ներուժը FR մոդելների պատրաստման համար:
featured image - Սինթետիկ տվյալներ դեմքերի ճանաչման մեջ.
Chinmay Jog HackerNoon profile picture
0-item

Դեմքի ճանաչման (FR) տեխնոլոգիան զգալիորեն առաջադիմել է վերջին տարիներին՝ պայմանավորված ուժեղացված անվտանգության անհրաժեշտությամբ և հավելվածների տարածմամբ այնպիսի ոլորտներում, ինչպիսիք են ցածրորակ սպառողական սարքերը, ինքնաթիռների նստեցումը, սահմանային հսկողությունը և ֆինանսական ծառայությունները: Արդյունավետ FR համակարգերի հիմքում ընկած է կարևոր բաղադրիչը՝ տվյալները: Լայնածավալ տվյալների հավաքածուները կարևոր են այս մոդելներին տարբեր պայմաններում դեմքերը ճշգրիտ նույնականացնելու և ստուգելու համար:


Որպեսզի FR-ն հուսալի լինի, մոդելները պետք է ենթարկվեն տարբեր տվյալների, որոնք ներառում են ժողովրդագրության, լուսավորության, միջավայրի, արտահայտությունների և խցանումների տատանումները: Սա ապահովում է ամրություն և արդարություն տեղակայման մեջ՝ նվազեցնելով կողմնակալության կամ ձախողման վտանգը անծանոթ պայմանների հետ հանդիպելիս:


Սինթետիկ տվյալների հավաքածուները, որոնք ստեղծվել են genAI տեխնիկայի միջոցով, կարող են պոտենցիալ օգնել, բայց իրենց ներկայիս վիճակում դրանք չեն կարող ամբողջությամբ փոխարինել իրական աշխարհի տվյալների հավաքածուները: Այս հոդվածը ուսումնասիրում է սինթետիկ FR տվյալների հավաքածուների առավելություններն ու թերությունները և ուսումնասիրում է genAI-ի ներկայիս վիճակը դեմքի ճանաչման համար:


Դեմքի տվյալների ձեռքբերում. իրական աշխարհ ընդդեմ սինթետիկ

LFW-ը , Cfp-fp-ը , Agedb-30-ը , Ca-lfw-ը և Cp-lfw-ն ամենաշատ օգտագործվող տվյալների հավաքածուներից են, որոնք օգտագործվում են FR մոդելների ստուգման կատարողականը գնահատելու համար: Աղյուսակ 1. ցուցադրում է նույն ալգորիթմով վարժեցված ML մոդելի ստուգման կատարումը իրական աշխարհի դեմքերի տարբեր չափերի տվյալների հավաքածուների վրա:


Կարելի է տեսնել, թե ինչպես է տվյալների բազայի չափը ազդում մոդելի կատարողականի և այն մասշտաբի վրա, որով տվյալների հավաքագրումը պետք է տեղի ունենա՝ կայուն FR մոդելներ ստանալու համար: Ստուգումը նշանակում է, որ մոդելին տրվում է մի զույգ դեմքի պատկեր, և այն կանխատեսում է՝ արդյոք դեմքի զույգը պատկանում է նույն անձին, թե երկու առանձին մարդկանց: Հաղորդվում է մոդելի կանխատեսումների ստուգման ճշգրտության տոկոսը:

Տվյալների հավաքածու
Անուն

ՄԼ
Մոդել

#Թրեյնինգ
Պատկերներ

LFW

Cfp-fp

Ագեդբ-30

Ca-LFW

Cp-LFW

Casia վեբ էջ

resnet-50

500 հազար

99,55

95.31

94,55

93,78

89,95

վեբ երես 12 մ

resnet-50

12 մլն

99,80

99.20

98.10

--

--

փայլ 360կ

resnet-50

17 մլն

99,83

99.33

98,55

96.21

94,78

Աղյուսակ 1. Ստուգման ճշտություններ (%) հինգ տարբեր FR հենանիշերի վրա: Արդար համեմատության համար բոլոր արդյունքները ստացվում են բնօրինակ հրապարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը:


Ի լրումն ուսուցման լայնածավալ տվյալների բազայի, նույնքան կարևոր է, որ տվյալների բազան պարունակի նվազագույն շեղումներ: Կարևոր է նախ հասկանալ, թե ինչ է նշանակում կողմնակալություն FR-ի համատեքստում: Ընդհանուր առմամբ, մեքենայական ուսուցման մոդելի համար կողմնակալությունը վերաբերում է այն մոդելին, որը միատեսակ չի վարվում տարբեր տեսակի մուտքային տվյալների միջև: FR մոդելը կարող է կողմնակալ լինել տարբեր ձևերով:


Ամենատարածված օրինակը էթնիկական կողմնակալությունն է, որտեղ FR մոդելը հակված է վատ արդյունքների, երբ ներկայացվում է որոշակի ազգության դեմքերով:


Այնուամենայնիվ, սա միակ կողմնակալությունը չէ, որին պետք է հակադարձել հուսալի FR մոդելներ ձեռք բերելու համար: Տարիքային կողմնակալությունը, գենդերային կողմնակալությունը և շրջակա միջավայրի կողմնակալությունը (դեմքի ծածկույթ, դեմքի մազեր և այլն) մի քանի այլ օրինակներ են, թե ինչպես FR մոդելը կարող է կողմնակալություն դրսևորել: Այս կողմնակալությունները կարելի է նվազագույնի հասցնել՝ հավաքելով և ներառելով ներկայացուցչական նմուշներ տվյալների շտեմարանում, որն օգտագործվում է FR մոդելը պատրաստելու համար:


Տարբեր էթնիկ պատկանելության մարդկանց լուսանկարներ ստանալը՝ տասը-տասնհինգ տարի տարբերությամբ, կամ տարբեր ֆոնի վրա գտնվող մարդկանց լուսանկարներ, լուսավորության տարբեր պայմաններում, դեմքի տարբեր արտահայտություններով, կարող է դժվար գործ լինել:


Բացի այդ, FR-ի համար իրական տվյալների հավաքագրումը բազմաթիվ այլ մարտահրավերներ է ներկայացնում: Նման լայնածավալ բազմազան տվյալների ձեռքբերումն ամբողջ աշխարհից ծախսատար է: Բացի ծախսերի և տեխնիկական սահմանափակումներից, տվյալների ձեռքբերումն ավելի ու ավելի դժվար է դառնում էթիկայի և գաղտնիության հետ կապված խնդիրների պատճառով:


Կենսաչափական տվյալները կարգավորվում են այնպիսի օրենքներով, ինչպիսիք են Եվրոպայի GDPR-ը ( Տվյալների պաշտպանության ընդհանուր կանոնակարգ ), Կալիֆորնիայի CCPA ( Կալիֆորնիայի սպառողների գաղտնիության ակտ ), և Իլլիոնիսի BIPA ( Կենսաչափական տեղեկատվության գաղտնիության ակտ ), մի քանիսը նշելու համար:


Այս օրենքները կարգավորում են համապատասխան բնակիչների կենսաչափական տվյալների ձեռքբերումը և պահպանումը, ինչը լրացուցիչ բարդություն է հաղորդում լայնածավալ կենսաչափական տվյալների ձեռքբերմանը: Հաշվի առնելով FR հավելվածների աճող պահանջարկը, հենց հիմա վճռորոշ ժամանակ է ուսումնասիրելու սինթետիկ տվյալների կենսունակությունը՝ ուսումնասիրելու դրանց առավելություններն ու թերությունները մասշտաբային, էթիկական և օրինական դեմքերի ճանաչման համակարգերի մշակման համար:


Այս մարտահրավերները, զուգորդված Generative AI (genAI) աճի հետ, դրդել են մեծ քանակությամբ հետազոտություններ ստեղծել սինթետիկ տվյալներ՝ փոխարինելու իրական աշխարհի զգայուն կենսաչափական տվյալները: Նախքան FR-ում սինթետիկ տվյալների ներկայիս վիճակի մեջ մտնելը, անհրաժեշտ է հասկանալ, թե ինչ է նշանակում genAI:


Պարզ ասած, genAI-ն արհեստական ինտելեկտի տեսակ է, որը կարող է ստեղծել նոր բովանդակություն, ինչպիսիք են տեքստը, պատկերները կամ երաժշտությունը՝ հիմնվելով այն տվյալների վրա, որոնց վրա վերապատրաստվել է, և ստացված տվյալները կոչվում են «սինթետիկ տվյալներ»:


Դեմքի ճանաչման GenAI-ը հատկապես գայթակղիչ է բազմաթիվ պատճառներով: Հատկանշական է, որ սինթետիկ տվյալների հավաքածուները ստեղծվում են AI-ի կողմից, ինչը նշանակում է, որ հետազոտողները, ինժեներները և էնտուզիաստները կարող են ստեղծել (և վարժեցնել) տվյալների հավաքածուներ՝ առանց իրական անձանցից պատկերներ ստանալու ձեռքով գործընթացի անցնելու:


Իրական պատկերների տվյալների հավաքածուների հավաքագրման և օգտագործման համապատասխանության պահանջներից շատերը սինթետիկ տվյալների համար չեն, և, տեսականորեն, կողմնակալությունները, որոնք կարող են հանգեցնել իրական պատկերի տվյալների վրա պատրաստված ալգորիթմի, կարող են ավելի լավ հաշվառվել սինթետիկ տվյալների հետ:


Այնուամենայնիվ, դեմքի սինթետիկ տվյալների հավաքածուները դեռևս արծաթե փամփուշտ չեն: Այս հոդվածի հետևյալ բաժինները ներառում են, թե որտեղ են փայլում սինթետիկ տվյալների շտեմարանները, որտեղ դրանք պակասում են, և դեմքի ճանաչման genAI-ի ներկայիս վիճակը:


Սինթետիկ տվյալների առավելությունները դեմքի ճանաչման մեջ

Սինթետիկ տվյալներն առաջարկում են մի քանի առավելություններ, որոնք այն դարձնում են արժեքավոր գործիք դեմքերի ճանաչման տեխնոլոգիայի զարգացման գործում: Առաջնային առավելություններից մեկն այն է, որ սինթետիկ տվյալների հավաքածուները չեն պահանջում իրական մարդկանց պատկերներ ստանալ: Սինթետիկ տվյալները ուղղակիորեն չեն օգտագործում իրական անձնական տվյալներ, հետևաբար, գաղտնիության պահպանման պահանջները, ինչպիսիք են օգտագործման համաձայնությունը և մոռացվելու իրավունքները, չեն բարձրացվում:


Սինթետիկ տվյալների ստեղծումը կարող է նաև ավելի ծախսարդյունավետ լինել, քան իրական աշխարհի տվյալների հսկայական քանակություն հավաքելը և ծանոթագրելը, որը, ի լրումն ժամանակի և ռեսուրսների, որոնք ծախսվում են՝ ապահովելու համար, որ տվյալների բազան օրինական և էթիկական է, ձեռնարկ է, ժամանակատար, և թանկ գործընթաց: Սինթետիկ տվյալները թույլ են տալիս ստեղծել վերահսկվող միջավայրեր, որտեղ կարող են շահարկվել հատուկ փոփոխականներ՝ օգնելով դեմքի ճանաչման մոդելների փորձարկմանն ու ճշգրտմանը:


Ավելին, սինթետիկ տվյալները հեշտացնում են տվյալների մեծ հավաքածուներ ստեղծելն ու ստանալը, հատկապես այն իրավիճակներում, երբ իրական աշխարհի տվյալները սակավ են, դժվար է հավաքել, կամ երբ իրավական պահանջներն ու էթիկական նկատառումները նման հավաքագրումն անհիմն են դարձնում: GenAI մեթոդները կարող են օգտագործվել նաև գոյություն ունեցող իրական աշխարհի տվյալների բազան լրացնելու համար՝ լրացնելով բացերը՝ կանխակալությունները նվազեցնելու համար. ժողովրդագրական կամ այլ կերպ:


Որպես օրինակ՝ հրապարակայնորեն հրապարակված դեմքերի լայնածավալ տվյալների հավաքածուներից շատերը հիմնականում բաղկացած են կովկասյան ինքնություններից, ինչը ժողովրդագրական կողմնակալություն է առաջացնում նման տվյալների վրա պատրաստված ՓԼ մոդելներում: Սա հեշտությամբ կարելի է շտկել սինթետիկ տվյալների բազայի միջոցով:


Սինթետիկ տվյալների ներկայիս սահմանափակումները դեմքի ճանաչման մեջ

Պատկերի տիրույթի համար Generative Adversarial Networks-ը (GANs) հանդիսանում է տվյալների ստեղծման համար օգտագործվող ամենատարածված մոդելներից մեկը: Nvidia-ի Stylegan , և Stylegan2 հրաշքներ են գործել՝ ստեղծելով դեմքի սինթետիկ պատկերներ, որոնք չեն տարբերվում իրական դեմքերից: Microsoft-ի հետազոտողները Դիջիֆեյս-1մ , Քիմ և այլք DiscoGAN , Tencents' Synface և Միչիգանի պետական համալսարանում DCFace ի թիվս այլոց, զգալի առաջընթաց են գրանցել դեմքերի ճանաչման համար սինթետիկ տվյալների շտեմարանների ստեղծման գործում և դրական արդյունքներ են ցույց տվել իրական աշխարհի տվյալների վրա:


Այնուամենայնիվ, այս բոլոր տեխնիկան սահմանափակումներ ունի ծախսերի, ժամանակի, եզակի նույնականությունների քանակի, որոնք կարող են ստեղծվել և կատարողականության առումով. ոչ մինչև պար իրական դեմքի տվյալների հավաքածուների վրա վերապատրաստված մոդելներով:


Տեսականորեն, «իրական տեսք ունեցող» դեմքերով և էթնիկ պատկանելության, սեռի, կեցվածքի, լուսավորության և ֆոնային տատանումների վերահսկվող տարբեր հատկանիշներով սինթետիկ տվյալների բազան պետք է գերազանցի իրական «վայրի բնության մեջ» տվյալներից: Այդ դեպքում ինչու՞ այս տվյալների հավաքածուների վրա պատրաստված մոդելների աշխատանքը ոչ մի տեղ մոտ չէ իրական աշխարհի նույն չափի տվյալների հավաքածուների վրա պատրաստված մոդելներին: Այս հարցի պատասխանը բուն իրական աշխարհի տվյալների անվերահսկելի հատկանիշների մեջ է: Իրական տվյալների տատանումների մեծությունը մինչ այժմ ամբողջությամբ չի բացահայտվել որևէ հրապարակված հետազոտության կողմից:


Տվյալների հավաքածուի բոլոր սինթետիկ ինքնությունների համար նույն սահմանափակ թվով տատանումների առկայությունը վնասում է մոդելի կատարողականին: Տատանումները մեծացնելու փորձը հանգեցնում է նրան, որ դեմքի ինքնությունը նույնպես փոխվում է, ինչը աղմուկ է բերում տվյալների մեջ՝ կրկին վնասելով մոդելի աշխատանքին:


Սինթետիկ դեմքի տվյալների հավաքածուների ներկա վիճակը

Աղյուսակ 2. թվարկում է նույն FR մոդելի ճարտարապետության աշխատանքը (Resnet 50), որը վերապատրաստվել է տարբեր սինթետիկ տվյալների հավաքածուների վրա: Ցուցակված է նաև մոտավորապես նույն չափի իսկական տվյալների բազայի վրա պատրաստված մոդելի ելակետային կատարումը: Աղյուսակում նշված է նաև յուրաքանչյուր սինթետիկ տվյալների թողարկման տարեթիվը:


Տվյալների հավաքածուի անվանումը

ML մոդել

# Վերապատրաստման պատկերներ

LFW

Cfp-fp

Ագեդբ-30

Ca-LFW

Cp-LFW

Casia-webface (իրական աշխարհ)

resnet-50

500 հազար

99,55

95.31

94,55

93,78

89,95

Synface (2021)

resnet-50

500 հազար

91.93

75.03

61.63

74,73

70.43

Digiface-1m (2022)

resnet-50

500 հազար

95.40

87.40

76,97

78.62

78,87

DCFace (2023)

resnet-50

500 հազար

98,55

85.33

89,70

91,60

82.62

Աղյուսակ 2. Ստուգման ճշգրտություններ (%) լայնորեն օգտագործվող FR գնահատման տվյալների հավաքածուների վրա, որոնք ձեռք են բերվել սինթետիկ տվյալների վրա վերապատրաստված մոդելների միջոցով: Առաջին շարքը ելակետային ցուցանիշն է, որը ձեռք է բերվել մոդելի կողմից նույն չափի իրական տվյալների վրա: Բոլոր արդյունքները ստացված են բնօրինակ հրատարակված աշխատանքներից՝ օգտագործելով նույն ML մոդելը և ալգորիթմը:


Ինչպես երևում է Աղյուսակ 2-ում, սինթետիկ տվյալների վրա պատրաստված մոդելներն այնքան լավ չեն աշխատում, որքան իրական աշխարհի տվյալների վրա պատրաստված մոդելները: Թեև կատարողականի բացը «պարզ» և փոքր տվյալների հավաքածուներում, ինչպիսին «LFW»-ն է, փոքր է, այդ բացն ավելի ցայտուն է այլ ավելի կոշտ տվյալների հավաքածուներում, ինչպիսիք են CFP-FP-ը և Agedb-30-ը, որոնք պարունակում են դեմքերի պրոֆիլային դիտումների և նույն դեմքերի նմուշներ: անձ, որը ընդգրկված է համապատասխանաբար մի քանի տարիքի վրա:


Հատկանշական է, որ վերջին տարիներին բարելավվել է սինթետիկ տվյալների վրա պատրաստված մոդելների կատարումը:


Սինթետիկ տվյալների արդյունավետության վավերացումը մնում է մարտահրավեր: Ապահովել, որ սինթետիկ տվյալները ճշգրիտ կերպով ներկայացնում են իրական աշխարհի պայմանները, շատ կարևոր է դեմքի ճանաչման հուսալի համակարգեր ստեղծելու համար: Այնուամենայնիվ, վավերացման գործընթացը բարդ է և պահանջում է ամուր մեթոդաբանություններ՝ ապահովելու տվյալների որակը և կիրառելիությունը:


Հնարավոր լուծում է genAI մոդելի մշակումը, որը կարող է նաև նմանակել այս հատկանիշները սինթետիկ տվյալների մեջ: Գեներատիվ մոդելը կարող է վերապատրաստվել՝ հաղթահարելու այս սահմանափակումները՝ վարժեցնելով այն իրական աշխարհի տվյալների բազայի վրա, որը պարունակում է դեմքի հատկանիշների, պատկերի որակի և ֆոնային տատանումների մեծ տատանումներ: Ողջամիտ է կասկածի տակ առնել, թե որտեղից կարող են գալ նման տվյալներ: Տվյալների նման ձեռքբերումը կբախվի վերոհիշյալ բոլոր սահմանափակումներին, մասնավորապես՝ էթիկական, իրավական և ծախսերի սահմանափակումներին:


Այնուամենայնիվ, դրանք մեղմվում են տվյալների բազայի ավելի փոքր չափի շնորհիվ, որն անհրաժեշտ է գեներատիվ FR մոդելների պատրաստման համար: Nvidia-ն StyleGAN2 կարող է ստեղծել իրատեսական դեմքի պատկերներ, միայն մարզվել է 70000 պատկեր , և չի պարունակում տվյալների հավաքածուի դեմքերի ինքնության մասին տեղեկատվություն: Այս պատկերները չեն հավաքվել՝ հաշվի առնելով FR-ը, և ոչ էլ մոդելը պատրաստված է այդ նպատակով, այդ իսկ պատճառով StyleGAN2-ի կողմից ստեղծված սինթետիկ FR տվյալների հավաքածուների վրա պատրաստված մոդելները չեն համապատասխանում իրական աշխարհի կատարողականին:


Եզրակացություն

Սինթետիկ տվյալները խոստումնալից են դեմքի ճանաչման տեխնոլոգիայի առաջընթացի համար, սակայն կարևոր է ճանաչել դրա ներկայիս սահմանափակումները: Թեև genAI-ի առավելությունները ներառում են սինթետիկ նմուշների ռեալիզմը և պատկերների մանրակրկիտ կարգավորման հեշտությունը՝ բարելավելու կամ նվազեցնելու հատկությունները, ինչպիսիք են դեմքի արտահայտությունները, գլխի դիրքը, դեմքի մազերը և այլն: իրական և սինթետիկ տվյալների վրա պատրաստված մոդելների միջև կատարողականի տարբերությունը. նշանակալից.


Սինթետիկ տվյալները դեռ չեն փոխարինում լավ մշակված իրական տվյալների հավաքածուներին: Այնուամենայնիվ, դեմքի սինթետիկ տվյալների որակը հասնում է իրական տվյալների որակին, քանի որ տվյալների ստեղծման տեխնիկան բարելավվում է, և, հետևաբար, մենք կարող ենք ենթադրել, որ մոտ ապագայում սինթետիկ տվյալները կարող են լիովին հեռացնել իրական օգտագործման անհրաժեշտությունը: - աշխարհի դեմքի տվյալներ FR մարզումների համար:


Առանձնահատկություն պատկերի կողմից Ստեֆ Միդ