මුහුණු හඳුනාගැනීමේ (FR) තාක්ෂණය මෑත වසරවලදී සැලකිය යුතු ලෙස දියුණු වී ඇති අතර, වැඩි දියුණු කළ ආරක්ෂාව සඳහා අවශ්යතාවය සහ අඩු-පරිභෝගික උපාංග, ගුවන් යානා ගොඩබෑම, දේශසීමා පාලනය සහ මූල්ය සේවා වැනි කර්මාන්ත හරහා යෙදුම්වල ව්යාප්තිය මගින් මෙහෙයවනු ලැබේ. ඵලදායී FR පද්ධතිවල හදවතේ තීරණාත්මක සංරචකයක් - දත්ත පවතී. විවිධ තත්වයන් යටතේ මුහුණු නිවැරදිව හඳුනා ගැනීමට සහ සත්යාපනය කිරීමට මෙම ආකෘති පුහුණු කිරීම සඳහා මහා පරිමාණ දත්ත කට්ටල අත්යවශ්ය වේ.
FR විශ්වසනීය වීමට නම්, ජනවිකාස, ආලෝකකරණය, පරිසරයන්, ප්රකාශන සහ අවහිරතා වල වෙනස්කම් ඇතුළත් විවිධ දත්ත වලට ආකෘති නිරාවරණය විය යුතුය. මෙය නුහුරු නුපුරුදු තත්වයන්ට මුහුණ දීමේදී පක්ෂග්රාහී වීමේ හෝ අසාර්ථක වීමේ අවදානම අඩු කිරීම, යෙදවීමේදී ශක්තිමත් බව සහ සාධාරණත්වය සහතික කරයි.
genAI ශිල්පීය ක්රම භාවිතයෙන් නිර්මාණය කරන ලද කෘතිම දත්ත කට්ටලවලට උපකාර විය හැකි නමුත්, ඒවායේ වත්මන් තත්ත්වය තුළ, ඒවාට සැබෑ ලෝක දත්ත කට්ටල සම්පූර්ණයෙන්ම ප්රතිස්ථාපනය කළ නොහැක. මෙම ලිපිය කෘතිම FR දත්ත කට්ටලවල වාසි සහ අවාසි ගවේෂණය කරන අතර මුහුණු හඳුනාගැනීම සඳහා genAI හි වත්මන් තත්ත්වය විමර්ශනය කරයි.
LFW , Cfp-fp , Agedb-30 , Ca-lfw , සහ Cp-lfw යනු FR මාදිලිවල සත්යාපන කාර්ය සාධනය ඇගයීම සඳහා බහුලව භාවිතා වන දත්ත කට්ටල කිහිපයකි. වගුව 1. එකම ඇල්ගොරිතමයක් සමඟ පුහුණු කරන ලද ML ආකෘතියක සත්යාපන කාර්ය සාධනය, විවිධ ප්රමාණයේ සැබෑ ලෝක මුහුණු දත්ත කට්ටල මත පෙන්වයි.
දත්ත කට්ටල ප්රමාණය ආදර්ශ ක්රියාකාරිත්වයට බලපාන ආකාරය සහ ශක්තිමත් FR මාදිලි ලබා ගැනීම සඳහා දත්ත ලබා ගැනීම සිදු විය යුතු පරිමාණයට බලපාන ආකාරය දැක ගත හැකිය. සත්යාපනය යනු ආකෘතියට මුහුණු රූප යුගලයක් ලබා දී ඇති අතර, එම මුහුණු යුගලය එකම පුද්ගලයාගේද නැතිනම් වෙනම පුද්ගලයන් දෙදෙනෙකුගේද යන්න පුරෝකථනය කරයි. ආදර්ශ අනාවැකි වල සත්යාපන නිරවද්යතා ප්රතිශතය වාර්තා වේ.
දත්ත කට්ටලය | එම්.එල් | #පුහුණුව | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99.55 කි | 95.31 කි | 94.55 කි | 93.78 කි | 89.95 කි | |
resnet-50 | මිලියන 12 කි | 99.80 කි | 99.20 කි | 98.10 | -- | -- | |
resnet-50 | මිලියන 17 කි | 99.83 කි | 99.33 කි | 98.55 කි | 96.21 කි | 94.78 කි |
වගුව 1. විවිධ FR මිණුම් සලකුණු පහක සත්යාපන නිරවද්යතා (%). සාධාරණ සංසන්දනයක් සඳහා, සියලුම ප්රතිඵල එකම ML ආකෘතිය සහ ඇල්ගොරිතම භාවිතයෙන් මුල් ප්රකාශිත කෘති වලින් ලබා ගනී.
මහා පරිමාණ පුහුණු දත්ත කට්ටලයකට අමතරව, දත්ත කට්ටලයේ අවම පක්ෂග්රාහීකම් අඩංගු වීම ද එකසේ වැදගත් වේ. FR හි සන්දර්භය තුළ පක්ෂග්රාහීත්වය යන්නෙන් අදහස් කරන්නේ කුමක්ද යන්න මුලින්ම තේරුම් ගැනීම වැදගත්ය. සාමාන්යයෙන්, Machine Learning ආකෘතියක් සඳහා, bias යන්නෙන් අදහස් කරන්නේ විවිධ ආකාරයේ ආදාන දත්ත හරහා ඒකාකාරව නොහැසිරෙන ආකෘතියයි. FR ආකෘතියක් විවිධ ආකාරවලින් පක්ෂග්රාහී විය හැකිය.
වඩාත් පොදු උදාහරණය වන්නේ ජනවාර්ගික නැඹුරුවයි, එහිදී FR ආකෘතියක් යම් ජනවාර්ගික මුහුණුවරකින් ඉදිරිපත් කරන විට දුර්වල ලෙස ක්රියා කිරීමට නැඹුරු වේ.
කෙසේ වෙතත්, විශ්වාසදායක FR ආකෘති ලබා ගැනීම සඳහා ප්රතිරෝධය දැක්විය යුතු එකම නැඹුරුව මෙය නොවේ. වයස් භේදය, ස්ත්රී පුරුෂ භේදය, සහ පාරිසරික පක්ෂග්රාහීත්වය (මුහුණු ආවරණ, මුහුණේ රෝම ආදිය) යනු FR ආකෘතියකට පක්ෂග්රාහීත්වය ප්රදර්ශනය කළ හැකි ආකාරය පිළිබඳ තවත් උදාහරණ කිහිපයකි. FR ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා කරන දත්ත කට්ටලයේ නියෝජිත සාම්පල එකතු කිරීම සහ ඇතුළත් කිරීම මගින් මෙම පක්ෂග්රාහීත්වය අවම කළ හැක.
විවිධ ජාතීන්ට අයත් පුද්ගලයන්ගේ ඡායාරූප, අවුරුදු දහයක් පහළොවක් අතර, විවිධ පසුබිම්වලට එරෙහිව, විවිධ ආලෝක තත්ත්වයන්හිදී, විවිධ මුහුණු ඉරියව් සහිත පුද්ගලයන්ගේ ඡායාරූප ලබාගැනීම දුෂ්කර කාර්යයක් විය හැකිය.
මීට අමතරව, FR සඳහා සැබෑ ලෝක දත්ත එකතු කිරීම වෙනත් අභියෝග ගණනාවක් ඉදිරිපත් කරයි. ලොව පුරා මෙවැනි මහා පරිමාණ විවිධ දත්ත ලබා ගැනීම මිල අධිකය. පිරිවැය සහ තාක්ෂණික සීමාවන් හැරුණු විට, සදාචාරාත්මක සහ පෞද්ගලිකත්ව ගැටළු හේතුවෙන් දත්ත අත්පත් කර ගැනීම වඩ වඩාත් අපහසු වේ.
ජෛවමිතික දත්ත යුරෝපයේ GDPR වැනි නීති මගින් පාලනය වේ (
මෙම නීති මගින් අදාළ පදිංචිකරුවන්ගේ ජෛවමිතික දත්ත අත්පත් කර ගැනීම සහ ගබඩා කිරීම පාලනය කරනු ලබන අතර, එය මහා පරිමාණ ජෛවමිතික දත්ත අත්පත් කර ගැනීම සඳහා තවත් සංකීර්ණත්වයක් එක් කරයි. FR යෙදුම් සඳහා වැඩිවන ඉල්ලුම සැලකිල්ලට ගෙන, කෘත්රිම දත්තවල ශක්යතාව ගවේෂණය කිරීමටත්, පරිමාණය කළ හැකි, සදාචාරාත්මක සහ නීත්යානුකූලව අනුකූල මුහුණු හඳුනාගැනීමේ පද්ධති සංවර්ධනය කිරීම සඳහා එහි ප්රතිලාභ සහ අවාසි පරීක්ෂා කිරීමටත් දැන් තීරණාත්මක කාලයකි.
මෙම අභියෝග, Generative AI (genAI) හි නැගීම සමඟින් සැබෑ ලෝකයේ සංවේදී ජෛවමිතික දත්ත ප්රතිස්ථාපනය කිරීම සඳහා කෘතිම දත්ත නිර්මාණය කිරීමට විශාල පර්යේෂණ ප්රමාණයක් පෙළඹී ඇත. FR හි කෘතිම දත්ත වල වර්තමාන තත්වයට කිමිදීමට පෙර, genAI යන්නෙන් අදහස් කරන්නේ කුමක්ද යන්න තේරුම් ගැනීම අත්යවශ්ය වේ.
සරලව කිවහොත්, genAI යනු එය පුහුණු කර ඇති දත්ත මත පදනම්ව පෙළ, පින්තූර හෝ සංගීතය වැනි නව අන්තර්ගතයන් නිර්මාණය කළ හැකි කෘතිම බුද්ධි වර්ගයක් වන අතර ජනනය කරන ලද දත්ත 'කෘතිම දත්ත' ලෙස හැඳින්වේ.
මුහුණු හඳුනාගැනීම සඳහා GenAI විවිධ හේතු නිසා විශේෂයෙන් ආකර්ෂණය කරයි. වඩාත් කැපී පෙනෙන ලෙස, කෘත්රිම දත්ත කට්ටල AI මගින් ජනනය කරනු ලැබේ, එනම් පර්යේෂකයන්ට, ඉංජිනේරුවන්ට සහ උද්යෝගිමත් අයට සැබෑ පුද්ගලයන්ගෙන් රූප ලබා ගැනීමේ අතින් ක්රියාවලියකට භාජනය නොවී දත්ත කට්ටල ගොඩනගා ගැනීමට (සහ පුහුණු කිරීමට) හැකිය.
සැබෑ රූප දත්ත කට්ටල එකතු කිරීමේ සහ භාවිතයේ ඇති අනුකූලතා අවශ්යතා බොහොමයක් කෘත්රිම දත්ත සඳහා නොපවතින අතර, න්යායාත්මකව, සැබෑ රූප දත්ත මත පුහුණු කරන ලද ඇල්ගොරිතමයකට හේතු විය හැකි පක්ෂග්රාහීත්වය කෘත්රිම දත්ත සමඟ වඩා හොඳින් ගණනය කළ හැකිය.
කෙසේ වෙතත්, සින්තටික් මුහුණු දත්ත කට්ටල තවමත් රිදී උණ්ඩයක් නොවේ. මෙම ලිපියේ පහත සඳහන් කොටස් කෘත්රිම දත්ත කට්ටල බැබළෙන ස්ථාන, ඒවා අඩුවන ස්ථාන සහ මුහුණු හඳුනාගැනීම සඳහා genAI හි වත්මන් තත්ත්වය ආවරණය කරයි.
කෘත්රිම දත්ත මුහුණු හඳුනාගැනීමේ තාක්ෂණය දියුණු කිරීමේදී වටිනා මෙවලමක් බවට පත් කරන වාසි කිහිපයක් ලබා දෙයි. එක් මූලික ප්රතිලාභයක් වන්නේ කෘතිම දත්ත කට්ටලවලට සැබෑ පුද්ගලයින්ගේ රූප ලබා ගැනීම අවශ්ය නොවීමයි. සින්තටික් දත්ත සෘජුවම සැබෑ පුද්ගලික දත්ත භාවිතා නොකරයි, එබැවින්, භාවිතය සඳහා කැමැත්ත සහ අමතක කළ යුතු අයිතිවාසිකම් වැනි රහස්යතා අනුකූලතා අවශ්යතා මතු නොකෙරේ.
කෘත්රිම දත්ත ජනනය කිරීම සැබෑ ලෝක දත්ත විශාල ප්රමාණයක් එකතු කිරීම සහ සටහන් කිරීම වඩා ලාභදායී විය හැකි අතර, එවැනි දත්ත කට්ටලයක් නීත්යානුකූලව සහ සදාචාරාත්මකව අනුකූල බව සහතික කිරීම සඳහා වැය කරන කාලය සහ සම්පත් වලට අමතරව, අතින්, කාලය ගතවන, සහ මිල අධික ක්රියාවලිය. සින්තටික් දත්ත මගින් විශේෂිත විචල්යයන් හැසිරවිය හැකි පාලිත පරිසරයන් නිර්මාණය කිරීමට ඉඩ සලසයි, මුහුණු හඳුනාගැනීමේ ආකෘති පරීක්ෂා කිරීමට සහ සියුම් ලෙස සකස් කිරීමට උපකාරී වේ.
තවද, කෘත්රිම දත්ත විශාල දත්ත කට්ටල නිර්මාණය කිරීම සහ ලබා ගැනීම පහසු කරයි, විශේෂයෙන්ම සැබෑ ලෝකයේ දත්ත හිඟ, රැස් කිරීමට අපහසු, හෝ නීතිමය අවශ්යතා සහ සදාචාරාත්මක සලකා බැලීම් එවැනි එකතු කිරීම පිළිගත නොහැකි අවස්ථාවන්හිදී. GenAI ක්රම පවතින තත්ය-ලෝක දත්ත කට්ටලයකට අතිරේකව, පක්ෂග්රාහීත්වය අඩු කිරීම සඳහා හිඩැස් පිරවීම සඳහා ද භාවිතා කළ හැක; ජනවිකාස හෝ වෙනත් ආකාරයකින්.
උදාහරණයක් ලෙස, ප්රසිද්ධියේ නිකුත් කරන ලද මහා පරිමාණ මුහුණු දත්ත කට්ටල බොහොමයක් ප්රධාන වශයෙන් කොකේසියානු අනන්යතා වලින් සමන්විත වන අතර, එවැනි දත්ත මත පුහුණු කරන ලද ML ආකෘතිවල ජනවිකාස නැඹුරුතාවයක් ඇති කරයි. කෘත්රිම දත්ත කට්ටලයක් මගින් මෙය පහසුවෙන් විසඳා ගත හැක.
රූප වසම සඳහා, Generative Adversarial Networks (GANs) යනු දත්ත ජනනය කිරීමට භාවිතා කරන වඩාත් ජනප්රිය මාදිලියකි. Nvidia ගේ
කෙසේ වෙතත්, මෙම සියලු ශිල්පීය ක්රමවලට පිරිවැය, කාලය, ජනනය කළ හැකි අනන්ය අනන්යතා සංඛ්යාව සහ කාර්ය සාධනය අනුව සීමාවන් ඇත.
න්යායාත්මකව, "සැබෑ පෙනුමැති" මුහුණු සහිත කෘතිම දත්ත කට්ටලයක් සහ වාර්ගිකත්වය, ස්ත්රී පුරුෂ භාවය, ඉරියව්ව, ආලෝකය සහ පසුබිම් විචලනය සඳහා පාලනය කරන ලද විවිධ ගුණාංග සැබෑ "වනයේ" දත්ත කට්ටලයක් අභිබවා යා යුතුය. එසේ නම්, මෙම දත්ත කට්ටල මත පුහුණු කරන ලද ආකෘතිවල කාර්ය සාධනය එකම ප්රමාණයේ සැබෑ ලෝක දත්ත කට්ටලවල පුහුණු කරන ලද ආකෘතිවලට සමීප නොවන්නේ මන්ද? මෙම ප්රශ්නයට පිළිතුර සැබෑ ලෝක දත්තවලම පාලනය කළ නොහැකි ලක්ෂණ තුළ පවතී. සැබෑ දත්තවල වෙනස්කම්වල විශාලත්වය මෙතෙක් ප්රකාශිත කිසිදු පර්යේෂණයකින් සම්පූර්ණයෙන් ග්රහණය කර ගෙන නොමැත.
දත්ත කට්ටලයේ ඇති සියලුම කෘතිම අනන්යතා සඳහා එකම සීමිත වෙනස්කම් සංඛ්යාවක් තිබීම ආදර්ශ ක්රියාකාරීත්වයට හානි කරයි. වෙනස්කම් වැඩි කිරීමට දරන උත්සාහයේ ප්රතිඵලයක් ලෙස මුහුණේ අනන්යතාවය ද වෙනස් වන අතර එමඟින් දත්තවල ඝෝෂාව හඳුන්වා දෙයි, ආදර්ශ ක්රියාකාරීත්වයට නැවතත් හානි කරයි.
වගුව 2. විවිධ කෘතිම දත්ත කට්ටල මත පුහුණු කරන ලද එකම FR ආකෘති ගෘහ නිර්මාණ ශිල්පයේ (Resnet 50) කාර්ය සාධනය ලැයිස්තුගත කරයි. දළ වශයෙන් එකම ප්රමාණයේ සත්ය දත්ත කට්ටලයක් මත පුහුණු කරන ලද ආකෘතියක් සඳහා මූලික කාර්ය සාධනයක් ද ලැයිස්තුගත කර ඇත. එක් එක් කෘතිම දත්ත සඳහා නිකුත් කළ වර්ෂය ද වගුවේ දැක්වේ.
දත්ත කට්ටලයේ නම | ML ආකෘතිය | # පුහුණු පින්තූර | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99.55 කි | 95.31 කි | 94.55 කි | 93.78 කි | 89.95 කි | |
සමමුහුර්ත (2021) | resnet-50 | 500k | 91.93 කි | 75.03 කි | 61.63 කි | 74.73 කි | 70.43 කි |
Digiface-1m (2022) | resnet-50 | 500k | 95.40 කි | 87.40 කි | 76.97 කි | 78.62 කි | 78.87 කි |
DCFace (2023) | resnet-50 | 500k | 98.55 කි | 85.33 කි | 89.70 කි | 91.60 කි | 82.62 කි |
වගුව 2. කෘත්රිම දත්ත මත පුහුණු කරන ලද ආකෘති මගින් ලබා ගන්නා ලද බහුලව භාවිතා වන FR ඇගයීම් දත්ත කට්ටලවල සත්යාපන නිරවද්යතා (%). පළමු පේළිය සමාන ප්රමාණයේ සැබෑ ලෝක දත්ත මත ආකෘතිය විසින් ලබා ගන්නා ලද මූලික කාර්ය සාධනයයි. සියලුම ප්රතිඵල එකම ML ආකෘතිය සහ ඇල්ගොරිතම භාවිතයෙන් මුල් ප්රකාශිත කෘති වලින් ලබා ගනී.
වගුව 2 හි දැකිය හැකි පරිදි, කෘතිම දත්ත මත පුහුණු කරන ලද ආකෘති සැබෑ ලෝක දත්ත මත පුහුණු කරන ලද ආකෘති මෙන් ක්රියා නොකරයි. "සරල" සහ 'LFW' වැනි කුඩා දත්ත කට්ටලවල කාර්ය සාධන පරතරය කුඩා වන අතර, මුහුණුවල පැතිකඩ දසුන් සහ මුහුණුවල සාම්පල අඩංගු CFP-FP සහ Agedb-30 වැනි අනෙකුත් දැඩි දත්ත කට්ටලවල පරතරය වඩාත් කැපී පෙනේ. පිළිවෙලින් වයස් ගණනාවක් පුරා විහිදෙන පුද්ගලයා.
කෘත්රිම දත්ත මත පුහුණු කරන ලද ආකෘතිවල ක්රියාකාරීත්වය මෑත වසරවලදී වැඩිදියුණු වී ඇති බව සැලකිය යුතුය.
කෘතිම දත්තවල සඵලතාවය තහවුරු කිරීම අභියෝගයක්ව පවතී. විශ්වසනීය මුහුණු හඳුනාගැනීමේ පද්ධති ගොඩනැගීම සඳහා කෘත්රිම දත්ත සැබෑ ලෝක තත්ත්වයන් නිවැරදිව නිරූපණය කරන බව සහතික කිරීම ඉතා වැදගත් වේ. කෙසේ වෙතත්, වලංගු කිරීමේ ක්රියාවලිය සංකීර්ණ වන අතර දත්තවල ගුණාත්මකභාවය සහ අදාළත්වය සහතික කිරීම සඳහා ශක්තිමත් ක්රමවේද අවශ්ය වේ.
හැකි විසඳුමක් වන්නේ කෘතිම දත්තවල මෙම විශේෂාංග අනුකරණය කළ හැකි genAI ආකෘතියක් සංවර්ධනය කිරීමයි. ජනක ආකෘතියක් මුහුණේ ලක්ෂණ, රූපයේ ගුණාත්මකභාවය සහ පසුබිම් විචලනය පිළිබඳ ප්රමාණවත් වෙනස්කම් අඩංගු සැබෑ ලෝක දත්ත කට්ටලයක් මත පුහුණු කිරීමෙන් මෙම සීමාවන් මඟහරවා ගැනීමට පුහුණු කළ හැකිය. එවැනි දත්ත පැමිණෙන්නේ කොහෙන්ද යන්න ප්රශ්න කිරීම සාධාරණ ය. එවැනි දත්ත ලබා ගැනීමේදී ඉහත සඳහන් කළ සියලු බාධාවන්, එනම් සදාචාරාත්මක, නීතිමය සහ වියදම් සීමා කිරීම්වලට මුහුණ දීමට සිදුවේ.
කෙසේ වෙතත්, ජනක FR ආකෘති පුහුණු කිරීමට අවශ්ය කුඩා දත්ත කට්ටල ප්රමාණය මගින් මේවා අවම කරනු ලැබේ. Nvidia ගේ
සින්තටික් දත්ත මුහුණු හඳුනාගැනීමේ තාක්ෂණය දියුණු කිරීම සඳහා පොරොන්දුවක් දරයි, නමුත් එහි වර්තමාන සීමාවන් හඳුනා ගැනීම අත්යවශ්ය වේ. genAI ප්රතිලාභ අතර කෘත්රිම සාම්පලවල යථාර්ථවාදය සහ මුහුණේ ඉරියව්, හිස ඉරියව්, මුහුණේ රෝම යනාදී ලක්ෂණ වැඩි දියුණු කිරීමට හෝ අඩු කිරීමට රූප සියුම් ලෙස සුසර කිරීමේ පහසුව ඇතුළත් වන අතර සැබෑ එදිරිව කෘතිම දත්ත මත පුහුණු කරන ලද ආකෘති අතර කාර්ය සාධන පරතරය වේ. සැලකිය යුතු.
කෘත්රිම දත්ත තවමත් හොඳින් සකස් කරන ලද සැබෑ දත්ත කට්ටල සඳහා ආදේශකයක් නොවේ. එසේ වුවද, දත්ත උත්පාදන ශිල්පීය ක්රම වැඩිදියුණු වන බැවින් කෘතිම මුහුණු දත්තවල ගුණාත්මක භාවය සැබෑ ලෝක දත්තවල ගුණාත්මක භාවයට හසුවෙමින් පවතින අතර, ඒ අනුව, නුදුරු අනාගතයේ දී, කෘත්රිම දත්ත මගින් සැබෑව භාවිතා කිරීමේ අවශ්යතාවය සම්පූර්ණයෙන්ම ඉවත් කළ හැකි බව අපට අනුමාන කළ හැක. FR පුහුණුව සඳහා ලෝක මුහුණු දත්ත.
විශේෂාංග රූපය විසිනි