Teknologi pengecaman muka (FR) telah berkembang dengan ketara dalam beberapa tahun kebelakangan ini, didorong oleh keperluan untuk keselamatan yang dipertingkatkan dan percambahan aplikasi merentas industri seperti peranti pengguna rendah, menaiki pesawat, kawalan sempadan dan perkhidmatan kewangan. Di tengah-tengah sistem FR yang berkesan terletak komponen penting—data. Set data berskala besar adalah penting untuk melatih model ini untuk mengenal pasti dan mengesahkan wajah dengan tepat dalam pelbagai keadaan.
Untuk FR boleh dipercayai, model mesti didedahkan kepada data yang pelbagai yang merangkumi variasi dalam demografi, pencahayaan, persekitaran, ekspresi dan oklusi. Ini memastikan keteguhan dan keadilan dalam penggunaan, mengurangkan risiko berat sebelah atau kegagalan apabila menghadapi keadaan yang tidak biasa.
Set data sintetik yang dibuat menggunakan teknik genAI berpotensi membantu, tetapi dalam keadaan semasa, set data tersebut tidak dapat menggantikan set data dunia sebenar sepenuhnya. Artikel ini meneroka kelebihan dan kekurangan set data FR sintetik dan menyiasat keadaan semasa genAI untuk pengecaman muka.
LFW , Cfp-fp , Agedb-30 , Ca-lfw dan Cp-lfw ialah beberapa set data yang paling banyak digunakan yang digunakan untuk menilai prestasi pengesahan model FR. Jadual 1. memaparkan prestasi pengesahan model ML yang dilatih dengan algoritma yang sama, pada set data muka dunia sebenar dengan saiz yang berbeza.
Ia boleh dilihat bagaimana saiz set data mempengaruhi prestasi model dan skala di mana pemerolehan data mesti berlaku untuk mendapatkan model FR yang mantap. Pengesahan bermaksud model diberikan sepasang imej wajah dan ia meramalkan sama ada pasangan wajah itu milik orang yang sama atau dua orang yang berasingan. Peratusan ketepatan pengesahan ramalan model dilaporkan.
Set data | ML | # Latihan | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
resnet-50 | 12 juta | 99.80 | 99.20 | 98.10 | -- | -- | |
resnet-50 | 17 juta | 99.83 | 99.33 | 98.55 | 96.21 | 94.78 |
Jadual 1. Ketepatan pengesahan (%) pada lima penanda aras FR yang berbeza. Untuk perbandingan yang saksama, semua keputusan diperoleh daripada karya asal yang diterbitkan menggunakan model dan algoritma ML yang sama.
Sebagai tambahan kepada set data latihan berskala besar, adalah sama pentingnya set data mengandungi berat sebelah minimum. Adalah penting untuk memahami dahulu maksud berat sebelah dalam konteks FR. Secara umum, untuk model Pembelajaran Mesin, berat sebelah merujuk kepada model yang tidak berkelakuan seragam merentas pelbagai jenis data input. Model FR boleh berat sebelah dalam cara yang berbeza.
Contoh yang paling biasa ialah berat sebelah etnik, di mana model FR cenderung menunjukkan prestasi yang buruk apabila dipersembahkan dengan wajah etnik tertentu.
Walau bagaimanapun, ini bukan satu-satunya berat sebelah yang perlu diatasi untuk mendapatkan model FR yang boleh dipercayai. Kecondongan umur, berat sebelah jantina dan berat sebelah persekitaran (penutup muka, rambut muka, dll.) ialah beberapa contoh lain tentang cara model FR boleh menunjukkan berat sebelah. Kecondongan ini boleh diminimumkan dengan mengumpul dan memasukkan sampel perwakilan dalam set data yang digunakan untuk melatih model FR.
Memperoleh foto orang dari etnik yang berbeza, jarak sepuluh hingga lima belas tahun, atau foto seseorang dengan latar belakang yang berbeza, dalam keadaan pencahayaan yang berbeza-beza, dengan ekspresi muka yang berbeza boleh terbukti menjadi tugas yang sukar.
Di samping itu, mengumpul data dunia sebenar untuk FR memberikan banyak cabaran lain. Memperoleh data berskala besar yang pelbagai dari seluruh dunia memerlukan kos yang tinggi. Selain daripada had kos dan teknikal, pemerolehan data semakin sukar disebabkan oleh kebimbangan etika dan privasi.
Data biometrik dikawal oleh undang-undang seperti GDPR Eropah (
Undang-undang ini mengawal pemerolehan dan penyimpanan data biometrik penduduk masing-masing, yang menambahkan lagi kerumitan kepada pemerolehan data biometrik berskala besar. Memandangkan permintaan yang semakin meningkat untuk aplikasi FR, sekarang ialah masa yang penting untuk meneroka daya maju data sintetik, mengkaji faedah dan kelemahannya untuk membangunkan sistem pengecaman muka berskala, beretika dan mematuhi undang-undang.
Cabaran ini, ditambah dengan peningkatan Generative AI (genAI) telah mendorong sejumlah besar penyelidikan untuk mencipta data sintetik bagi menggantikan data biometrik sensitif dunia sebenar. Sebelum menyelami keadaan semasa data sintetik dalam FR, adalah penting untuk memahami maksud genAI.
Secara ringkasnya, genAI ialah sejenis kecerdasan buatan yang boleh mencipta kandungan baharu, seperti teks, imej atau muzik, berdasarkan data yang telah dilatih, dan data yang dijana dipanggil 'data sintetik'.
GenAI untuk pengecaman muka sangat menarik untuk pelbagai sebab. Paling ketara, set data sintetik dijana oleh AI, bermakna penyelidik, jurutera dan peminat boleh membina (dan melatih) set data tanpa menjalani proses manual untuk mendapatkan imej daripada individu sebenar.
Banyak keperluan pematuhan dalam pengumpulan dan penggunaan set data imej sebenar tidak terdapat untuk data sintetik, dan, secara teorinya, berat sebelah yang mungkin mengakibatkan algoritma yang dilatih pada data imej sebenar boleh diambil kira dengan lebih baik dengan data sintetik.
Walau bagaimanapun, set data muka sintetik belum lagi menjadi peluru perak. Bahagian berikut dalam artikel ini merangkumi tempat set data sintetik bersinar, tempat ia kurang dan keadaan semasa genAI untuk pengecaman muka.
Data sintetik menawarkan beberapa kelebihan yang menjadikannya alat yang berharga dalam pembangunan teknologi pengecaman muka. Salah satu faedah utama ialah set data sintetik tidak memerlukan mendapatkan imej orang sebenar. Data sintetik tidak secara langsung menggunakan data peribadi sebenar, oleh itu, keperluan pematuhan privasi seperti persetujuan untuk digunakan dan hak untuk dilupakan tidak dibangkitkan.
Menjana data sintetik juga boleh menjadi lebih kos efektif daripada mengumpul dan menganotasi sejumlah besar data dunia sebenar, yang, sebagai tambahan kepada masa dan sumber yang dibelanjakan untuk memastikan set data sedemikian mematuhi undang-undang dan etika, adalah manual, memakan masa, dan proses yang mahal. Data sintetik membolehkan penciptaan persekitaran terkawal di mana pembolehubah tertentu boleh dimanipulasi, membantu dalam ujian dan penalaan halus model pengecaman muka.
Tambahan pula, data sintetik memudahkan untuk mencipta dan mendapatkan set data yang besar, terutamanya dalam situasi di mana data dunia sebenar adalah terhad, sukar untuk dikumpulkan atau apabila keperluan undang-undang dan pertimbangan etika menjadikan pengumpulan sedemikian tidak dapat dipertahankan. Kaedah GenAI juga boleh digunakan untuk menambah set data dunia sebenar sedia ada, mengisi jurang untuk mengurangkan berat sebelah; demografi atau sebaliknya.
Sebagai contoh, kebanyakan set data muka berskala besar yang dikeluarkan secara terbuka kebanyakannya terdiri daripada identiti Kaukasia, yang menyebabkan kecenderungan demografi dalam model ML yang dilatih pada data tersebut. Ini boleh diselesaikan dengan mudah dengan set data sintetik.
Untuk domain imej, Generative Adversarial Networks (GAN) ialah salah satu model paling popular yang digunakan untuk menjana data. milik Nvidia
Walau bagaimanapun, semua teknik ini mempunyai had dari segi sama ada kos, masa, bilangan identiti unik yang boleh dijana, dan prestasi yang
Secara teorinya, set data sintetik dengan wajah "berwajah sebenar" dan atribut pelbagai terkawal untuk etnik, jantina, pose, pencahayaan dan variasi latar belakang harus mengatasi set data "di alam liar" sebenar. Kemudian mengapakah prestasi model yang dilatih pada set data ini tidak serupa dengan model yang dilatih pada set data dunia sebenar dengan saiz yang sama? Jawapan kepada soalan ini terletak pada ciri tidak terkawal data dunia sebenar itu sendiri. Magnitud variasi dalam data sebenar belum ditangkap sepenuhnya oleh mana-mana penyelidikan yang diterbitkan setakat ini.
Mempunyai bilangan variasi terhad yang sama untuk semua identiti sintetik dalam set data menjejaskan prestasi model. Percubaan untuk meningkatkan variasi mengakibatkan identiti wajah juga berubah, yang memperkenalkan bunyi dalam data, sekali lagi menjejaskan prestasi model.
Jadual 2. menyenaraikan prestasi seni bina model FR yang sama (Resnet 50) yang dilatih pada set data sintetik yang berbeza. Prestasi garis dasar untuk model yang dilatih pada set data tulen dengan saiz yang lebih kurang sama turut disenaraikan. Jadual juga menyenaraikan tahun keluaran untuk setiap data sintetik.
Nama Set Data | Model ML | # Imej latihan | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 500k | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
Synface (2021) | resnet-50 | 500k | 91.93 | 75.03 | 61.63 | 74.73 | 70.43 |
Digiface-1m (2022) | resnet-50 | 500k | 95.40 | 87.40 | 76.97 | 78.62 | 78.87 |
DCFace (2023) | resnet-50 | 500k | 98.55 | 85.33 | 89.70 | 91.60 | 82.62 |
Jadual 2. Ketepatan pengesahan (%) pada set data penilaian FR yang digunakan secara meluas yang dicapai oleh model yang dilatih pada data sintetik. Baris pertama ialah prestasi garis dasar yang dicapai oleh model pada data dunia sebenar bersaiz serupa. Semua keputusan diperoleh daripada karya asal yang diterbitkan menggunakan model dan algoritma ML yang sama.
Seperti yang dapat dilihat dalam Jadual 2, model yang dilatih pada data sintetik tidak berprestasi sebaik model yang dilatih pada data dunia sebenar. Walaupun jurang prestasi pada set data "mudah" dan kecil seperti 'LFW' adalah kecil, jurang itu lebih ketara pada set data lain yang lebih sukar seperti CFP-FP dan Agedb-30, yang mengandungi sampel paparan profil wajah dan wajah yang sama orang yang merentas pelbagai umur masing-masing.
Secara ketara, prestasi model yang dilatih pada data sintetik telah bertambah baik dalam beberapa tahun kebelakangan ini.
Mengesahkan keberkesanan data sintetik kekal sebagai cabaran. Memastikan bahawa data sintetik dengan tepat mewakili keadaan dunia sebenar adalah penting untuk membina sistem pengecaman muka yang boleh dipercayai. Walau bagaimanapun, proses pengesahan adalah rumit dan memerlukan metodologi yang mantap untuk memastikan kualiti dan kebolehgunaan data.
Penyelesaian yang mungkin adalah untuk membangunkan model genAI yang juga boleh meniru ciri ini dalam data sintetik. Model generatif boleh dilatih untuk mengatasi batasan ini dengan melatihnya pada set data dunia sebenar yang mengandungi variasi yang mencukupi dalam atribut muka, kualiti imej dan variasi latar belakang. Adalah munasabah untuk mempersoalkan dari mana data tersebut mungkin datang. Pemerolehan data sedemikian akan menghadapi semua kekangan yang disebutkan di atas, iaitu sekatan etika, undang-undang dan kos.
Walau bagaimanapun, ini dikurangkan oleh saiz set data yang lebih kecil yang diperlukan untuk melatih model FR generatif. milik Nvidia
Data sintetik memegang janji untuk memajukan teknologi pengecaman muka, tetapi penting untuk mengenali batasan semasanya. Walaupun faedah genAI termasuk realisme sampel sintetik dan kemudahan penalaan halus imej untuk meningkatkan atau menyahtingkatkan ciri, seperti ekspresi muka, posing kepala, rambut muka, dll. jurang prestasi antara model yang dilatih pada data sebenar berbanding sintetik ialah ketara.
Data sintetik belum lagi menjadi pengganti set data sebenar yang disusun dengan baik. Walaupun begitu, kualiti data muka sintetik mengejar kualiti data dunia sebenar apabila teknik penjanaan data bertambah baik, dan dengan itu, kami boleh mengagak bahawa dalam masa terdekat, data sintetik mungkin menghapuskan sepenuhnya keperluan untuk menggunakan sebenar. -data muka dunia untuk latihan FR.
Imej Ciri oleh