लेखक:
(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;
(2) जैक गिन्डी, लिंक्डइन;
(3) शिवांश मुंद्रा, लिंक्डइन;
(4) जेम्स आर. वर्बस, लिंक्डइन;
(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।
हम AI द्वारा उत्पन्न चेहरों से वास्तविक चेहरों को अलग करने के लिए एक मॉडल को प्रशिक्षित करते हैं। अंतर्निहित मॉडल EfficientNet-B1[7] कन्वोल्यूशनल न्यूरल नेटवर्क [30] है। हमने पाया कि यह आर्किटेक्चर अन्य अत्याधुनिक आर्किटेक्चर (Swin-T [22], Resnet50 [14], XceptionNet [7]) की तुलना में बेहतर प्रदर्शन प्रदान करता है। EfficientNet-B1 नेटवर्क में 7.8 मिलियन आंतरिक पैरामीटर हैं जिन्हें ImageNet1K इमेज डेटासेट [30] पर प्री-ट्रेन किया गया था।
हमारी पाइपलाइन में तीन चरण शामिल हैं: (1) एक छवि प्रीप्रोसेसिंग चरण; (2) एक छवि एम्बेडिंग चरण; और (3) एक स्कोरिंग चरण। मॉडल इनपुट के रूप में एक रंगीन छवि लेता है और [0, 1] की सीमा में एक संख्यात्मक स्कोर उत्पन्न करता है। 0 के पास स्कोर इंगित करता है कि छवि संभवतः वास्तविक है, और 1 के पास स्कोर इंगित करता है कि छवि संभवतः AI द्वारा उत्पन्न की गई है।
छवि पूर्व प्रसंस्करण चरण इनपुट छवि का आकार 512×512 पिक्सेल के रिज़ॉल्यूशन पर बदलता है। फिर इस आकार में बदली गई रंगीन छवि को एक EfficientNet-B1 ट्रांसफ़र लर्निंग लेयर में भेजा जाता है। स्कोरिंग चरण में, ट्रांसफ़र लर्निंग लेयर का आउटपुट दो पूरी तरह से जुड़ी हुई परतों को खिलाया जाता है, जिनमें से प्रत्येक का आकार 2,048 है, जिसमें एक ReLU सक्रियण फ़ंक्शन, 0.8 ड्रॉपआउट संभावना वाली एक ड्रॉपआउट परत और एक सिग्मोइडल सक्रियण वाली अंतिम स्कोरिंग परत है। केवल स्कोरिंग परतें - 6.8 मिलियन ट्रेन करने योग्य मापदंडों के साथ - ट्यून की जाती हैं। ट्रेन करने योग्य वज़न को 32 आकार के मिनीबैच, 0.0001 की सीखने की दर और 10,000 चरणों तक प्रशिक्षित करने के साथ AdaGrad एल्गोरिथ्म का उपयोग करके अनुकूलित किया जाता है। मॉडल प्रशिक्षण के लिए 60 NVIDIA A100 GPU वाले क्लस्टर का उपयोग किया गया था।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[7] हम एफ़िशिएंटनेट मॉडल के पुराने संस्करण का वर्णन कर रहे हैं जिसे हमने पहले लिंक्डइन पर संचालित किया था जिसे अब एक नए मॉडल से बदल दिया गया है। हम मानते हैं कि यह मॉडल सबसे हालिया नहीं है, लेकिन हम अब केवल इन परिणामों की रिपोर्ट करने में सक्षम हैं क्योंकि मॉडल अब उपयोग में नहीं है।