"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
लेखक:
(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;
(2) जैक गिन्डी, लिंक्डइन;
(3) शिवांश मुंद्रा, लिंक्डइन;
(4) जेम्स आर. वर्बस, लिंक्डइन;
(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।
हम AI द्वारा उत्पन्न चेहरों से वास्तविक चेहरों को अलग करने के लिए एक मॉडल को प्रशिक्षित करते हैं। अंतर्निहित मॉडल EfficientNet-B1[7] कन्वोल्यूशनल न्यूरल नेटवर्क [30] है। हमने पाया कि यह आर्किटेक्चर अन्य अत्याधुनिक आर्किटेक्चर (Swin-T [22], Resnet50 [14], XceptionNet [7]) की तुलना में बेहतर प्रदर्शन प्रदान करता है। EfficientNet-B1 नेटवर्क में 7.8 मिलियन आंतरिक पैरामीटर हैं जिन्हें ImageNet1K इमेज डेटासेट [30] पर प्री-ट्रेन किया गया था।
हमारी पाइपलाइन में तीन चरण शामिल हैं: (1) एक छवि प्रीप्रोसेसिंग चरण; (2) एक छवि एम्बेडिंग चरण; और (3) एक स्कोरिंग चरण। मॉडल इनपुट के रूप में एक रंगीन छवि लेता है और [0, 1] की सीमा में एक संख्यात्मक स्कोर उत्पन्न करता है। 0 के पास स्कोर इंगित करता है कि छवि संभवतः वास्तविक है, और 1 के पास स्कोर इंगित करता है कि छवि संभवतः AI द्वारा उत्पन्न की गई है।
तालिका 2. आधारभूत प्रशिक्षण और मूल्यांकन सच्चा सकारात्मक (AI द्वारा उत्पन्न छवि को सही ढंग से वर्गीकृत करना, सभी संश्लेषण इंजनों (TPR) में औसत)। प्रत्येक स्थिति में, गलत सकारात्मक दर 0.5% है (वास्तविक चेहरे को गलत तरीके से वर्गीकृत करना (FPR))। 2TP/(2TP + FP + FN) के रूप में परिभाषित F1 स्कोर की भी रिपोर्ट की गई है। TP, FP और FN क्रमशः सच्चे सकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक की संख्या का प्रतिनिधित्व करते हैं। इन-इंजन/आउट-ऑफ-इंजन इंगित करता है कि छवियों को प्रशिक्षण में उपयोग किए गए समान/अलग संश्लेषण इंजनों के साथ बनाया गया था।
छवि पूर्व प्रसंस्करण चरण इनपुट छवि का आकार 512×512 पिक्सेल के रिज़ॉल्यूशन पर बदलता है। फिर इस आकार में बदली गई रंगीन छवि को एक EfficientNet-B1 ट्रांसफ़र लर्निंग लेयर में भेजा जाता है। स्कोरिंग चरण में, ट्रांसफ़र लर्निंग लेयर का आउटपुट दो पूरी तरह से जुड़ी हुई परतों को खिलाया जाता है, जिनमें से प्रत्येक का आकार 2,048 है, जिसमें एक ReLU सक्रियण फ़ंक्शन, 0.8 ड्रॉपआउट संभावना वाली एक ड्रॉपआउट परत और एक सिग्मोइडल सक्रियण वाली अंतिम स्कोरिंग परत है। केवल स्कोरिंग परतें - 6.8 मिलियन ट्रेन करने योग्य मापदंडों के साथ - ट्यून की जाती हैं। ट्रेन करने योग्य वज़न को 32 आकार के मिनीबैच, 0.0001 की सीखने की दर और 10,000 चरणों तक प्रशिक्षित करने के साथ AdaGrad एल्गोरिथ्म का उपयोग करके अनुकूलित किया जाता है। मॉडल प्रशिक्षण के लिए 60 NVIDIA A100 GPU वाले क्लस्टर का उपयोग किया गया था।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[7] हम एफ़िशिएंटनेट मॉडल के पुराने संस्करण का वर्णन कर रहे हैं जिसे हमने पहले लिंक्डइन पर संचालित किया था जिसे अब एक नए मॉडल से बदल दिया गया है। हम मानते हैं कि यह मॉडल सबसे हालिया नहीं है, लेकिन हम अब केवल इन परिणामों की रिपोर्ट करने में सक्षम हैं क्योंकि मॉडल अब उपयोग में नहीं है।
जंगल में एआई-जनरेटेड चेहरे खोजना: मॉडल | HackerNoon