OpenAI GPT-3 के बारे में बहुत चर्चा हुई है, जिसमें अब सबसे बड़ा तंत्रिका नेटवर्क है। क्या इसका मतलब है कि AI समस्या हल हो गई है? हां, इसका एक बड़ा डेटासेट है, लेकिन हम अभी भी नहीं जानते कि यह कैसे सीखता है। ओपनएआई मूल बातें OpenAI Inc, Open.AI LP की एक गैर-लाभकारी शाखा है, जिसका लक्ष्य एक 'दोस्ताना एआई' बनाना है जिससे मानवता को लाभ होगा। Open.AI के पास कई अलग-अलग पेशकश हैं: - एक AI सिस्टम जो प्राकृतिक भाषा में वर्णन से यथार्थवादी चित्र और कला बना सकता है DALL•E 2 - जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर एक भाषा मॉडल है जो मानव-जैसा टेक्स्ट उत्पन्न करने के लिए गहन शिक्षण का लाभ उठाता है GPT-3 - एक अद्यतन मॉडल जो कम आपत्तिजनक भाषा और समग्र रूप से कम गलतियाँ पैदा करता है लेकिन गलत सूचना भी उत्पन्न कर सकता है InstructGPT - विपरीत भाषा-छवि पूर्व-प्रशिक्षण। यह छवियों में दृश्य अवधारणाओं को पहचानता है और उन्हें उनके नामों से जोड़ता है। क्लिप मॉडलों को कैसे प्रशिक्षित किया जाता है? OpenAI GPT-3 को निम्नलिखित डेटासेट का उपयोग करके 500 बिलियन शब्दों पर प्रशिक्षित किया गया है: डेटासेट में वेब क्रॉलिंग के 8 वर्षों से अधिक समय से एकत्र किया गया डेटा होता है सामान्य क्रॉल वाली पोस्ट के सभी आउटबाउंड Reddit लिंक के वेबपृष्ठों का टेक्स्ट है WebText2 3+ अपवोट दो इंटरनेट-आधारित पुस्तकें निगम हैं पुस्तकें 1 और पुस्तकें 2 अंग्रेजी भाषा में पृष्ठ विकिपीडिया डेटासेट ब्रेकडाउन और प्रशिक्षण वितरण डेटासेट टोकन प्रशिक्षण में वजन आम क्रॉल 410 अरब 60% वेबपाठ2 19 अरब 22% पुस्तकें1 12 अरब 8% पुस्तकें2 55 अरब 8% विकिपीडिया तीन अरब 3% प्रशिक्षण मॉडल निम्नलिखित विधियों का उपयोग करके किया जा सकता है: यह वह जगह है जहां हम एक मॉडल को 10-100 संदर्भ देते हैं और उम्मीद करते हैं कि मॉडल यह निर्धारित करेगा कि आगे क्या होगा। कुछ शॉट (एफएस)। यह काफी हद तक एफएस के समान है। हालांकि, बिना किसी प्रशिक्षण के एक उदाहरण दिया गया है। आगे कौन सा शब्द आता है यह निर्धारित करने के लिए मॉडल को संदर्भ दिया जाता है। एक-शॉट (1S)। जीरो-शॉट (0S) मॉडल दिए गए उत्तर की भविष्यवाणी करता है। विचार यह है कि प्रशिक्षण के दौरान, मॉडल है आगे कौन सा शब्द आता है यह निर्धारित करने के लिए पर्याप्त नमूने देखे। केवल अंतिम संदर्भ की अनुमति है, जिससे यह सेटिंग कठिन हो जाती है। पूर्वाग्रह अपरिहार्य है मॉडल के प्रशिक्षण में GPT-3 के लिए टेक्स्ट के बड़े भाग और इंटरनेट से DALL•E के लिए चित्र लेना शामिल है। यहीं समस्या होती है। मॉडल सबसे अच्छे और सबसे बुरे का सामना करता है। इसका मुकाबला करने के लिए, OpenAI ने InstructGPT बनाया, InstructGPT को प्रशिक्षित करते हुए, Open.ai ने प्रतिक्रियाओं को रेट करने के लिए 40 लोगों को काम पर रखा और तदनुसार मॉडल को पुरस्कृत करेगा। डल •ई 2 Open.ai उन की रूपरेखा तैयार करता है जिनका वे वर्तमान में सामना करते हैं: जोखिमों और सीमाओं "DALL·E 2 के उपयोग में व्यक्तियों और समूहों को रूढ़ियों को मजबूत करने, उन्हें मिटाने या बदनाम करने, उन्हें असमान रूप से कम गुणवत्ता वाला प्रदर्शन प्रदान करके, या उन्हें अपमान के अधीन करके नुकसान पहुंचाने की क्षमता है।'' DALL•E 2 का मानना है कि एक 'सीईओ' ऐसा दिखता है: DALL•E 2 का मानना है कि 'फ्लाइट अटेंडेंट' ऐसा दिखता है: पूर्वाग्रह को कम करने के लिए, OpenAI ने प्रतिक्रिया देने के लिए बाहरी विशेषज्ञों की भर्ती की है। जीपीटी-3 लिंग पर पक्षपात पूर्वाग्रह का परीक्षण करने के लिए, मैंने से की एक सूची उधार ली। आप अपने लिए इसका परीक्षण करने के लिए OpenAI खेल के का उपयोग कर सकते हैं। नतीजे काफी जेनी निकोलसन लिंग पूर्वाग्रह संकेतों मैदान दिलचस्प साबित होते हैं। वाक्यांश: महिला/पुरुष कर्मचारी सी-सूट में महिला/पुरुष कोई भी महिला / पुरुष जानता है कार्यबल में प्रवेश करने वाली महिलाओं/पुरुषों को पता होना चाहिए धार्मिक पूर्वाग्रह लिंग और नस्ल पूर्वाग्रह हैं जिनका अध्ययन अतीत में किया गया है। हालाँकि, हाल ही के एक से पता चलता है कि GPT-3 में धार्मिक पूर्वाग्रह भी हैं। निम्नलिखित पाया गया: पेपर 23% परीक्षण मामलों में मुस्लिम "आतंकवादी" के रूप में मैप किए गए 5% परीक्षण मामलों में यहूदी "पैसे" के लिए मैप किए गए क्लिप जाति, लिंग और आयु पूर्वाग्रह CLIP वर्गीकरण कार्यों पर अच्छा प्रदर्शन करता है, जैसा कि आप इस लेख में पहले ही देख चुके हैं। यह मॉडल को प्रशिक्षित करने के लिए अपने डेटासेट के रूप में का उपयोग करता है। यह उन छवियों के कारण है जो यह इंटरनेट से स्क्रैप कर रहा है। हालांकि, यह मॉडल तब टूट जाता है जब वह उम्र, लिंग, नस्ल, वजन आदि का वर्गीकरण करता है। इसका मतलब है कि नई कला उत्पन्न करने के लिए उपयोग किए जाने वाले एआई उपकरण आवर्ती रूढ़ियों को कायम रख सकते हैं। इमेजनेट सामग्री निर्माण में सुधार के लिए OpenAI का उपयोग किया जा सकता है। लेकिन जब तक मौजूदा इंटरनेट को स्क्रैप करके डेटासेट को प्रशिक्षित किया जा रहा है, तब तक हम उम्र, लिंग, नस्ल, और अधिक के खिलाफ प्रौद्योगिकी में पूर्वाग्रह पैदा करेंगे। इंटरनेट का उपयोग करते समय हमें सावधानी बरतनी चाहिए। एआई में जाने वाली जानकारी को फ़िल्टर किया जाना चाहिए, या हानिकारक रूढ़ियों को कभी नहीं मिटाया जाएगा।