paint-brush
Google की जेमिनी सागा: मॉडल कैसे विफल हुआ इसका तकनीकी विवरण द्वारा@travelntech
630 रीडिंग
630 रीडिंग

Google की जेमिनी सागा: मॉडल कैसे विफल हुआ इसका तकनीकी विवरण

द्वारा Siddharth Bhattacharya
Siddharth Bhattacharya HackerNoon profile picture

Siddharth Bhattacharya

@travelntech

Travel enthusiast, tech worker, history buff, Quora Top Writer 2013

12 मिनट read2024/03/22
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

प्री-ट्रेनिंग, फाइन-ट्यूनिंग, सुरक्षा, कानूनी और मूल्यांकन से जेनरेटिव एआई मॉडल विकास के सभी चरणों को समझना और मेटा एआई के एमु मॉडल के साथ तुलना के साथ-साथ यह जांचना कि Google का जेमिनी कहां चूक सकता है।
featured image - Google की जेमिनी सागा: मॉडल कैसे विफल हुआ इसका तकनीकी विवरण
Siddharth Bhattacharya HackerNoon profile picture
Siddharth Bhattacharya

Siddharth Bhattacharya

@travelntech

Travel enthusiast, tech worker, history buff, Quora Top Writer 2013

0-item

STORY’S CREDIBILITY

Guide

Guide

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

जेनरेटिव एआई मॉडलिंग कैसे खराबी का कारण बन सकती है


यहां दी गई राय और चर्चा पूरी तरह से मेरी अपनी है, और मेटा या मेरी टीम के विचारों या किसी अंदरूनी जानकारी या मालिकाना ज्ञान को बिल्कुल भी प्रतिबिंबित नहीं करती है।


मैं मेटा के जेनरेटिव एआई डिवीजन में काम करता हूं। विशेष रूप से मैं मेटा के लिए टेक्स्ट → छवि निर्माण पर काम करता हूं। हमारे पहले उत्पाद यहां लॉन्च किए गए थे, और आप उन्हें यहां आज़मा सकते हैं। जब मैंने इसे "2024 में जर्मनों का एक परिवार" के लिए संकेत दिया तो मुझे निम्नलिखित ज़ूम इन छवि मिली, लेकिन नीचे 3 अन्य छवियां भी मिलीं।

एक ज़ूम इन के साथ परिणाम, और नीचे 3 अन्य छवियों में से आप चुन सकते हैं

एक ज़ूम इन के साथ परिणाम, और नीचे 3 अन्य छवियों में से आप चुन सकते हैं


अन्य सुझावों में से 2 को आवर्धित करने के परिणाम यहां दिए गए हैं:

image
image

जैसा कि आप देख सकते हैं, यहां कुछ जातीय विविधता है जो परिवारों का प्रतिनिधित्व करती है। हालाँकि यह "पारंपरिक रूप से" एक जर्मन परिवार क्या होगा, इसका बहिष्कार करके ऐसा नहीं करता है।



इस बीच यहां कुछ और उदाहरण दिए गए हैं:

मेटा एआई की प्रतिक्रिया "2024 में रवांडावासियों का एक परिवार"।

मेटा एआई की प्रतिक्रिया "2024 में रवांडावासियों का एक परिवार"।

"2024 में भारतीयों का एक परिवार" पर मेटा एआई की प्रतिक्रिया। यह अच्छा काम नहीं है, यह देखते हुए कि यह मूल अमेरिकी भारतीयों को भारत के लोगों के साथ मिलाना है

"2024 में भारतीयों का एक परिवार" पर मेटा एआई की प्रतिक्रिया। यह अच्छा काम नहीं है, यह देखते हुए कि यह मूल अमेरिकी भारतीयों को भारत के लोगों के साथ मिलाना है

कुछ ऐतिहासिक शख्सियतों को दर्शाने के लिए यहां एक और संकेत दिया गया है:

संस्थापक पिताओं का यथोचित सटीक चित्रण प्रतीत होता है, हालाँकि थोड़ा कार्टून जैसा है

संस्थापक पिताओं का यथोचित सटीक चित्रण प्रतीत होता है, हालाँकि थोड़ा कार्टून जैसा है


निःसंदेह इसमें बहुत सारी खामियाँ हैं, और मेरी टीम के लोग जिनमें मैं भी शामिल हूँ, इसे सुधारने के लिए काम कर रहे हैं। उदाहरण के लिए उपरोक्त संकेत में "भारतीय" का मतलब थोड़ा-बहुत दोनों से है- भारत के लोग और अमेरिका में "मूल भारतीय"।



हालाँकि, यदि आपने पिछले सप्ताह Google की जेमिनी विफलता पर ध्यान दिया, तो मॉडल के परिणाम उपरोक्त की तरह नहीं दिखे और आउटपुट से कहीं अधिक संबंधित थे। यहां उन कुछ नुकसानों को दर्शाने वाला एक सूत्र है।

यदि आप ट्विटर पर पूरे थ्रेड तक नहीं पहुंच सकते हैं, तो यहां असम्पीडित थ्रेड है



image
Image

Image

image

ऐसी कई और तस्वीरें हैं जिन्होंने चर्चा बटोरी, लेकिन ये निम्नलिखित निष्कर्ष निकालने के लिए पर्याप्त होंगी:


  • Google की जेमिनी छवि पीढ़ी ने कोकेशियान (श्वेत) लोगों को उत्पन्न करने के लिए संघर्ष किया, जिसमें अमेरिका के संस्थापक पिता, वाइकिंग्स, पोप जैसी ऐतिहासिक और सार्वजनिक हस्तियां भी शामिल थीं।
  • जैसा कि ज़ुलु योद्धा या समुराई के उदाहरणों से पता चलता है, अन्य जातियों को ऐसा करने में आवश्यक रूप से संघर्ष नहीं करना पड़ा।


इससे बहुत सारी प्रतिक्रियाएँ होंगी - "जागृत निगमों" द्वारा "श्वेत लोगों" को "मिटाने" पर आक्रोश से लेकर, कुछ अन्य मीडिया प्रकाशन इस बात पर ध्यान केंद्रित करने की कोशिश कर रहे हैं कि जेमिनी "रंगीन लोगों को नाज़ियों के रूप में कैसे दिखाएंगे " या इस पर कुछ टिप्पणी मुद्दे को बढ़ा-चढ़ाकर पेश किया जा रहा है या "उदारवादी पूर्वाग्रह" का खंडन किया जा रहा है । ये प्रतिक्रियाएँ अक्सर राजनीतिक आधार पर होती हैं, और यहाँ उन पर विस्तार से विचार करना मेरा उद्देश्य नहीं है।


हालाँकि मैं जो सकारात्मक योगदान दे सकता हूँ वह इस विशिष्ट क्षेत्र में काम करने वाले एक इंजीनियर के रूप में कुछ समझ है जो यह समझाता है कि विकास चक्र मॉडल विकास के लिए कैसे काम करता है, विशेष रूप से जेनरेटिव एआई में, साथ ही यह समझने के लिए (अनुमानतः) कि उपरोक्त जैसे आउटपुट कैसे प्रभावी हो सकते हैं। मैं किसी तकनीकी शब्दजाल का उपयोग नहीं करना चाहता, या तंत्रिका नेटवर्क के आंतरिक विवरण की व्याख्या नहीं करना चाहता- न ही मुझे लगता है कि वे यहां प्रासंगिक हैं। मैं दोहराना चाहता हूं कि यहां कुछ भी मालिकाना जानकारी नहीं होनी चाहिए, और मुझे इस मुद्दे या Google की आंतरिक कार्यप्रणाली का कोई आंतरिक ज्ञान नहीं है।



डेटा राजा है

कुछ चरणों में जाने से पहले, मैं एक बहुत ही महत्वपूर्ण अपरिवर्तनीयता की व्याख्या करना चाहता हूं। एक मॉडल उतना ही अच्छा होता है जितना उस डेटा पर उसे प्रशिक्षित किया जाता है । इसका मतलब यह नहीं है कि मॉडल के अन्य घटक (जैसे वास्तुकला) महत्वपूर्ण नहीं हैं या कम महत्वपूर्ण भी नहीं हैं। वास्तव में मशीन लर्निंग के क्षेत्र में पिछले कुछ वर्षों में उत्कृष्ट शोध हुआ है, जिसने एलएलएम, इमेज-जेनरेशन, वीडियो-जेनरेशन आदि से इस क्षेत्र में तेजी से विकास किया है। हालाँकि, प्रगति की परवाह किए बिना हर मॉडल की एक सीमा यह है कि वह ऐसा कर सकता है। यदि इसे अच्छे प्रतिनिधि डेटासेट पर प्रशिक्षित नहीं किया गया है तो यह वांछित आउटपुट नहीं देगा।


मशीन लर्निंग में अवधारणाओं से अपरिचित लोगों के लिए, एक मॉडल को एक निश्चित अवधारणा (उदाहरण के लिए कुत्ता) के कई उदाहरण दिए जाते हैं (या "प्रशिक्षित") किए जाते हैं - दोनों सकारात्मक (युक्त) और नकारात्मक (युक्त नहीं) - इस उम्मीद के साथ कि कोई भी दिया जाएगा यादृच्छिक इनपुट से मॉडल को उच्च विश्वास के साथ यह अनुमान लगाने में सक्षम होना चाहिए कि इसमें उस अवधारणा का कोई उदाहरण है या नहीं। विशिष्ट उपयोग के मामलों (जैसे- कुत्ते के निर्देशांक की पहचान) के लिए बहुत सारे संवर्द्धन किए जा सकते हैं।


जनरेटिव एआई एमएल मॉडल का विकासात्मक चक्र


  1. बड़े पैमाने पर प्रशिक्षण (उर्फ पूर्व-प्रशिक्षण): कुत्ते की पहचान करना सिर्फ एक उदाहरण है। यहां सामान्यीकृत समस्या यह होगी: किसी भी पाठ को देखते हुए, संबंधित छवि उत्पन्न करें। ऐसा करने के लिए, एक मॉडल को पहले यह पहचानने ("सीखने") की आवश्यकता होगी कि कुछ शब्दों का क्या अर्थ है। इस प्रकार प्रत्येक मानदंड ("अवधारणा") के कई उदाहरणों को देखकर हाथी, पुरुष, महिला, कुत्ते, पहाड़ आदि को पहचानने की आवश्यकता होगी। हालाँकि, मॉडल को प्रत्येक परिदृश्य के लिए अच्छी छवियां उत्पन्न करने के लिए, उसे अवधारणाओं की एक बड़ी चौड़ाई को समझने की आवश्यकता है, जिसमें न केवल सबसे आम शामिल होंगे, बल्कि कम उपयोग की जाने वाली, कम परिचित अवधारणाओं की एक लंबी श्रृंखला भी शामिल होगी। यथोचित उच्च आत्मविश्वास के साथ ऐसा करने के लिए, हमें बड़ी मात्रा में डेटा (लाखों से अरबों) के साथ मॉडल को प्रशिक्षित करने की आवश्यकता होगी। इस चरण को प्री-ट्रेनिंग के रूप में जाना जाता है, जहां बड़े पैमाने पर प्राप्त डेटा मॉडल को वांछित आउटपुट की अच्छी-पर्याप्त गुणवत्ता उत्पन्न करने में मदद करता है।


    प्राप्त डेटा के आधार पर सीखने वाले मॉडल का एक परिणाम यह है कि मॉडल आपके प्रशिक्षण सेट के पैटर्न के साथ-साथ उसके सभी पूर्वाग्रहों को भी सीखेगा। इसलिए यदि आपके कुत्ते प्रशिक्षण डेटासेट में केवल शीबा इनस और कॉर्गिस (वैसे सुपर मीठे कुत्ते) की छवियां हैं, तो आपके सभी उत्पन्न कुत्ते इन नस्लों की तरह दिखेंगे। इसलिए यदि आप चाहते हैं कि आपका मॉडल आउटपुट ऊपर वर्णित विशेष प्रकारों पर "ओवरफिट" न हो, तो आप अपने स्रोत में विविधता जोड़ना चाहेंगे। इसलिए उपरोक्त उदाहरण में आप यह सुनिश्चित करना चाहते हैं कि प्रशिक्षण डेटा में प्रमुख नस्लों की अच्छी मात्रा हो जिन्हें आप समान रूप से प्रतिबिंबित करना चाहते हैं।

    मॉडल प्रशिक्षण डेटा में आदर्श रूप से कुत्तों की इन सभी नस्लों की कुछ छवियां शामिल होनी चाहिए

    मॉडल प्रशिक्षण डेटा में आदर्श रूप से कुत्तों की इन सभी नस्लों की कुछ छवियां शामिल होनी चाहिए


    ये बात इंसानों पर भी लागू होती है. जैसे कुछ कुत्तों की नस्लों का अति-प्रतिनिधित्व अवांछनीय है, वैसा ही मामला इंसानों का भी है। हालाँकि, मनुष्यों के लिए, नस्लों के विपरीत, वे विभाजन रेखाएँ लिंग, राष्ट्रीयता, जातीयता, नस्लीय रेखाओं में होती हैं। आदर्श रूप से हम चाहते हैं कि हमारा पूर्व-प्रशिक्षण चरण मॉडल आउटपुट में हावी होने वाली कुछ विशेषताओं से बचने के लिए इन आयामों में सापेक्ष एकरूपता को प्रतिबिंबित करे।

    लिंग के आधार पर विभिन्न नस्लों में मनुष्यों का एक विविध समूह। पेपर:https://www.mdpi.com/2227-7390/9/2/195

    लिंग के आधार पर विभिन्न नस्लों में मनुष्यों का एक विविध समूह। पेपर:https://www.mdpi.com/2227-7390/9/2/195



    इस प्रकार पूर्व-प्रशिक्षण चरण में, मॉडल अवधारणाओं (मानव, पालतू जानवर, वन्यजीव, प्रकृति, फर्नीचर, परिदृश्य आदि) में कुछ विविधता खोजने की कोशिश करते हुए बड़ी मात्रा में डेटा प्राप्त करता है और फिर बाद में इन अवधारणाओं (नस्लों, राष्ट्रीयताओं, आयामों) के भीतर कुछ विविधता ढूंढता है। ).

  2. फ़ाइन-ट्यूनिंग : हालाँकि डेटा के विशाल पैमाने पर एक मॉडल को प्रशिक्षित करने के बाद, अंतिम चरण में इसे बहुत छोटे, उच्च-गुणवत्ता वाले डेटा पर "फाइन-ट्यून" किया जाता है। यहां छोटे बदलावों से मॉडल आउटपुट में आक्रामक बदलाव हो सकते हैं । इस प्रकार यदि आप दृश्य गुणवत्ता, वितरण बदलना चाहते हैं तो यह ऐसा करने का स्थान होगा। हालाँकि ध्यान दें कि बड़े पैमाने पर होने के कारण पूर्व-प्रशिक्षण डेटा अभी भी प्रभावी है और यह पता लगाना कठिन है कि मॉडल प्रशिक्षण के किस चरण से मॉडल आउटपुट का कितना प्रभाव पड़ता है।

    मेटा एमु छोटे पैमाने पर फाइन ट्यूनिंग का उपयोग करके सौंदर्य गुणवत्ता में उल्लेखनीय वृद्धि करने में सक्षम था (लिंक्ड पेपर देखें)

    मेटा एमु छोटे पैमाने पर फाइन ट्यूनिंग का उपयोग करके सौंदर्य गुणवत्ता में उल्लेखनीय वृद्धि करने में सक्षम था (लिंक्ड पेपर देखें)


  3. सुरक्षा : उपरोक्त समझ ज्यादातर मॉडल आउटपुट के मुख्य चरणों और महत्वपूर्ण पहलुओं को समझाने पर केंद्रित है। हालाँकि हमें पूर्वाग्रह, कानूनी बाधाओं के वास्तविक दुनिया के निहितार्थों को समझने और यह सुनिश्चित करने की भी आवश्यकता है कि मॉडल प्रतिकूल योगदान नहीं दे रहे हैं। जबकि कानूनों का पालन करना अपेक्षाकृत आसान हो सकता है क्योंकि वे प्रतिष्ठापित हैं (हालांकि अभी भी व्याख्या के लिए बहुत जगह है जैसा कि अदालतें दिखाती हैं), अन्य मुद्दों से निपटना जो अवैध नहीं हैं लेकिन संभावित रूप से हानिकारक हैं, बहुत सारे विवाद पैदा करते हैं और राजनीतिक विभाजन को उजागर करते हैं। एआई का एक क्षेत्र जिसे " एआई एथिक्स " या " जिम्मेदार एआई " कहा जाता है, बाद के प्रकार के मुद्दों से निपटने के लिए उभरा है - अवैध नहीं, लेकिन संभावित रूप से हानिकारक।

    उपरोक्त पूर्वाग्रह उदाहरण में, उदाहरण के लिए यह कहना अपेक्षाकृत निर्विवाद है कि हमें प्रशिक्षण डेटासेट में पुरुषों और महिलाओं के प्रतिनिधि नमूनों की आवश्यकता है। या इंसानों को प्रतिबिंबित करने के लिए भारत, चीन, अमेरिका, ब्रिटेन, ब्राजील, नाइजीरिया के लोग। अन्य समान अपेक्षाकृत निर्विवाद शमन में नग्नता (वयस्कों की - पूरी तरह से अवैध नहीं, साथ ही बच्चों की - अवैध) को रोकना, किसी भी व्यक्ति की व्यक्तिगत (वित्तीय, स्वास्थ्य सहित) जानकारी को उनकी सहमति के बिना प्रकट न करना, संभावित आईपी उल्लंघन को रोकना होगा। लेकिन जिम्मेदार एआई का क्षेत्र इनसे परे है, क्योंकि इसका लक्ष्य "हानिकारक रूढ़िवादिता" को कायम न रखना भी है।


    यहां एक उदाहरण है- यदि आप किसी मॉडल से डॉक्टर और नर्स की छवियां बनाने के लिए कहते हैं, और 100 में से 99 बार यह एक पुरुष को डॉक्टर और एक महिला को नर्स के रूप में दिखाता है, तो यह निश्चित रूप से अवांछनीय सामाजिक रूढ़िवादिता को कायम रख रहा है।

    Google छवियों पर "एक डॉक्टर और एक नर्स" की प्रतिक्रिया अधिकतर पुरुष डॉक्टरों, महिला नर्स को दिखाती है

    Google छवियों पर "एक डॉक्टर और एक नर्स" की प्रतिक्रिया अधिकतर पुरुष डॉक्टरों, महिला नर्स को दिखाती है


    कुछ अन्य उदाहरण- यदि आप मॉडल से एक मुस्लिम व्यक्ति उत्पन्न करने के लिए कहेंगे, तो यह एक हिंसक आतंकवादी को प्रदर्शित कर सकता है।

    Google Images पर "एक हिंसक चरमपंथी आदमी" खोजने पर बहुत सारे मुस्लिम पुरुष दिखाई देते हैं

    Google Images पर "एक हिंसक चरमपंथी आदमी" खोजने पर बहुत सारे मुस्लिम पुरुष दिखाई देते हैं

    "एक हिंसक चरमपंथी आदमी" के लिए Google खोज परिणाम छवियों से बहुत अलग परिणाम देता है, हालांकि, पुरुषों के अत्यधिक हिंसक होने पर ध्यान केंद्रित करता है

    "एक हिंसक चरमपंथी आदमी" के लिए Google खोज परिणाम छवियों से बहुत अलग परिणाम देता है, हालांकि, पुरुषों के अत्यधिक हिंसक होने पर ध्यान केंद्रित करता है

    आप पूछ सकते हैं कि मॉडल ऐसा क्यों करेगी? याद रखें, मॉडल प्रशिक्षण डेटा जितना ही अच्छा है । और यह वास्तविक दुनिया के वितरण (जैसे कि डॉक्टरों के विपरीत नर्सिंग में अधिक महिलाएं, अक्सर सामाजिक बाधाओं के कारण), विभिन्न क्षेत्रों में कुछ शब्दों की परिभाषा (हिंसक उग्रवाद कुछ समूहों के कृत्यों से जुड़ा होता है) के संयोजन के कारण सामने आता है। अन्य नहीं) या विशिष्ट इलाकों में कुछ समूहों के प्रति पक्षपाती मीडिया कवरेज (उदाहरण के लिए चीनी कुत्ते/चमगादड़ खाते हैं) जो डेटा मॉडल उपभोग करेगा, वह इन पूर्वाग्रहों को बढ़ाएगा। इस प्रकार इस तरह के डेटा पर प्रशिक्षित एक मॉडल लगभग हमेशा महिलाओं को नर्सों के रूप में, पुरुषों को डॉक्टरों के रूप में, मुस्लिम पुरुषों को हिंसक चरमपंथियों के रूप में या चीनी/एशियाई लोगों को चमगादड़ खाने वाले व्यक्ति के रूप में उत्पन्न करने की संभावना रखता है।

    "चमगादड़ खाने वाले व्यक्ति" का हर एक उदाहरण एशियाई व्यक्ति को दिखाता है, विशेष रूप से इस धारणा को बनाने के लिए कोविड के दौरान बढ़े हुए मीडिया कवरेज के कारण

    "चमगादड़ खाने वाले व्यक्ति" का हर एक उदाहरण एशियाई व्यक्ति को दिखाता है, विशेष रूप से इस धारणा को बनाने के लिए कोविड के दौरान बढ़े हुए मीडिया कवरेज के कारण



    इन्हें मॉडल और डेटा के "अचेतन" पूर्वाग्रह कहा जाता है। क्या इसे ठीक करने की आवश्यकता है? कानूनी तौर पर, नहीं (हालाँकि कुछ न्यायक्षेत्रों में शायद ऐसा होता है)। नैतिक रूप से? यह एक पेचीदा और काफी विवादास्पद प्रश्न है। हानिकारक रूढ़िवादिता को बढ़ने से रोकने के लिए एक स्पष्ट अंतःप्रेरणा "हाँ" होगी। हालाँकि इस बात पर कुछ आपत्ति हो सकती है कि परिणामों को मोड़ने के लिए मनुष्यों को कितना हस्तक्षेप करना चाहिए, खासकर यदि यह एक अनुभवजन्य तथ्य को दर्शाता है (भले ही यह सामाजिक पूर्वाग्रह/भेदभाव का परिणाम हो)। यहां तक कि अगर हम सहमत हैं कि ऐसा करना वांछनीय है, तो किन मनुष्यों को ऐसा करने का मौका मिलता है, और यदि कोई हो तो इस पर क्या सीमाएं हैं (जैसे कि उनके अपने पूर्वाग्रह)? क्या हस्तक्षेप करने के नकारात्मक दुष्प्रभाव भी हो सकते हैं? वैसे भी, जैसा कि पहले उल्लेख किया गया है, इस लेख का इरादा ऐसी चर्चाओं में शामिल होना नहीं है, बल्कि केवल कुछ विवादों और मौलिक तर्कों को स्वीकार करना है।


    इन मुद्दों पर आपकी स्थिति चाहे जो भी हो, यह कहने के लिए पर्याप्त समझें- अधिकांश प्रमुख निगम (मेटा सहित) जेनेरिक एआई मॉडल विकसित कर रहे हैं - पाठ और छवि दोनों - "क्या इसे ठीक करने की आवश्यकता है" के प्रश्न का सकारात्मक उत्तर दें और ले रहे हैं इसे कम करने के लिए कई कदम उठाए गए। कैसे के कुछ उदाहरणों में हानिकारक युग्मों का पता लगाकर और संभवतः उन्हें हटाकर डेटा को साफ़ करना, या इंटरनेट के कॉर्पस को निगलने से प्राप्त परिणामों की तुलना में परिणामों को बदलने के लिए फाइन-ट्यूनिंग चरण में विशिष्ट अवांछित परिणामों से आक्रामक रूप से मॉडल को दूर करना शामिल होगा।


    इसके परिणामस्वरूप, आप उन संकेतों को देख सकते हैं जो बहुत समस्याग्रस्त हो सकते थे, जैसा कि Google छवि खोज परिणामों द्वारा देखा गया है, बहुत समान रूप से वितरित हैं।

    "एक डॉक्टर और एक नर्स" संकेत के लिए 4 संभावित परिणामों के साथ मेटा एआई का उत्तर

    "एक डॉक्टर और एक नर्स" संकेत के लिए 4 संभावित परिणामों के साथ मेटा एआई का उत्तर

    image

    जैसा कि ऊपर देखा जा सकता है, 4 छवियाँ आउटपुट हैं। दोनों भूमिकाओं में पुरुषों और महिलाओं का काफी अच्छा वितरण है।

    मेटा एआई का आउटपुट "एक व्यक्ति जो चमगादड़ खा रहा है" सभी एशियाई लोगों के साथ नहीं आता है और इसमें मिश्रित नस्लीय आउटपुट है। इसके अलावा शुक्र है कि किसी भी बल्ले को चबाया हुआ नहीं दिखाया जा रहा है क्योंकि यह काफी ग्राफिक होगा

    मेटा एआई का आउटपुट "एक व्यक्ति जो चमगादड़ खा रहा है" सभी एशियाई लोगों के साथ नहीं आता है और इसमें मिश्रित नस्लीय आउटपुट है। इसके अलावा शुक्र है कि किसी भी बल्ले को चबाया हुआ नहीं दिखाया जा रहा है क्योंकि यह काफी ग्राफिक होगा


  4. कानूनी और गोपनीयता शमन: उपरोक्त कुछ व्यक्तियों के लिए बहुत सारी चिंताएँ पैदा कर सकता है जैसे कि यादृच्छिक कर्मचारी अपने स्वयं के पूर्वाग्रहों को इंजेक्ट करते हैं और अपरिवर्तनीय विशेषताओं का उपयोग करके मॉडल आउटपुट को जिस तरह से वे चाहते हैं उसे बदलते हैं। हालाँकि, सभी प्रमुख तकनीकी कंपनियों के पास विशाल कानूनी विभाजन हैं और उनमें से कुछ को विशेष रूप से कानूनी जोखिमों की समीक्षा करने और मॉडल आउटपुट पीढ़ी के मापदंडों को पेश करते समय सीमाओं को पार करने के लिए नियुक्त किया जाता है। वे यह कैसे करते हैं? क्या वे सभी कोड पढ़ते हैं? नहीं।


    हालाँकि, किसी भी विकास के बड़े पैमाने पर शुरू होने से पहले, उत्पादन के लिए जारी होने से बहुत पहले, डेवलपर्स, उत्पाद प्रबंधकों, डेटा वैज्ञानिकों, प्रबंधकों को एक दृष्टिकोण प्रस्तुत करने की आवश्यकता होती है कि वे अपने लक्ष्यों को कैसे प्राप्त करने जा रहे हैं, इससे पूर्वाग्रह पैदा हो सकते हैं, गोपनीयता संबंधी चिंताएँ जो वे उठा सकते हैं। उस डेटा तक पहुँचना या उसे उजागर करना जिसकी उन्हें अपेक्षा नहीं है, और विवादास्पद मापदंडों का उपयोग भी। तो क्या हम रेस को अपने मॉडल में एनकोड कर सकते हैं? राष्ट्रीयता के बारे में क्या? इस तरह के प्रत्येक प्रश्न का कंपनी के आधार पर एक अलग उत्तर होता है, और मैं मेटा के भीतर किसी भी निर्णय का खुलासा नहीं करूंगा, लेकिन कानूनी प्रतिनिधियों की संतुष्टि के लिए इनमें से प्रत्येक पर डिजाइन चरण में ही विचार किया जाता है और उत्तर दिया जाता है। इन्हें पूरा न करना एक लॉन्च-अवरोधक है, इस प्रकार आपके आउटपुट कितने भी अच्छे हों, शिपिंग को रोकना।

  5. मॉडल मूल्यांकन : एक अंतिम और बहुत महत्वपूर्ण चरण है- मूल्यांकन। आख़िरकार, यदि आप इन बड़े-जटिल मॉडलों को विकसित करने की भारी पीड़ा से गुज़रे हैं, तो क्या आप इसका परीक्षण नहीं करना चाहेंगे? ऐसा करने के कई तरीके हैं - उनमें से बहुत सारे मैनुअल हैं, कुछ स्वचालित हैं, लेकिन एक बहुत ही सामान्य तरीके में कुछ जेनरेट किए गए आउटपुट को रेटर के एक सेट पर भेजना और उन्हें कुछ आयामों जैसे दृश्य गुणवत्ता, त्वरित विश्वसनीयता और के माध्यम से आउटपुट का आकलन करने के लिए कहना शामिल है। संभवतः हानिकारक अंतःक्रियाएँ भी। टीम और कंपनी के अनुसार तरीके अलग-अलग होते हैं लेकिन आम तौर पर लॉन्च करने के लिए कुछ आंतरिक मैट्रिक्स को संतुष्ट करने की आवश्यकता होगी ताकि यह आश्वस्त हो सके कि यह पिछले संस्करणों की तुलना में बेहतर प्रदर्शन कर रहा है। इसके अलावा वहाँ " रेलिंग " भी हैं जिसका अर्थ है कि उन्हें सुधारने की आवश्यकता नहीं है, लेकिन लॉन्च करने के लिए उन्हें पीछे नहीं हटाया जा सकता है। हानिकारक सामग्री निर्माण आम तौर पर एक रेलिंग है, क्योंकि प्रत्येक मॉडल संस्करण को यह सुनिश्चित करना चाहिए कि यह गलती से हानिकारक सामग्री उत्पन्न करने की संभावना को न बढ़ाए, भले ही यह अन्य आवश्यक और लाभदायक आयामों में सुधार करे।



Google पर संभवतः क्या हुआ होगा?

अब जब हमें जेनेरेटिव एआई इमेज जेनरेशन मॉडल विकसित करने में लगने वाले सभी पहलुओं की समझ हो गई है, तो यह समझने लायक हो सकता है कि समस्याएं कहां से शुरू हुईं। यह बिल्कुल स्पष्ट है कि सुरक्षा परत की एक भूमिका होती है - आखिरकार, Google के परिणाम निश्चित रूप से दौड़ से संबंधित कुछ मापदंडों को बदलते दिखते हैं। अपने काम के आधार पर, मैं निम्नलिखित परिकल्पना करूँगा:


  • कुछ सामान्य संकेतों को सुनिश्चित करने के लिए एक प्रयोग चलाया जा रहा था, यह अल्पसंख्यकों को छोड़कर केवल गोरे लोगों को पैदा नहीं कर रहा था।

  • परिणामों को आक्रामक ढंग से प्राप्त करने के लिए यह प्रयोग फाइन-ट्यूनिंग स्तर पर चलाया गया था।

  • आम तौर पर यह सुनिश्चित करने के लिए कि कोई डेटासेट पूरी तरह से प्रभावी न हो जाए, कुछ अनुपातों/अनुपातों के साथ डेटासेट का नमूना लिया जाएगा

  • गलती से, इसे ठीक से सेट नहीं किया गया था, इस प्रकार अन्य छवियों को फाइन-ट्यूनिंग ओवरफिटिंग से कम करके बिना श्वेत लोगों वाले डेटासेट में बदल दिया गया।

  • कुछ उदाहरण जो अंततः कुछ श्वेत लोगों को दिखाएंगे, वे इसलिए हैं क्योंकि पूर्व-प्रशिक्षण डेटासेट में अभी भी नस्लीय और जातीय विविधता है


सुरक्षा लागू करने का एक अन्य तरीका उन सवालों का जवाब नहीं देना है जो विवादास्पद हो सकते हैं

सुरक्षा लागू करने का एक अन्य तरीका उन सवालों का जवाब नहीं देना है जो विवादास्पद हो सकते हैं


यह मेरा तकनीकी मूल्यांकन होगा, और मुझे आशा है कि पाठक मॉडल विकास प्रक्रिया के कुछ हिस्सों को समझकर आएंगे, कि कैसे कुछ कठिन सवालों से निपटा जाता है और पूरी प्रक्रिया गलतियाँ करने के प्रति कितनी संवेदनशील है। मैंने यहां कुछ हिस्सों को संबोधित नहीं किया है, जिनमें हानिकारक रूढ़िवादिता और कार्यप्रणाली को ठीक करने के बारे में विवादास्पद चर्चाएं शामिल हैं, किसे "दोषी" ठहराया जाए और सबसे महत्वपूर्ण बात यह है कि एक मॉडल इतना गलत कैसे होता है (कथित तौर पर) कठोर मॉडल मूल्यांकन से गुजरता है, और शिपिंग से पहले कानूनी टीमें अंतरिक्ष में सबसे बड़े गोलियथों में से एक। मैं अपनी अगली पोस्ट में कुछ परिकल्पनाओं के साथ अंतिम भाग को संबोधित करूंगा (बेशक मेरे पास शून्य अंदरूनी जानकारी है)।


यहां दी गई राय और चर्चा पूरी तरह से मेरी अपनी है, और मेटा या मेरी टीम के विचारों को बिल्कुल भी प्रतिबिंबित नहीं करती है। मेरे पास कोई आंतरिक ज्ञान नहीं है, और साझा की गई कोई भी जानकारी मेटा स्वामित्व वाली नहीं है और मॉडल जीवनचक्र के विभिन्न चरण मानक उद्योग अभ्यास हैं और व्यापक रूप से ऑनलाइन उपलब्ध हैं।


यहाँ भी प्रकाशित किया गया है.


X REMOVE AD