1,222 रीडिंग

क्लिप: कंप्यूटर विजन और एनएलपी के बीच एक अभिनव एक्वाडक्ट

द्वारा Sanjay Kumar10m2023/01/19

बहुत लंबा; पढ़ने के लिए

CLIP उर्फ "कंट्रास्टिव लैंग्वेज इमेज प्री-ट्रेनिंग" एक प्रसिद्ध एल्गोरिदम में से एक है, जिसे "प्राकृतिक भाषा पर्यवेक्षण से सीखने योग्य दृश्य मॉडल सीखना" नामक श्वेत पत्र में चर्चा की गई है। CLIP की प्रमुख खपत कंप्यूटर दृष्टि के आधार पर उपयोग के मामलों में की जाती है जो एक 'Dall-E 2' नाम का एल्गोरिथम इस लेख में, हम कुछ वास्तविक जीवन के उदाहरणों के माध्यम से उद्देश्य, कार्यप्रणाली और CLIP के कुछ पेशेवरों और विपक्षों पर चर्चा कर सकते हैं।

featured image - क्लिप: कंप्यूटर विजन और एनएलपी के बीच एक अभिनव एक्वाडक्ट

विषयसूची

परिचय
CLIP एल्गोरिथम का उद्देश्य और आवश्यकता
CLIP एल्गोरिथम की कार्यप्रणाली
सीमाओं
रीयलटाइम अनुप्रयोग

परिचय

CLIP उर्फ "कंट्रास्टिव लैंग्वेज इमेज प्री-ट्रेनिंग" OpenAI - एक आर्टिफिशियल इंटेलिजेंस रिसर्च लेबोरेटरी के शोधकर्ताओं द्वारा प्रकाशित "लर्निंग ट्रांसफरेबल विज़ुअल मॉडल्स फ्रॉम नेचुरल लैंग्वेज सुपरविजन" नामक श्वेत पत्र में चर्चा किए गए प्रसिद्ध एल्गोरिदम में से एक है। CLIP की प्रमुख खपत कंप्यूटर दृष्टि के आधार पर उपयोग के मामलों में की जाती है जो "Dall-E 2" नामक एल्गोरिदम का उपयोग करती है जिसे ओपन एआई टीम द्वारा भी विकसित किया गया था। अधिक सटीक रूप से, CLIP का उपयोग "Dall-E 2" एल्गोरिथम के लिए एक सहायक मॉडल के रूप में किया जा रहा है। लेकिन यह गलत न समझें कि CLIP शक्तिशाली नहीं है क्योंकि इसे सहायक मॉडल के रूप में उपयोग किया जाता है :)

एक सहायक मॉडल होने के बावजूद, CLIP को गहन शिक्षण अनुसंधान में एक महत्वपूर्ण कदम माना जाता है। हम "Dall-E 2" के बिना भी अलग-अलग समस्या-समाधान के लिए CLIP लागू कर सकते हैं। इस लेख में, हम कुछ वास्तविक जीवन के उदाहरणों के माध्यम से उद्देश्य, कार्यप्रणाली और CLIP के कुछ पेशेवरों और विपक्षों पर चर्चा कर सकते हैं और हम अपने गहन शिक्षण परियोजनाओं के जीवन को कैसे सरल बना सकते हैं।

CLIP एल्गोरिथम का उद्देश्य और आवश्यकता

CLIP एल्गोरिथम के पीछे प्राथमिक उद्देश्य टेक्स्ट की सूची से एक विशेष टेक्स्ट को खोजना है जो दी गई छवि के समान है।

उदाहरण के लिए,

आइए निम्नलिखित छवि को इनपुट के रूप में मानते हैं-

और मान लीजिए कि दी गई सूची में हमारे पास कुछ ग्रंथ हैं-

एक हवाई जहाज का फोटो।
एक पक्षी का फोटो।
एक भालू की तस्वीर।
एक जिराफ की तस्वीर।
एक कार की फोटो।

CLIP मॉडल का प्राथमिक कार्य दी गई सूची से सबसे उपयुक्त टेक्स्ट को इनपुट इमेज से मिलाना है जैसा कि नीचे दिखाया गया है-

मौलिक रूप से, यह एक कृत्रिम तंत्रिका नेटवर्क है जो सूची में प्रत्येक पाठ को एक वर्ग के रूप में मानता है और छवि के अनुरूप प्रत्येक पाठ के लिए संभाव्यता मान प्रदान करता है। तार्किक रूप से, अधिकतम संभाव्यता मान प्राप्त करने वाले पाठ को आउटपुट माना जा सकता है।

CLIP का एक बड़ा सकारात्मक पहलू यह है कि यह पहले से ही "अंग्रेजी" भाषा के सभी शब्दों को जानता है। CLIP मॉडल की कुछ विशेषताएं जो अन्य समान एल्गोरिदम के साथ तुलना करने पर इसे विशेष बनाती हैं-

CLIP मॉडल पाठ में एक शब्द तक ही सीमित नहीं है। इसके बजाय, यह इनपुट वाक्य में सभी शब्दों और छवि के सभी पिक्सेल से जानकारी के प्रत्येक टुकड़े को निकालने का प्रयास करता है। यह इनपुट छवि के सभी पहलुओं जैसे पृष्ठभूमि, रंग, आकार आदि में वस्तुओं को याद रखना कभी नहीं भूलता।

उदाहरण के लिए,
आइए निम्नलिखित इनपुट छवि पर विचार करें-

दी गई सूची में अंतिम को छोड़कर सभी पाठ इनपुट के लिए एक तार्किक मिलान की तरह दिखते हैं। किसी भी अन्य मॉडल को किसी विशेष वर्ग के लिए उच्च दृढ़ विश्वास संभाव्यता मूल्य तक पहुंचने के लिए संघर्ष करना पड़ता। हालाँकि, CLIP ने इस छवि के सभी पहलुओं जैसे कि केनेल, सेल, डॉग आदि के पैटर्न का विश्लेषण किया होगा।

ऐसा लगता है कि धूप बाहर से अंदर की ओर आ रही है। इसलिए, यह एक इनडोर संरचना होनी चाहिए। साथ ही इंसान की जगह जानवर की मौजूदगी भी है। इसलिए, यह एक जेल नहीं बल्कि एक केनेल हो सकता है।

छवि और पाठ के सभी पहलुओं पर विचार करते हुए इस तरह का उन्नत विश्लेषण एक ही लीग में अन्य मॉडलों के लिए संभव नहीं हो सकता है।

CLIP को ऑप्टिकल कैरेक्टर रिकॉग्निशन यूज केस में भी अच्छा काम करते देखा गया है जो समान मॉडल में संभव नहीं है-

कंप्यूटर विज़न की अन्य शाखाएँ जैसे कि भू-स्थानीकरण, चेहरे की भावना पहचान आदि भी CLIP मॉडल के साथ अच्छी तरह से काम कर रही हैं।

CLIP ने अनदेखे इनपुट में भी शानदार जीरो-शॉट प्रदर्शन दिखाया है। इसके अलावा, यह उम्मीद नहीं करता है कि पाठ "बिल्ली", "कुत्ते", "पक्षी", "कार" जैसे किसी एक शब्द में होगा। प्लेन ”आदि। इसके बजाय, यह शब्दों के एक समूह को तार्किक रूप से एक वाक्य तैयार कर सकता है। यह सुविधा आम तौर पर अन्य मॉडलों में नहीं देखी जाती है।

CLIP एल्गोरिथम की कार्यप्रणाली

CLIP एल्गोरिथम को 400 मिलियन छवियों पर युग्मित पाठ विवरण के साथ प्रशिक्षित किया गया है जो इसे ब्रह्मांड के बारे में अत्यधिक जानकार बनाता है और जटिल छवियों और ग्रंथों के साथ जटिल कार्यों को हल करने में आत्मविश्वास रखता है।

इमेजनेट डेटासेट में केवल 1.2 मिलियन चित्र होते हैं। 400 मिलियन 1.2 मिलियन के लगभग 300 गुना है। 400 मिलियन छवियों में से अधिकांश सीधे इंटरनेट से स्क्रैप की जाती हैं जो इसे अत्यधिक विविध और बड़ा संग्रह बनाती है जो इसकी पैटर्न पहचान क्षमता को बढ़ाती है।

CLIP आर्किटेक्चर के विकास के लिए, हमें छवियों और संबंधित टेक्स्ट दोनों को गणितीय वैक्टर में एन्कोड करने की आवश्यकता है। ऐसा इसलिए है क्योंकि मशीन लर्निंग एल्गोरिथम जानकारी का अनुमान लगाने में सक्षम नहीं होगा यदि यह दृश्य या पाठ्य प्रारूप में है। इसलिए, हमें उन्हें संख्यात्मक मानों में बदलने की आवश्यकता है।

ट्रांसफॉर्मर या रेसनेट एल्गोरिथम का उपयोग करके छवि इनपुट को गणितीय वेक्टर में परिवर्तित किया जाता है

ट्रांसफॉर्मर एल्गोरिथम का उपयोग करके टेक्स्ट इनपुट एक गणितीय वेक्टर में है-

चूंकि हमारे पास इमेज-टेक्स्ट जोड़ियों की एक सूची है, इसलिए हमें इसे कुछ अक्षरों का उपयोग करके निरूपित करने की आवश्यकता है।

प्रत्येक छवि को I1, I2, I3...IN आदि के रूप में दर्शाया गया है।

प्रत्येक पाठ को T1, T2, T3… TN आदि के रूप में दर्शाया गया है।

उसके बाद, हमें प्रत्येक छवि को पंक्तियों के रूप में और प्रत्येक पाठ को स्तंभों के रूप में एक समानता मैट्रिक्स बनाने की आवश्यकता है।

जैसा कि ऊपर की छवि में बताया गया है, विकर्ण छवि-पाठ जोड़े में अधिक समानता होगी क्योंकि वे एक ही संदर्भ का जिक्र कर रहे हैं। गैर-विकर्ण तत्व यादृच्छिक जोड़े हैं जो समान संदर्भ से संबंधित नहीं हैं। इसलिए, उनका समानता मूल्य कम होगा।

अनुकूलन कार्यों का लक्ष्य जितना संभव हो सके विकर्ण जोड़े के लिए समानता मान को बढ़ाना और गैर-विकर्ण छवि-पाठ जोड़े के बीच समानता को कम करना होगा।

सीखने के एक बिंदु पर, मॉडल उन छिपे हुए पैटर्न को सीखने में सक्षम होगा जो छवियों और ग्रंथों से मेल खाते हैं जो एक ही संदर्भ से संबंधित हैं और विभिन्न संदर्भों से संबंधित छवियों और ग्रंथों को अलग करते हैं।

इस प्रक्रिया को तकनीकी रूप से "कंट्रास्टिव प्री-ट्रेनिंग" कहा जाता है।

CLIP को "कम्प्यूटेशनल रूप से कुशल" एल्गोरिथम माना जाता है। ऐसा इसलिए है क्योंकि वे छवियों और ग्रंथों को एन्कोड करने के लिए ट्रांसफॉर्मर एल्गोरिदम का उपयोग करते हैं जो डेटा को समानांतर फैशन में एक्सेस करते हैं। यदि हम LSTM या RNN जैसे अन्य एल्गोरिदम का उपयोग करते हैं, तो वे क्रमिक रूप से एन्कोडिंग के लिए डेटा तक पहुँचते हैं जो बहुत समय और स्थान का उपभोग कर सकता है।

चूंकि CLIP एक लंबे वाक्य के साथ एक छवि से मेल खा सकता है, शोधकर्ता आमतौर पर "एक _____ की एक तस्वीर" जैसा एक टेक्स्ट प्रॉम्प्ट बनाते हैं। फिर, ग्रंथों की एक सूची के माध्यम से पुनरावृति करते हुए, कंप्यूटर प्रोग्राम स्वचालित रूप से सूची के हर एक शब्द को इस पाठ संकेत में फिट कर देता है जैसे-

एक हवाई जहाज़ की तस्वीर
एक कार की फोटो
कुत्ते आदि का फोटो।

इस पाठ को तब एन्कोड किया जाता है और समानता मूल्य की गणना के लिए इनपुट छवि के एन्कोडेड वेक्टर के साथ मिलान किया जाता है।

सीमाओं

स्केलेबिलिटी से संबंधित चुनौतियां

प्रशिक्षण विभाजन वाले डेटासेट पर, शून्य-शॉट CLIP का प्रदर्शन ResNet-50 सुविधाओं के शीर्ष पर एक रैखिक क्लासिफायरियर की सरल पर्यवेक्षित आधार रेखा के साथ औसत प्रतिस्पर्धी है। इनमें से अधिकांश डेटासेट पर, इस आधार रेखा का प्रदर्शन अब कला की समग्र स्थिति से काफी नीचे है। CLIP की कार्य-शिक्षण और स्थानांतरण क्षमताओं में सुधार के लिए अभी भी महत्वपूर्ण कार्य की आवश्यकता है। जबकि स्केलिंग ने अब तक प्रदर्शन में लगातार सुधार किया है और निरंतर सुधार के लिए एक मार्ग का सुझाव दिया है, शोधकर्ताओं का अनुमान है कि शून्य-शॉट CLIP के लिए कंप्यूटिंग में लगभग 1000 गुना वृद्धि आवश्यक है ताकि समग्र अत्याधुनिक प्रदर्शन तक पहुंच सके। वर्तमान हार्डवेयर के साथ प्रशिक्षित करना संभव नहीं है। सीएलआईपी की कम्प्यूटेशनल और डेटा दक्षता में सुधार के लिए और अनुसंधान आवश्यक होगा।

शून्य-शॉट प्रदर्शन से संबंधित चुनौतियाँ

यह पाया गया है कि कई प्रकार के कार्यों पर CLIP का जीरो-शॉट प्रदर्शन अभी भी काफी कमजोर है। जब कार्य-विशिष्ट मॉडलों की तुलना की जाती है, तो CLIP का प्रदर्शन कई प्रकार के सुक्ष्म वर्गीकरण जैसे कारों के अलग-अलग मॉडल, फूलों की प्रजातियों और विमानों के वेरिएंट पर खराब होता है। CLIP को अधिक सारगर्भित और व्यवस्थित कार्यों के साथ भी संघर्ष करना पड़ता है जैसे किसी छवि में वस्तुओं की संख्या की गणना करना। अंत में, नए कार्यों के लिए जो CLIP के पूर्व-प्रशिक्षण डेटासेट में शामिल होने की संभावना नहीं है, जैसे किसी तस्वीर में निकटतम कार की दूरी को वर्गीकृत करना, CLIP का प्रदर्शन लगभग यादृच्छिक हो सकता है।

प्रशिक्षण सेट (वितरण) से बाहर की छवियों को समझने में चुनौतियाँ

जबकि शून्य-शॉट CLIP जांच के अनुसार कई प्राकृतिक छवि वितरणों के लिए अच्छी तरह से सामान्यीकरण करता है, शोधकर्ताओं ने देखा कि शून्य-शॉट CLIP अभी भी डेटा के लिए खराब सामान्यीकरण करता है जो वास्तव में इसके लिए वितरण से बाहर है।

उदाहरण के लिए, CLIP एक उच्च-गुणवत्ता वाला सिमेंटिक OCR प्रतिनिधित्व सीखता है जो डिजिटल रूप से प्रदान किए गए पाठ पर अच्छा प्रदर्शन करता है, जो कि इसके पूर्व-प्रशिक्षण डेटासेट में आम है, जैसा कि Rendered SST2 पर प्रदर्शन से पता चलता है।

हालाँकि, CLIP केवल MNIST के हस्तलिखित अंकों पर 88% सटीकता प्राप्त करता है। एक शर्मनाक

कच्चे पिक्सेल पर लॉजिस्टिक रिग्रेशन की सरल आधार रेखा शून्य-शॉट CLIP से बेहतर प्रदर्शन करती है। सिमेंटिक और निकट-डुप्लिकेट निकटतम-पड़ोसी पुनर्प्राप्ति दोनों पुष्टि करते हैं कि हमारे पूर्व-प्रशिक्षण डेटासेट में MNIST अंकों के समान लगभग कोई चित्र नहीं हैं।

इससे पता चलता है कि CLIP गहन शिक्षण मॉडल के भंगुर सामान्यीकरण की अंतर्निहित समस्या का समाधान करने के लिए बहुत कम करता है। इसके बजाय, CLIP समस्या को दरकिनार करने की कोशिश करता है और उम्मीद करता है कि इतने बड़े और विविध डेटासेट पर प्रशिक्षण देकर, सभी डेटा प्रभावी रूप से वितरण में होंगे। यह एक भोली धारणा है, जैसा कि MNIST प्रदर्शित करता है, इसका उल्लंघन करना आसान है।

कैप्शन जनरेट करने में असमर्थ

हालांकि CLIP विभिन्न प्रकार के कार्यों और डेटासेट के लिए लचीले ढंग से शून्य-शॉट क्लासिफायर उत्पन्न कर सकता है, फिर भी CLIP किसी दिए गए शून्य-शॉट क्लासिफायर में केवल उन्हीं अवधारणाओं को चुनने तक सीमित है। छवि कैप्शनिंग जैसे वास्तव में लचीले दृष्टिकोण की तुलना में यह एक महत्वपूर्ण प्रतिबंध है जो उपन्यास आउटपुट उत्पन्न कर सकता है।

CLIP डीप लर्निंग की खराब डेटा दक्षता को संबोधित नहीं करता है

CLIP गहन शिक्षण की खराब डेटा दक्षता को भी संबोधित नहीं करता है। इसके बजाय, CLIP पर्यवेक्षण के एक स्रोत का उपयोग करके क्षतिपूर्ति करता है जिसे करोड़ों प्रशिक्षण उदाहरणों तक बढ़ाया जा सकता है। यदि CLIP मॉडल के प्रशिक्षण के दौरान देखी गई प्रत्येक छवि को एक प्रति सेकंड की दर से प्रस्तुत किया जाता है, तो 32 प्रशिक्षण युगों में देखी गई 12.8 बिलियन छवियों के माध्यम से पुनरावृति होने में 405 वर्ष लगेंगे। स्व-पर्यवेक्षण और स्व-प्रशिक्षण विधियों के साथ CLIP का संयोजन एक आशाजनक दिशा है, जो मानक पर्यवेक्षित शिक्षण पर डेटा दक्षता में सुधार करने की उनकी प्रदर्शित क्षमता को देखते हुए है।

रीयलटाइम अनुप्रयोग

रीयल-टाइम उपयोग के मामलों को हल करने के लिए कुछ ऐसे क्षेत्र जहां CLIP का उपयोग किया गया है:

"paint.wtf" नाम की एक वेबसाइट है जहाँ हम PEDIA खेल सकते हैं। यहां के खिलाड़ियों को CLIP द्वारा आंका जाएगा।
CLIP का उपयोग "NSFW (काम के लिए सुरक्षित नहीं)" जैसे फ़िल्टर लागू करने के लिए किया जा सकता है।
"DALL-E", Open AI द्वारा एक एल्गोरिथ्म CLIP का उपयोग एक सहायक मॉडल के रूप में कर रहा है जैसा कि हमने पहले चर्चा की थी।
CLIP का उपयोग Unsplash जैसी वेबसाइटों पर फ़ोटो को अनुक्रमित करने के लिए किया जाता है।
CLIP का उपयोग कविता, पहेली, तुकबंदी, उपन्यास आदि जैसी जटिल भाषाओं के लिए उपयुक्त चित्र खोजने के लिए किया जा सकता है।
CLIP का उपयोग दूषित या विकृत छवियों को चुनने के लिए भी किया जा सकता है। 'इनवर्स प्रॉब्लम्स लीवरेजिंग प्री-ट्रेन्ड कंट्रास्टिव रिप्रेजेंटेशन ' शीर्षक वाला एक नया शोध पत्र दर्शाता है कि भ्रष्ट छवियों के प्रभावी प्रतिनिधित्व प्राप्त करने के लिए एक पर्यवेक्षित उलटा विधि का उपयोग कैसे किया गया था।
2021 में रिलीज़ किया गया, CLIP+VQGAN या वेक्टर क्वांटाइज़्ड जनरेटिव एडवरसैरियल नेटवर्क नामक एक जनरेटिव मॉडल का उपयोग टेक्स्ट-टू-इमेज प्रतिमान के भीतर चर आकार की छवियों को उत्पन्न करने के लिए किया जाता है, जिसे टेक्स्ट प्रॉम्प्ट का एक सेट दिया जाता है। हालाँकि, VQGAN के विपरीत, CLIP एक जनरेटिव मॉडल नहीं है और इसे केवल छवियों और पाठ दोनों को प्रभावी ढंग से प्रस्तुत करने के लिए प्रशिक्षित किया जाता है।

निष्कर्ष

डीप लर्निंग इंडस्ट्री में यह एक निर्विवाद तथ्य है कि CLIP ने इमेज प्रोसेसिंग और NLP से संबंधित जटिल उपयोग के मामलों को हल करने के लिए लोफ उन्नत एल्गोरिदम के विकास का मार्ग प्रशस्त किया है।

CLIP को कंप्यूटर विज़न और NLP के बीच एक अभिनव एक्वाडक्ट माना जा सकता है। इसके अलावा, चूंकि इसमें कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता नहीं होती है, इसलिए बड़ी मात्रा में टेक्स्ट डेटा फीड करना संभव है और यह अधिक असंबद्ध कार्यों में धीरे-धीरे बेहतर और बेहतर होता जाएगा।

हम भविष्य में CLIP द्वारा प्रदान की जाने वाली महत्वपूर्ण प्रगति के लिए एक साथ उत्सुकता से प्रतीक्षा कर सकते हैं। मुझे उम्मीद है कि आपको CLIP एल्गोरिथम के पीछे की अवधारणा का एक स्पष्ट तरीके से बुनियादी परिचय मिल गया होगा।

मैंने संदर्भ अनुभाग में शोध पत्र के लिंक जोड़े हैं जिनका उपयोग आप गहन कार्यान्वयन को संदर्भित करने की आवश्यकता होने पर कर सकते हैं।

संदर्भ

Open AI से CLIP दस्तावेज़ीकरण
"प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना" - एलेक रैडफोर्ड, जोंग वूक किम, क्रिस हैलेसी, आदित्य रमेश, गेब्रियल गोह, संधिनी अग्रवाल, गिरीश शास्त्री, अमांडा आस्केल, पामेला मिश्किन, जैक क्लार्क, ग्रेटेन क्रूगर, इल्या सुतस्केवर
"उलटा समस्याएं पूर्व-प्रशिक्षित विरोधाभासी प्रतिनिधित्व का लाभ उठाने" - श्रीराम रावुला *, जॉर्जियोस स्मिरनिस *, मैट जॉर्डन, एलेक्जेंड्रोस जी। डिमाकिस, ऑस्टिन में टेक्सास विश्वविद्यालय, न्यूरआईपीएस 2021
"VQGAN-CLIP: ओपन डोमेन इमेज जेनरेशन एंड एडिटिंग विथ नेचुरल लैंग्वेज गाइडेंस" - कैथरीन क्रोसन, स्टेला बिडरमैन, डैनियल कोर्निस, डेशिएल स्टेंडर, एरिक हॉलहैन, लुइस कैस्ट्रिकैटो और एडवर्ड रैफ
रेडफोर्ड, एलेक; नरसिम्हन, कार्तिक; सलीमन्स, टिम; सुतस्केवर, इल्या (11 जून 2018)। "जनरेटिव प्री-ट्रेनिंग द्वारा भाषा की समझ में सुधार" (पीडीएफ)। ओपनएआई । पी। 12. 26 जनवरी 2021 को मूल से संग्रहीत (पीडीएफ)। 23 जनवरी 2021 को पुनःप्राप्त।
जॉनसन, खारी (5 जनवरी 2021)। "ओपनएआई ने पाठ से चित्र बनाने के लिए डीएएल-ई की शुरुआत की" । वेंचरबीट। मूल से 5 जनवरी 2021 को पुरालेखित। 5 जनवरी 2021 को लिया गया।
रमेश, आदित्य; धारीवाल, प्रफुल्ल; निकोल, एलेक्स; चू, केसी; चेन, मार्क (12 अप्रैल 2022)। "क्लिप लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण" । आर्क्सिव : 2204.06125 ।