कुछ महीने पहले एक घोषणा हुई थी कि ओपन सोर्स जनरेटिव आर्टिफिशियल इंटेलिजेंस मॉडल कार्यक्षेत्र पर दबदबा रहेगा. पंडित एक हवाला देते हैं Google मेमो लीक हो गया इसमें कहा गया है कि ओपन सोर्स मॉडल के कारण खोज दिग्गज ने जेनेरिक एआई के क्षेत्र में अपना प्रतिस्पर्धात्मक लाभ खो दिया है।
तर्क कुछ इस प्रकार है:
- ओपन सोर्स मशीन लर्निंग एल्गोरिदम ने मालिकाना एल्गोरिदम की क्षमताओं को पार कर लिया है।
- प्रशिक्षण के लिए ओपन सोर्स एल्गोरिदम का उपयोग करते समय मॉडल ओपन सोर्स डेटा सेट पर, बेंचमार्क के संबंध में "बुनियादी" मॉडल का प्रदर्शन काफी अच्छा है।
- एक मॉडल बनाने के लिए "फाइन-ट्यूनिंग" (अपने डेटा को ओपन सोर्स डेटा के साथ संयोजित करने की प्रक्रिया) जैसी तकनीकों का उपयोग करने से बिग टेक के स्वामित्व डेटा सेट का उपयोग करने की आवश्यकता समाप्त हो जाती है।
- इसलिए, मालिकाना मॉडल मर चुके हैं।
तब गूगल I/O 2023 घटित। गूगल बार्ड , अपने स्वयं के स्वामित्व डेटासेट पर निर्मित एक जेनरेटिव एआई सर्च इंजन मिला गुणगान से भरी समीक्षाएं . सबसे अधिक उद्धृत विशेषता इसकी वास्तविक समय डेटा को अपने मॉडल में शामिल करने की क्षमता है।
आइए ऊपर दिए गए तर्क के विश्लेषण के साथ इस पर एक नजर डालें कि मालिकाना मॉडल भविष्य में महत्वपूर्ण भूमिका क्यों निभाएंगे:
- क्या ओपन सोर्स मशीन लर्निंग एल्गोरिदम मालिकाना एल्गोरिदम की क्षमताओं से अधिक हो गए हैं? हाँ। Google का आंतरिक ज्ञापन इस बात पर चर्चा करता है कि कैसे ओपन सोर्स समुदाय द्वारा एल्गोरिदम के प्रदर्शन और नवाचार ने विकास की अपनी गति को ग्रहण कर लिया है।
- ओपन सोर्स डेटा सेट पर मॉडल को प्रशिक्षित करने के लिए ओपन सोर्स एल्गोरिदम का उपयोग करते समय, क्या बेंचमार्क के संबंध में "बुनियादी" मॉडल का प्रदर्शन अच्छा है? बेंचमार्क से सावधान रहें. यदि मॉडल का लक्ष्य केवल अंग्रेजी समझना है, तो डेटा के ओपन सोर्स कॉर्पस का उपयोग करना ठीक है। लेकिन क्या होगा यदि आपका मॉडल "वास्तविक समय" डेटा से लाभान्वित हो सकता है - ठीक उसी तरह जैसे बार्ड की वास्तविक समय डेटा खोज से उपयोगकर्ताओं को लाभ होता है? फिर बेंचमार्क के लिए अंग्रेजी समझने और दुनिया में हाल की घटनाओं को समझने की क्षमता की आवश्यकता होगी।
- क्या मॉडल बनाने के लिए "फाइन-ट्यूनिंग" जैसी तकनीकें बिग टेक के मालिकाना डेटा सेट का उपयोग करने की आवश्यकता को समाप्त कर देती हैं? फिर, आपके उपयोगकर्ता किस चीज़ की परवाह करते हैं? क्या आपका मालिकाना डेटासेट आपके लिए आवश्यक सभी वास्तविक समय के संदर्भ ला सकता है?
- तो क्या मालिकाना मूलभूत मॉडल वास्तव में मर चुके हैं? इतना शीघ्र नही …
जेनरेटिव एआई सफलता की लागत
यह पता चला है कि मॉडल बनाने के लिए वास्तविक समय डेटा तक पहुंच प्राप्त करना महंगा है। Google अपने जेनेरिक मॉडल बनाने के लिए वास्तविक समय में वेब को अनुक्रमित करने के लिए बुनियादी ढांचे के निर्माण के लिए अरबों डॉलर खर्च करता है, और आप शर्त लगा सकते हैं कि यह मालिकाना होगा।
आइए दो अलग-अलग मूलभूत मॉडलों के शीर्ष पर निर्मित दो एयरलाइन यात्रा चैटबॉट का उदाहरण लें; एक चैटबॉट खुला स्रोत है और एक वास्तविक समय डेटा के साथ मालिकाना है। ट्रैवल चैटबॉट मालिकाना उड़ान सूचना डेटा सेट के साथ "ठीक-ठीक" है, जो यह सिफारिश करता है कि कौन सी उड़ानें लेनी हैं। कई मामलों में, दोनों चैटबॉट एक ही उत्तर देंगे। हालाँकि, यदि किसी हवाई अड्डे पर कोई बड़ा तूफान आता है, तो मालिकाना वास्तविक समय डेटा के साथ बनाया गया चैटबॉट उड़ान की जानकारी प्रदान करेगा जो तूफान से प्रभावित होने वाली उड़ानों से बचता है। यह उपयोगकर्ताओं के लिए अमूल्य है, और इसलिए डेवलपर्स के लिए भी मूल्यवान होगा।
मूलभूत एआई मॉडल का भविष्य
तो क्या इसका मतलब यह है कि प्रत्येक जेनेरिक एआई उपयोग के मामले में मालिकाना वास्तविक समय डेटा से निर्मित एक मूलभूत मॉडल की आवश्यकता होती है? नहीं, लेकिन ऐसे अन्य कारण भी हैं जिनकी वजह से मालिकाना मूलभूत मॉडल की आवश्यकता होगी:
- मालिकाना प्रथम-पक्ष डेटा सेट इस उदाहरण पर विचार करें: Google बार्ड अपना मूलभूत मॉडल बनाने के लिए संपूर्ण YouTube का लाभ उठाता है। यदि आपका जेनेरिक एआई उपयोग मामला यूट्यूब पर अपलोड की गई विशाल मात्रा में जानकारी और ज्ञान से लाभान्वित हो सकता है, तो आप Google से एक मूलभूत मॉडल का उपयोग करना चाह सकते हैं।
- वैयक्तिकरण डेटा सेट जब एक मूलभूत मॉडल को वैयक्तिकृत डेटा के साथ प्रशिक्षित किया जाता है, तो मॉडल (उर्फ तंत्रिका नेटवर्क) में व्यक्तिगत जानकारी के पहलू होंगे। अनुमान लगाने के लिए इन मॉडलों का उपयोग इस तरह से किया जा सकता है कि व्यक्तिगत जानकारी लीक न हो, लेकिन यदि पूरा मॉडल निर्यात किया जाता है, तो मॉडल के मापदंडों को देखकर विशेष उपयोगकर्ताओं की व्यक्तिगत जानकारी निकालना संभव है। फ़ेडरेटेड लर्निंग में प्रगति के बावजूद, गोपनीयता को खतरे में डाले बिना मॉडल को निर्यात करने में सक्षम बनाने का कोई आसान तरीका नहीं है।
तो भविष्य के मूलभूत मॉडल कैसे दिखते हैं? संभवतः कुछ इस तरह:
- एल्गोरिदम खुला स्रोत होंगे
- वास्तविक समय डेटा सेट और वैयक्तिकरण को बनाए रखने की लागत और अन्य में खुले स्रोत के कारण, कुछ मामलों में डेटा सेट मालिकाना होगा।
यह मानते हुए कि यह प्रचलित वास्तुकला है, द्वितीयक प्रभाव क्या हैं?
- जेनेरिक एआई का निर्माण करने की चाहत रखने वाले उद्यमों को संभवतः बड़ी कंपनियों के मूलभूत मॉडलों पर भरोसा करने की आवश्यकता होगी जिनके पास अपने स्वयं के वास्तविक समय डेटा बुनियादी ढांचे को बनाए रखने के लिए चेकबुक और अन्य उपयोग के मामलों के लिए ओपन सोर्स फाउंडेशन मॉडल हैं।
- स्वामित्व डेटा सेट जिस पर उद्यम भरोसा करते हैं वह भी तेजी से वास्तविक समय भी होगा। उम्मीद करें कि डेटा Apache Cassandra जैसे NoSQL रीयल-टाइम डेटाबेस में रहेगा, Apache पल्सर जैसी तकनीकों का उपयोग करके फीचर स्टोर में स्ट्रीम किया जाएगा।
- व्यावहारिक उद्देश्यों के लिए, मॉडल अनुमान संभवतः AWS, Microsoft और Google जैसे मूलभूत मॉडल प्रदाताओं के स्वामित्व वाले डेटा केंद्रों पर होगा। इसका मतलब यह है कि एआई के युग में हाइपरस्केलर्स का महत्व बढ़ने की संभावना है। मूलभूत ओपन सोर्स मॉडल पर आधारित मॉडल अनुमान ग्राहकों के डेटा केंद्रों में किया जा सकता है।
डेटास्टैक्स (मेरे नियोक्ता) के लिए द्वितीयक प्रभाव भी महत्वपूर्ण हैं। डेटा प्रबंधन प्रदाता के रूप में, डेटास्टैक्स एस्ट्रा डीबी के माध्यम से क्लाउड में सेवाएं प्रदान करने में हमारा निवेश, जो एडब्ल्यूएस, माइक्रोसॉफ्ट और Google के प्रमुख क्लाउड पर स्थित है, बढ़ने की संभावना है क्योंकि उद्यम में जेनरेटिव एआई अधिक प्रचलित हो जाता है।
जबकि हम जैसी कंपनियों के ओपन सोर्स फाउंडेशनल मॉडल के उपयोग को प्रोत्साहित और समर्थन करते हैं आलिंगन चेहरा हम तीन बड़े क्लाउड प्रदाताओं के साथ मजबूत एआई साझेदारी भी बना रहे हैं। सबसे महत्वपूर्ण बात यह है कि हम कैसेंड्रा में वेक्टर खोज जैसे अपस्ट्रीम सुविधाओं के लिए सामुदायिक योगदान प्रक्रिया का उपयोग कर रहे हैं ताकि यह सुनिश्चित किया जा सके कि कंपनियां वास्तविक समय एआई के लिए अपने स्वयं के वास्तविक डेटा सेट बना सकें।
एलन हो द्वारा, डेटास्टैक्स
यहाँ भी प्रकाशित किया गया है.