कुछ महीने पहले एक घोषणा हुई थी कि  कार्यक्षेत्र पर दबदबा रहेगा. पंडित एक हवाला देते हैं  इसमें कहा गया है कि ओपन सोर्स मॉडल के कारण खोज दिग्गज ने जेनेरिक एआई के क्षेत्र में अपना प्रतिस्पर्धात्मक लाभ खो दिया है।   ओपन सोर्स जनरेटिव आर्टिफिशियल इंटेलिजेंस मॉडल   Google मेमो लीक हो गया  तर्क कुछ इस प्रकार है:  ओपन सोर्स मशीन लर्निंग एल्गोरिदम ने मालिकाना एल्गोरिदम की क्षमताओं को पार कर लिया है।  प्रशिक्षण के लिए ओपन सोर्स एल्गोरिदम का उपयोग करते समय  ओपन सोर्स डेटा सेट पर, बेंचमार्क के संबंध में "बुनियादी" मॉडल का प्रदर्शन काफी अच्छा है।   मॉडल  एक मॉडल बनाने के लिए "फाइन-ट्यूनिंग" (अपने डेटा को ओपन सोर्स डेटा के साथ संयोजित करने की प्रक्रिया) जैसी तकनीकों का उपयोग करने से बिग टेक के स्वामित्व डेटा सेट का उपयोग करने की आवश्यकता समाप्त हो जाती है।  इसलिए, मालिकाना मॉडल मर चुके हैं।  तब  घटित।  , अपने स्वयं के स्वामित्व डेटासेट पर निर्मित एक जेनरेटिव एआई सर्च इंजन मिला  . सबसे अधिक उद्धृत विशेषता इसकी वास्तविक समय डेटा को अपने मॉडल में शामिल करने की क्षमता है।   गूगल I/O 2023   गूगल बार्ड   गुणगान से भरी समीक्षाएं  आइए ऊपर दिए गए तर्क के विश्लेषण के साथ इस पर एक नजर डालें कि मालिकाना मॉडल भविष्य में महत्वपूर्ण भूमिका क्यों निभाएंगे:    हाँ। Google का आंतरिक ज्ञापन इस बात पर चर्चा करता है कि कैसे ओपन सोर्स समुदाय द्वारा एल्गोरिदम के प्रदर्शन और नवाचार ने विकास की अपनी गति को ग्रहण कर लिया है। क्या ओपन सोर्स मशीन लर्निंग एल्गोरिदम मालिकाना एल्गोरिदम की क्षमताओं से अधिक हो गए हैं?    बेंचमार्क से सावधान रहें. यदि मॉडल का लक्ष्य केवल अंग्रेजी समझना है, तो डेटा के ओपन सोर्स कॉर्पस का उपयोग करना ठीक है। लेकिन क्या होगा यदि आपका मॉडल "वास्तविक समय" डेटा से लाभान्वित हो सकता है - ठीक उसी तरह जैसे बार्ड की वास्तविक समय डेटा खोज से उपयोगकर्ताओं को लाभ होता है? फिर बेंचमार्क के लिए अंग्रेजी समझने   दुनिया में हाल की घटनाओं को समझने की क्षमता की आवश्यकता होगी। ओपन सोर्स डेटा सेट पर मॉडल को प्रशिक्षित करने के लिए ओपन सोर्स एल्गोरिदम का उपयोग करते समय, क्या बेंचमार्क के संबंध में "बुनियादी" मॉडल का प्रदर्शन अच्छा है? और    फिर, आपके उपयोगकर्ता किस चीज़ की परवाह करते हैं? क्या आपका मालिकाना डेटासेट आपके लिए आवश्यक सभी वास्तविक समय के संदर्भ ला सकता है? क्या मॉडल बनाने के लिए "फाइन-ट्यूनिंग" जैसी तकनीकें बिग टेक के मालिकाना डेटा सेट का उपयोग करने की आवश्यकता को समाप्त कर देती हैं?    इतना शीघ्र नही … तो क्या मालिकाना मूलभूत मॉडल वास्तव में मर चुके हैं?  जेनरेटिव एआई सफलता की लागत  यह पता चला है कि मॉडल बनाने के लिए वास्तविक समय डेटा तक पहुंच प्राप्त करना महंगा है। Google अपने जेनेरिक मॉडल बनाने के लिए वास्तविक समय में वेब को अनुक्रमित करने के लिए बुनियादी ढांचे के निर्माण के लिए अरबों डॉलर खर्च करता है, और आप शर्त लगा सकते हैं कि यह मालिकाना होगा।  आइए दो अलग-अलग मूलभूत मॉडलों के शीर्ष पर निर्मित दो एयरलाइन यात्रा चैटबॉट का उदाहरण लें; एक चैटबॉट खुला स्रोत है और एक वास्तविक समय डेटा के साथ मालिकाना है। ट्रैवल चैटबॉट मालिकाना उड़ान सूचना डेटा सेट के साथ "ठीक-ठीक" है, जो यह सिफारिश करता है कि कौन सी उड़ानें लेनी हैं। कई मामलों में, दोनों चैटबॉट एक ही उत्तर देंगे। हालाँकि, यदि किसी हवाई अड्डे पर कोई बड़ा तूफान आता है, तो मालिकाना वास्तविक समय डेटा के साथ बनाया गया चैटबॉट उड़ान की जानकारी प्रदान करेगा जो तूफान से प्रभावित होने वाली उड़ानों से बचता है। यह उपयोगकर्ताओं के लिए अमूल्य है, और इसलिए डेवलपर्स के लिए भी मूल्यवान होगा।  मूलभूत एआई मॉडल का भविष्य  तो क्या इसका मतलब यह है कि प्रत्येक जेनेरिक एआई उपयोग के मामले में मालिकाना वास्तविक समय डेटा से निर्मित एक मूलभूत मॉडल की आवश्यकता होती है? नहीं, लेकिन ऐसे अन्य कारण भी हैं जिनकी वजह से मालिकाना मूलभूत मॉडल की आवश्यकता होगी:  मालिकाना प्रथम-पक्ष डेटा सेट इस उदाहरण पर विचार करें: Google बार्ड अपना मूलभूत मॉडल बनाने के लिए संपूर्ण YouTube का लाभ उठाता है। यदि आपका जेनेरिक एआई उपयोग मामला यूट्यूब पर अपलोड की गई विशाल मात्रा में जानकारी और ज्ञान से लाभान्वित हो सकता है, तो आप Google से एक मूलभूत मॉडल का उपयोग करना चाह सकते हैं।  वैयक्तिकरण डेटा सेट जब एक मूलभूत मॉडल को वैयक्तिकृत डेटा के साथ प्रशिक्षित किया जाता है, तो मॉडल (उर्फ तंत्रिका नेटवर्क) में व्यक्तिगत जानकारी के पहलू होंगे। अनुमान लगाने के लिए इन मॉडलों का उपयोग इस तरह से किया जा सकता है कि व्यक्तिगत जानकारी लीक न हो, लेकिन यदि पूरा मॉडल निर्यात किया जाता है, तो मॉडल के मापदंडों को देखकर विशेष उपयोगकर्ताओं की व्यक्तिगत जानकारी निकालना संभव है। फ़ेडरेटेड लर्निंग में प्रगति के बावजूद, गोपनीयता को खतरे में डाले बिना मॉडल को निर्यात करने में सक्षम बनाने का कोई आसान तरीका नहीं है।  तो भविष्य के मूलभूत मॉडल कैसे दिखते हैं? संभवतः कुछ इस तरह:  एल्गोरिदम खुला स्रोत होंगे  वास्तविक समय डेटा सेट और वैयक्तिकरण को बनाए रखने की लागत और अन्य में खुले स्रोत के कारण, कुछ मामलों में डेटा सेट मालिकाना होगा।  यह मानते हुए कि यह प्रचलित वास्तुकला है, द्वितीयक प्रभाव क्या हैं?  जेनेरिक एआई का निर्माण करने की चाहत रखने वाले उद्यमों को संभवतः बड़ी कंपनियों के मूलभूत मॉडलों पर भरोसा करने की आवश्यकता होगी जिनके पास अपने स्वयं के वास्तविक समय डेटा बुनियादी ढांचे को बनाए रखने के लिए चेकबुक और अन्य उपयोग के मामलों के लिए ओपन सोर्स फाउंडेशन मॉडल हैं।  स्वामित्व डेटा सेट जिस पर उद्यम भरोसा करते हैं वह भी तेजी से वास्तविक समय भी होगा। उम्मीद करें कि डेटा Apache Cassandra जैसे NoSQL रीयल-टाइम डेटाबेस में रहेगा, Apache पल्सर जैसी तकनीकों का उपयोग करके फीचर स्टोर में स्ट्रीम किया जाएगा।  व्यावहारिक उद्देश्यों के लिए, मॉडल अनुमान संभवतः AWS, Microsoft और Google जैसे मूलभूत मॉडल प्रदाताओं के स्वामित्व वाले डेटा केंद्रों पर होगा। इसका मतलब यह है कि एआई के युग में हाइपरस्केलर्स का महत्व बढ़ने की संभावना है। मूलभूत ओपन सोर्स मॉडल पर आधारित मॉडल अनुमान ग्राहकों के डेटा केंद्रों में किया जा सकता है।  डेटास्टैक्स (मेरे नियोक्ता) के लिए द्वितीयक प्रभाव भी महत्वपूर्ण हैं। डेटा प्रबंधन प्रदाता के रूप में,   के माध्यम से क्लाउड में सेवाएं प्रदान करने में हमारा निवेश, जो एडब्ल्यूएस, माइक्रोसॉफ्ट और Google के प्रमुख क्लाउड पर स्थित है, बढ़ने की संभावना है क्योंकि उद्यम में जेनरेटिव एआई अधिक प्रचलित हो जाता है। डेटास्टैक्स एस्ट्रा डीबी  जबकि हम जैसी कंपनियों के ओपन सोर्स फाउंडेशनल मॉडल के उपयोग को प्रोत्साहित और समर्थन करते हैं  हम तीन बड़े क्लाउड प्रदाताओं के साथ मजबूत एआई साझेदारी भी बना रहे हैं। सबसे महत्वपूर्ण बात यह है कि हम कैसेंड्रा में   जैसे अपस्ट्रीम सुविधाओं के लिए सामुदायिक योगदान प्रक्रिया का उपयोग कर रहे हैं ताकि यह सुनिश्चित किया जा सके कि कंपनियां वास्तविक समय एआई के लिए अपने स्वयं के वास्तविक डेटा सेट बना सकें।   आलिंगन चेहरा वेक्टर खोज   एलन हो द्वारा, डेटास्टैक्स    भी प्रकाशित किया गया है. यहाँ

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

DataStax Astra DB is the vector database for getting GenAI apps into production, fast. Try it for free today!

DataStax

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

मालिकाना एआई मॉडल मर चुके हैं--या हैं?

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps