paint-brush
वेक्टर्स, रैग और लामा 3 किस तरह से फर्स्ट-पार्टी डेटा को बदल रहे हैंद्वारा@danielsvonava
1,000 रीडिंग
1,000 रीडिंग

वेक्टर्स, रैग और लामा 3 किस तरह से फर्स्ट-पार्टी डेटा को बदल रहे हैं

द्वारा Daniel Svonava6m2024/06/27
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

प्रथम-पक्ष डेटा के लिए जोर आम तौर पर यह होता है कि कंपनियों को डेटा अधिग्रहण और प्रबंधन के बेहतर प्रबंधक बनने की आवश्यकता है। उपभोक्ता तेजी से यह जानना चाहते हैं कि उनकी व्यक्तिगत जानकारी किसके पास है, उन्हें यह कैसे मिली, उनके पास यह क्यों है, और इसके साथ क्या किया जा रहा है। डेटा पर नियंत्रण वापस लेने का दबाव आवश्यक लगता है, लेकिन क्या यह व्यावहारिक है?
featured image - वेक्टर्स, रैग और लामा 3 किस तरह से फर्स्ट-पार्टी डेटा को बदल रहे हैं
Daniel Svonava HackerNoon profile picture
0-item

फर्स्ट-पार्टी डेटा वापस आ गया है... अपने दोस्तों की थोड़ी मदद से। कैसे वेक्टर, RAG और LLAMA 3 एक बड़ा बदलाव ला रहे हैं


पिछले पाँच वर्षों में, डेटा इंफ्रास्ट्रक्चर के इर्द-गिर्द प्रचलित कहानी ने कंपनियों के लिए अपने डेटा के स्वामित्व और लाभ उठाने के महत्व पर ज़ोर दिया है, क्योंकि वे अपने उपयोगकर्ताओं और ग्राहकों के बारे में यथासंभव अधिक जानकारी प्राप्त करते हैं। बढ़ते गोपनीयता नियमों के कारण, उन्हें तीसरे पक्ष के डेटा ऑपरेटरों, जैसे कि विज्ञापन नेटवर्क या Google, मेटा और Amazon जैसे प्लेटफ़ॉर्म पर निर्भर रहने के बजाय खुद ही डेटा इकट्ठा करने की ज़रूरत है। कंपनियों ने इस कहानी के अनुरूप काम किया है और बदलाव किया है।


लेकिन, सर्वश्रेष्ठ डेटा की लड़ाई में, क्या फर्स्ट-पार्टी वास्तव में बेहतर है? अपने आप में नहीं, लेकिन वेक्टर्स, RAG जैसे फ्रेमवर्क और Llama 3 जैसे ओपन-सोर्स फाउंडेशन मॉडल की थोड़ी मदद से यह बेहतर हो सकता है।

प्रथम-पक्ष डेटा के लिए दबाव

प्रथम-पक्ष डेटा के लिए तर्क आम तौर पर इस तरह से है: डेटा गोपनीयता के लिए बढ़ती मांगों के बीच कंपनियों को डेटा अधिग्रहण और प्रबंधन के बेहतर प्रबंधक बनने की जरूरत है। उपभोक्ता तेजी से जानना चाहते हैं कि उनकी व्यक्तिगत जानकारी किसके पास है, उन्हें यह कैसे मिली, उनके पास यह क्यों है, और इसके साथ क्या किया जा रहा है - और वे आम तौर पर इन सवालों के जवाब पसंद नहीं करते हैं। पहुँच और मिटाना अनुरोध तेजी से बढ़ रहे हैं, और डेटा गोपनीयता परिदृश्य तेजी से बदल रहा है। कंपनियों को अपनी गोपनीयता प्रबंधन प्रक्रियाओं को समझना काफी मुश्किल लग रहा है; वे किसी तीसरे पक्ष की भी चिंता नहीं करना चाहते हैं।


उपयोगकर्ताओं में इस बात को लेकर चिंता बढ़ती जा रही है कि कम्पनियों को दिए गए उनके डेटा का क्या होगा, तथा डेटा गोपनीयता कानून भी सख्त होते जा रहे हैं।


लेकिन प्रथम-पक्ष की ओर बदलाव सिर्फ़ गोपनीयता के बारे में नहीं है। यह भी धारणा है कि तीसरे पक्ष के डेटा का मूल्य कम हो जाएगा क्योंकि हम कहावत रहित भविष्य की ओर बढ़ रहे हैं। कंपनियों को अब पहले जैसी बारीक जानकारी नहीं मिल सकती, इसलिए वे ऐसी सेवा पर बजट क्यों खर्च करें जो पहले की तुलना में कम डिलीवर करती है?


और फिर यह चिंता बनी रहती है कि बड़े प्लेटफ़ॉर्म और विज्ञापन नेटवर्क अप्रत्याशित बदलाव करेंगे। उदाहरण के लिए, वे अपने एल्गोरिदम बदल सकते हैं, कुछ प्रकार के डेटा तक पहुँच को प्रतिबंधित कर सकते हैं, या विज्ञापन नीतियों को इस तरह से बदल सकते हैं जिससे किसी व्यवसाय के प्रदर्शन को बहुत कम या बिना किसी सूचना के नुकसान हो सकता है। किसी अन्य कंपनी की प्रथाओं पर निर्भर रहना व्यक्ति को असुरक्षित बनाता है। कंपनियाँ फंसी हुई महसूस करती हैं क्योंकि उन्होंने पहले ही अपनी डेटा रणनीति में बहुत समय, पैसा और संसाधन लगा दिए हैं। इस प्रकाश में, डेटा पर नियंत्रण वापस लेने का प्रयास आवश्यक लगता है। लेकिन क्या यह व्यावहारिक है?


प्रथम-डेटा समस्याएँ जिनके बारे में कोई बात नहीं कर रहा है

फ़र्स्ट-पार्टी डेटा पर दांव लगाने वाली कंपनियों के शुरुआती नतीजे उम्मीदों पर खरे नहीं उतरे हैं। हम लगातार ऐसे मामले देख रहे हैं, जिनमें उपभोक्ता कंपनियों ने बदलाव करके नुकसान उठाया है। farfetch , ऑलबर्ड्स , और स्माइलडायरेक्टक्लब ये तो बस कुछ उदाहरण हैं। क्या प्रथम-पक्ष डेटा का बेहतर, अधिक रणनीतिक उपयोग बढ़ती ग्राहक अधिग्रहण लागतों पर अंकुश लगा सकता है?


फिर भी, प्रथम-पक्ष डेटा पर वर्तमान निर्भरता - और उस डेटा को निकालने की प्रथाएँ - कई कंपनियों में एक समानता है जो आज कठिन समय का सामना कर रही हैं। यह इतना स्पष्ट है कि विश्लेषकों, वीसी और मार्केटर्स को खुद से पूछना पड़ता है कि क्या प्रथम-पक्ष डेटा को प्राथमिकता देना गलत था।


प्रथम-पक्ष डेटा के नुकसान, जैसा कि वर्तमान में प्राप्त और उपयोग किया जाता है, अक्सर डिवाइस आईडी के गायब होने, आईपी पते बदलने, नकली ईमेल को उपभोक्ता द्वारा अपनाने और विज्ञापन अवरोधकों को कम करके आंकना माना जाता है। जबकि यह सच है, इससे कहीं अधिक महत्वपूर्ण मुद्दे हैं।


सबसे पहले, प्रतिभाओं की भारी कमी है। बड़ी टेक और प्लेटफ़ॉर्म कंपनियाँ सर्वश्रेष्ठ को हड़प लेती हैं। उनके पास देने के लिए सबसे ज़्यादा है, जिससे उभरती हुई उपभोक्ता कंपनियों के लिए डेटा वैज्ञानिकों और एमएल प्रतिभाओं के लिए प्रतिस्पर्धा करना मुश्किल हो जाता है, जो एकत्रित और विश्लेषित की जा रही जानकारी को समझने के लिए आवश्यक हैं। वास्तव में असाधारण लोगों के बिना, कंपनियों को संघर्ष करना पड़ता है।


इसके अलावा, टूलिंग की भी वास्तविक समस्या है। कंपनियों के लिए उपलब्ध पेशकशें बिग टेक कंपनियों द्वारा आंतरिक रूप से दावा किए जाने वाले टूल के बराबर नहीं हैं (जो प्रतिभा अंतर का एक कारक हो सकता है)। टूलिंग से फर्क पड़ता है, और अधिकांश कंपनियाँ अभी प्रतिस्पर्धा नहीं कर सकती हैं।


अंत में, वॉल्यूम की चुनौती है। बड़ी टेक और विज्ञापन नेटवर्क के पास डेटा का पहाड़ है, क्योंकि ये कंपनियाँ अपने मॉडल को प्रभावी ढंग से चलाने के लिए सैकड़ों अरबों डेटा पॉइंट्स को इकट्ठा करती हैं और उन्हें गुमनाम बनाती हैं। इसके विपरीत, अगर किसी कंपनी के पास काम करने के लिए केवल उसका डेटा है, तो ML के वादे के अनुसार काम करने के लिए पर्याप्त नहीं है।


हालांकि ये समस्याएं गंभीर लगती हैं, लेकिन क्या यह समय है कि हम प्रथम-पक्ष डेटा की क्षमता और आवश्यकता को छोड़ दें? बिलकुल नहीं!


वेक्टर की शक्ति

प्रथम-पक्ष डेटा में बाधा डालने वाली सबसे बड़ी समस्या यह है कि कंपनियाँ इसे कैसे एक्सेस करने की कोशिश कर रही हैं। इस बिंदु तक, व्यवसायों ने पुरानी दुनिया का दृष्टिकोण अपनाया है। व्यवसायों को जिस डेटा की आवश्यकता है, उससे मूल्य निकालने के लिए मॉडल को शुरू से ही बनाया जाना चाहिए। इसमें समय, पैसा और सबसे बढ़कर प्रतिभा की आवश्यकता होती है; यह इस बात पर निर्भर करता है कि आपके एमएल इंजीनियर और डेटा वैज्ञानिक कितने अच्छे हैं। हालाँकि, जैसा कि ऊपर चर्चा की गई है, तीसरे पक्ष के डेटा का लाभ उठाने की तुलना में इस दृष्टिकोण को बेहतर बनाने के लिए पर्याप्त प्रतिभा उपलब्ध नहीं है। प्रतिभा की कमी अड़चन पैदा करती है।


सूचना को सदिशों के रूप में प्रस्तुत करने से गहन समझ और अर्थगत संबंध विश्लेषण संभव होता है।


हालांकि, इसका मतलब यह नहीं है कि हमें पहले पक्ष के डेटा को छोड़ देना चाहिए। हमें बस इसे देखने के तरीके को बदलने की जरूरत है। आज जो नई दुनिया संभव है, उसमें वेक्टर और वेक्टर एम्बेडिंग महत्वपूर्ण हैं। वेक्टर सामान्य गणितीय ऑब्जेक्ट हैं जो डेटा बिंदुओं की विशेषताओं या विशेषताओं का प्रतिनिधित्व कर सकते हैं जबकि एम्बेडिंग मॉडल डेटा में पैटर्न का विश्लेषण करके डेटा से सीखी गई इन सूचनाओं से भरी, सार्थक प्रस्तुतियों को उत्पन्न करते हैं; वे अर्थपूर्ण संबंधों को पकड़ते हैं। वेक्टर एम्बेडिंग वह प्रारूप है जो किसी उपयोगकर्ता या ग्राहक के बारे में आपके द्वारा जानी जाने वाली हर चीज़ को एनकोड कर सकता है और उस जानकारी को एनालिटिक्स सिस्टम के लिए सुलभ बना सकता है, या उपयोगकर्ता अनुभव को वैयक्तिकृत करने या धोखाधड़ी को पकड़ने के लिए भी इसका लाभ उठा सकता है। बहुत सारी संभावनाएँ हैं। वेक्टर एक बड़ा बदलाव लाने के लिए तैयार हैं क्योंकि वे एनालिटिक्स को मौलिक रूप से अलग तरीके से शक्ति प्रदान कर सकते हैं।


रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) अभी बहुत चर्चा में है, क्योंकि यह सभी को सक्षम कर सकता है, लेकिन वेक्टर एम्बेडिंग ही RAG को उपयोगी बनाती है। वे फ्रेमवर्क का एक केंद्रीय घटक हैं जो संदर्भ, प्रतिक्रियाओं, रिट्रीवल के एकीकरण और मॉडल के फाइन-ट्यूनिंग में मदद करते हैं। उच्च-गुणवत्ता वाले वेक्टर उत्पन्न करना और उन्हें सही तरीके से क्वेरी करना एक महत्वपूर्ण कार्य है जो किसी भी RAG सिस्टम को वास्तव में काम करने में सक्षम बनाता है। अन्य फ्रेमवर्क भी हैं, लेकिन RAG विशेष रूप से प्रथम-पक्ष डेटा क्रांति के लिए उपयुक्त है।


बहुत बढ़िया लगता है। आइए हम सभी यह पता लगाएं कि वेक्टर और वेक्टर एम्बेडिंग का उपयोग कैसे करें। यह संपूर्ण उत्तर नहीं है। सीमित डेटा सेट और टूलिंग जैसे मुद्दे बने हुए हैं। अभी सब कुछ ठीक से नहीं हुआ है, लेकिन मुझे लगता है कि यह जल्द ही हो जाएगा। क्योंकि ओपन-सोर्स, मेटा के लामा 2 जैसे पूर्व-प्रशिक्षित फाउंडेशन मॉडल, जो जुलाई में अधिक मजबूत लामा 3 को रास्ता देंगे, खेल के मैदान को समतल कर सकते हैं। बिगटेक की तुलना में पर्याप्त डेटा वॉल्यूम नहीं होने का मुद्दा कम हो जाता है। बड़े और विविध डेटासेट पर पूर्व-प्रशिक्षित एक ओपन सोर्स मॉडल का उपयोग करके, उस मॉडल में एक निश्चित स्तर का ज्ञान और समझ अंतर्निहित होती है। कंपनियों को बस अपने डेटा के साथ अपने विशिष्ट डोमेन या कार्य पर लामा 2 (या लामा 3) को ठीक करने की आवश्यकता है। यह अड़चन को कम करता है क्योंकि कई मामलों में, आपको अब मॉडल को स्क्रैच से प्रशिक्षित नहीं करना पड़ता है।


यह एक अति सरलीकरण की तरह लग सकता है, यह देखते हुए कि लामा कंपनियों को टेक्स्ट से निपटने में मदद करता है, लेकिन अधिकांश डेटा जिस पर कंपनियाँ चलती हैं, वह टेक्स्ट नहीं है। संरचित डेटा जिस पर कंपनियाँ चलती हैं, उसे इस प्रक्रिया में एकीकृत करने की आवश्यकता है। उदाहरण के लिए, उपयोगकर्ता व्यवहार संबंधी घटनाएँ जो आमतौर पर प्रथम-पक्ष डेटा का एक बड़ा प्रतिशत बनाती हैं, किसी भी LLM द्वारा संसाधित करने के लिए उपयुक्त नहीं हैं। यह बदल रहा है इसलिए कंपनियों को नए मल्टीमॉडल समाधानों के उभरने के लिए तैयार रहना चाहिए। इसी तरह, टूलिंग में अभी भी कमी है, लेकिन इस क्षेत्र पर बहुत ध्यान दिया जा रहा है, इसलिए बड़ी प्रगति की जा रही है। यह आगे बढ़ रहा है!


सबसे बड़े मुद्दों को मूल रूप से संबोधित करने के साथ, फर्स्ट-पार्टी डेटा हाइप वापस आ गया है, बेबी! कंपनियों को तीसरे पक्ष द्वारा गोपनीयता का उल्लंघन करने की चिंता करने की ज़रूरत नहीं है, न ही उन्हें अपने ग्राहकों को जानने में मदद के लिए बिग टेक पर निर्भर रहना पड़ता है। इस साल फर्स्ट-पार्टी डेटा में उछाल देखने की उम्मीद है क्योंकि कंपनियाँ आखिरकार इसका पूरा फ़ायदा उठाएँगी - खासकर लामा 3 के तैयार होने के साथ। अपने सभी वादों के बावजूद, शायद लामा 3 की सबसे बड़ी संभावना वास्तव में फर्स्ट-पार्टी डेटा समस्या को हमेशा के लिए हल करना होगा।