एआई के युग में, चैटजीपीटी जैसे उपकरण कई संगठनों के लिए एक उपयोगी समाधान बन गए हैं, जो बेहतर दक्षता और उत्पादकता ला रहे हैं। डेटा झूठ नहीं है: संभावना है कि आप या आपके कर्मचारी ईमेल का मसौदा तैयार करने, सामग्री तैयार करने, डेटा विश्लेषण करने और यहां तक कि कोडिंग में सहायता करने के लिए चैटजीपीटी का उपयोग कर रहे हैं ।
हालाँकि, यदि ठीक से उपयोग नहीं किया जाता है, तो ये उपकरण अनजाने में आपकी कंपनी की बौद्धिक संपदा (आईपी) को भविष्य के जेनरेटर एआई मॉडल जैसे जीपीटी-3.5, जीपीटी-4 और अंततः जीपीटी-5 में उजागर कर सकते हैं, जिसका अर्थ है कि कोई भी चैटजीपीटी उपयोगकर्ता उस जानकारी तक पहुंच सकता है।
सैमसंग इंजीनियरों ने सोर्स कोड की जाँच में सहायता के लिए ChatGPT का उपयोग किया, लेकिन द इकोनॉमिस्ट कोरिया ने सैमसंग कर्मचारियों द्वारा टूल के माध्यम से अनजाने में संवेदनशील जानकारी लीक करने के तीन अलग-अलग उदाहरणों की सूचना दी। इससे गोपनीय स्रोत कोड और रिकॉर्ड की गई मीटिंग सामग्री सार्वजनिक डोमेन में समाप्त हो गई, जो चैटजीपीटी ( स्रोत ) के भविष्य के पुनरावृत्तियों द्वारा उपयोग योग्य थी।
जब आप हमारी गैर-एपीआई उपभोक्ता सेवाओं ChatGPT या DALL-E का उपयोग करते हैं, तो हम आपके द्वारा प्रदान किए गए डेटा का उपयोग अपने मॉडलों को बेहतर बनाने के लिए कर सकते हैं।
मॉडल प्रदर्शन को बेहतर बनाने के लिए आपके डेटा का उपयोग कैसे किया जाता है
इस पोस्ट में, हम आंतरिक कंपनी डेटा के साथ चैटजीपीटी और ओपनएआई के एपीआई का उपयोग करने के संभावित जोखिमों के बारे में बात करेंगे, और आप अपनी कंपनी के लिए जोखिम को यथासंभव कम कैसे कर सकते हैं। हम आपकी कंपनी के लिए अन्य विकल्पों पर भी चर्चा करेंगे, जैसे अपने स्वयं के भाषा मॉडल को प्रशिक्षित करना जो चैटजीपीटी की कार्यक्षमता को दोहराता है या ओपन सोर्स मॉडल का उपयोग करना। ये दोनों विकल्प ओपनएआई को डेटा भेजे बिना चैटजीपीटी के उत्पादकता लाभ प्राप्त करने के अवसर प्रदान करते हैं।
ओपनएआई के कंप्लीशन एपीआई का उपयोग डेवलपर्स द्वारा एप्लिकेशन बनाने और ओपनएआई के अत्याधुनिक भाषा मॉडल जैसे जीपीटी-3 और जीपीटी-4 का उपयोग करने के लिए किया जाता है, जो मॉडल चैटजीपीटी को शक्ति प्रदान करते हैं। ये एपीआई बॉक्स से बाहर अतिरिक्त स्तर की सुरक्षा प्रदान करते हैं। चैटजीपीटी के विपरीत, आपका डेटा केवल एक अनुबंधित मॉडरेशन टीम द्वारा देखा जाता है और ओपनएआई के मॉडल के भविष्य के प्रशिक्षण में पुनर्नवीनीकरण नहीं किया जाता है। उनके एपीआई एक डेटा नीति का पालन करते हैं जो प्रस्तुत की गई जानकारी को भविष्य के मॉडलों के प्रशिक्षण के लिए उपयोग करने की अनुमति नहीं देता है (उनकी एपीआई डेटा उपयोग नीति बताती है कि आपका डेटा केवल दुरुपयोग और दुरुपयोग की निगरानी के लिए 30 दिनों के लिए रखा जाता है। फिर इसे हटा दिया जाता है।)
हालाँकि, एपीआई को सबमिट किए गए आपके डेटा की प्रकृति के आधार पर, आप यह निर्णय ले सकते हैं कि ओपनएआई के एपीआई का उपयोग करना अभी भी बहुत जोखिम भरा है। अंततः, एक OpenAI कर्मचारी या ठेकेदार आपके द्वारा एपीआई को भेजे गए कुछ डेटा को देखेगा, और यदि इसमें संवेदनशील, व्यक्तिगत रूप से पहचाने जाने योग्य, या व्यक्तिगत स्वास्थ्य जानकारी शामिल है, तो इसका मतलब बहुत परेशानी हो सकती है।
अप्रैल 2023 के अंत में, चैटजीपीटी ने आपके डेटा को प्रबंधित करने का एक तरीका, चैटजीपीटी सेटिंग्स में एक "चैट इतिहास और प्रशिक्षण" बटन जारी किया । इस सुविधा के बंद होने पर, प्लेटफ़ॉर्म पर साझा किए गए किसी भी डेटा का उपयोग भविष्य के मॉडल को प्रशिक्षित करने के लिए नहीं किया जाता है। बटन के नीचे, एक नोट है: "बिना सहेजे गए चैट 30 दिनों के भीतर हमारे सिस्टम से हटा दिए जाएंगे"। यह 30 दिन का नोट संभवतः दुरुपयोग और दुरुपयोग निगरानी नीति का जिक्र कर रहा है। जैसा कि ऊपर बताया गया है, यह OpenAI के एपीआई का उपयोग करने जैसा ही जोखिम लाता है।
डेटा लीक की घटना के बाद कथित तौर पर सैमसंग द्वारा अपनाए गए रास्ते का अनुसरण करते हुए, कुछ कंपनियां विकल्प के रूप में अपने स्वयं के मॉडलों को प्रशिक्षित करने पर विचार कर सकती हैं। यह दृष्टिकोण एक उम्मीद की किरण की तरह लग सकता है: आप अपने डेटा पर पूर्ण नियंत्रण बनाए रखेंगे, संभावित आईपी लीक से बचेंगे, और अपनी विशिष्ट आवश्यकताओं के अनुरूप एक उपकरण प्राप्त करेंगे।
लेकिन आइए एक पल के लिए रुकें। अपने स्वयं के भाषा मॉडल को प्रशिक्षित करना कोई छोटा काम नहीं है। यह संसाधन-गहन है, इसके लिए महत्वपूर्ण विशेषज्ञता, कम्प्यूटेशनल शक्ति और उच्च गुणवत्ता वाले डेटा की आवश्यकता होती है। एक मॉडल विकसित करने के बाद भी, आपको इसे बनाए रखने, सुधारने और अपनी बढ़ती जरूरतों के अनुरूप ढालने की निरंतर चुनौतियों का सामना करना पड़ेगा।
इसके अलावा, भाषा मॉडल की गुणवत्ता काफी हद तक डेटा की मात्रा और विविधता पर निर्भर करती है जिस पर उन्हें प्रशिक्षित किया जाता है। OpenAI जैसी कंपनियों द्वारा अपने मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले विशाल डेटासेट को देखते हुए, व्यक्तिगत कंपनियों के लिए परिष्कार और बहुमुखी प्रतिभा के उस स्तर से मेल खाना चुनौतीपूर्ण है। जो कंपनियाँ सफल होती हैं वे ब्लूमबर्ग जैसी कंपनियाँ हैं, जिन्होंने अपने 40 वर्षों के वित्तीय डेटा और दस्तावेज़ों से ब्लूमबर्गजीपीटी बनाया ( स्रोत )। कभी-कभी, आगे बढ़ने की कोशिश कर रहे छोटे व्यवसायों के लिए डेटा उपलब्ध नहीं होता है।
ओपन-सोर्स मॉडल की कला तेजी से आगे बढ़ रही है। एक ओपन-सोर्स मॉडल को डाउनलोड किया जा सकता है और आपकी मशीन पर चलाया जा सकता है, जिससे यह स्व-होस्टेबल हो जाता है और इसमें ओपनएआई जैसी कंपनी की आवश्यकता समाप्त हो जाती है।
ओपन असिस्टेंट जैसे संगठनों द्वारा प्रशिक्षित मॉडल उल्लेखनीय परिणाम दे रहे हैं और पूरी तरह से खुला स्रोत हैं। उनका समुदाय सक्रिय रूप से उसी सुदृढीकरण सीखने वाले मानव फीडबैक (आरएलएचएफ) लूप में संलग्न होने के लिए डेटा एकत्र कर रहा है जिसे ओपनएआई ने चैटजीपीटी के साथ उपयोग किया था। मॉडल का प्रदर्शन प्रभावशाली है, विशेष रूप से ओपन सोर्स समुदाय (मेरे अपने योगदान सहित) पर इसकी निर्भरता को देखते हुए। हालाँकि, ओपन असिस्टेंट अपने मॉडल की सीमाओं के बारे में पारदर्शी है, यह स्वीकार करते हुए कि उनका डेटा 26 वर्षीय पुरुष जनसांख्यिकीय के प्रति पक्षपाती है। वे केवल इन जनसांख्यिकी का खुलासा करने में जिम्मेदार व्यवहार का प्रदर्शन करते हुए, अनुसंधान सेटिंग्स में अपने मॉडल का उपयोग करने की सलाह देते हैं। सहायक खोलने के लिए बधाई!
ओर्का माइक्रोसॉफ्ट द्वारा प्रशिक्षित एक आशाजनक, अप्रकाशित ओपन-सोर्स मॉडल है। यह GPT-3 से छोटा है, फिर भी GPT-3 के बराबर और कभी-कभी बेहतर परिणाम देता है। यदि आपकी रुचि है तो ओर्का पर एआई द्वारा समझाया गया एक बेहतरीन वीडियो है । हालाँकि, आप अपने स्वयं के मॉडल को प्रशिक्षित करने के लिए OpenAI के मॉडल का उपयोग नहीं कर सकते, क्योंकि यह OpenAI की सेवा की शर्तों का उल्लंघन होगा। ओर्का को स्पष्ट रूप से जीपीटी-3.5 और जीपीटी-4 के आउटपुट पर प्रशिक्षित किया गया है, इसलिए माइक्रोसॉफ्ट का दावा है कि वे इस मॉडल को केवल "शोध" के लिए जारी करेंगे।
ये दोनों मॉडल विशेष रूप से अनुसंधान उद्देश्यों के लिए डिज़ाइन किए गए हैं, जो उन्हें व्यावसायिक अनुप्रयोगों के लिए अनुपयुक्त बनाते हैं। विकल्प के रूप में अन्य ओपन-सोर्स मॉडल की समीक्षा करने के बाद, मैंने पाया कि उनमें से अधिकतर या तो मेटा के एलएलएएमए मॉडल से प्राप्त हुए हैं (इस प्रकार समान "अनुसंधान" सीमाओं के अधीन हैं) या कुशलतापूर्वक चलाने के लिए बहुत बड़े हैं।
अपने अनुमान को निजी तौर पर होस्ट करने के लिए मोज़ेकएमएल जैसी कंपनी का लाभ उठाना एक उत्साहवर्धक विकल्प है। MosaicML कुछ व्यावसायिक रूप से उपलब्ध ओपन-सोर्स भाषा मॉडलों में से एक है। वे दावा करते हैं कि उनका एमपीटी-30बी मॉडल जीपीटी-3 की तुलनीय गुणवत्ता प्राप्त करता है । हालांकि वे विशिष्ट बेंचमार्क प्रदान नहीं करते हैं, मैं उनके दावे पर भरोसा करता हूं, एक मित्र के रूप में मैंने उनके छोटे मॉडल (एमपीटी-7बी) में से एक का परीक्षण शुरू किया, और प्रारंभिक परिणाम आशाजनक रहे हैं!
आपके डेटा की प्रकृति और उपयोग के मामलों के आधार पर, ChatGPT या OpenAI के API का उपयोग करना आपकी कंपनी के लिए अनुपयुक्त हो सकता है। यदि आपकी कंपनी के पास ChatGPT में कौन सा डेटा भेजा या सहेजा जा सकता है, इसके लिए कोई नीति नहीं है, तो अब उन वार्तालापों को शुरू करने का समय है।
निजी व्यावसायिक सेटिंग्स में इन उपकरणों के दुरुपयोग से आईपी रिसाव हो सकता है। इस तरह के प्रदर्शन के निहितार्थ बड़े पैमाने पर हैं, जिनमें प्रतिस्पर्धात्मक लाभ की हानि से लेकर संभावित कानूनी मुद्दे तक शामिल हैं।
यदि आप मोज़ेकएमएल के मॉडलों की और खोज में रुचि रखते हैं, जो सीमित विकल्पों में से हैं जो खुले स्रोत और बड़े भाषा मॉडल के लिए व्यावसायिक रूप से उपलब्ध हैं, तो कृपया हमें बताएं ! हमारी रुचि समान है और हम साथ मिलकर इस विषय पर आगे काम करने के लिए उत्साहित हैं।
यदि आप ऐसे समाधान में रुचि रखते हैं जो आपकी अपनी कंपनी के डेटा का उपयोग करके सुरक्षित, पुनर्प्राप्ति संवर्धित पीढ़ी प्रदान करता है, तो हम एक उपकरण विकसित कर रहे हैं जो विशेष रूप से आपके डेटा को SOC2 अनुपालन के साथ सुरक्षित रखने, आपके SSO प्रदाताओं के साथ एकीकृत करने, आपके संगठन के भीतर वार्तालाप साझा करने को सक्षम करने के लिए डिज़ाइन किया गया है, और डेटा इनपुट पर नीतियां लागू करें। हमारा अंतिम उद्देश्य आईपी रिसाव के किसी भी जोखिम के बिना आपके डेटा के लिए चैटजीपीटी गुणवत्ता प्रदान करना है। यदि आप ऐसे टूल में रुचि रखते हैं, तो हम आपको हमारा सर्वेक्षण भरने या Mindfuldataai.com पर जाने के लिए प्रोत्साहित करते हैं।
इस पोस्ट को पढ़ने के लिए समय निकालने के लिए धन्यवाद!