paint-brush
क्या आप अपने व्यवसाय का आईपी लीक किए बिना ओपनएआई के चैटजीपीटी का उपयोग कर सकते हैं?द्वारा@artyfishle
963 रीडिंग
963 रीडिंग

क्या आप अपने व्यवसाय का आईपी लीक किए बिना ओपनएआई के चैटजीपीटी का उपयोग कर सकते हैं?

द्वारा Arty Fishle6m2023/07/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

चैटजीपीटी और ओपनएआई के कंप्लीशन एपीआई का उपयोग डेवलपर्स द्वारा एप्लिकेशन बनाने और अत्याधुनिक भाषा मॉडल का उपयोग करने के लिए किया जाता है। यदि ठीक से उपयोग नहीं किया जाता है, तो ये उपकरण अनजाने में भविष्य के जेनरेटिव एआई मॉडल में आपकी कंपनी की बौद्धिक संपदा (आईपी) को उजागर कर सकते हैं। हम आंतरिक कंपनी डेटा के साथ चैटजीपीटी का उपयोग करने के संभावित जोखिमों के बारे में बात करेंगे और आप अपनी कंपनी के लिए जोखिम को कैसे कम कर सकते हैं।
featured image - क्या आप अपने व्यवसाय का आईपी लीक किए बिना ओपनएआई के चैटजीपीटी का उपयोग कर सकते हैं?
Arty Fishle HackerNoon profile picture
0-item
1-item
2-item

एआई के युग में, चैटजीपीटी जैसे उपकरण कई संगठनों के लिए एक उपयोगी समाधान बन गए हैं, जो बेहतर दक्षता और उत्पादकता ला रहे हैं। डेटा झूठ नहीं है: संभावना है कि आप या आपके कर्मचारी ईमेल का मसौदा तैयार करने, सामग्री तैयार करने, डेटा विश्लेषण करने और यहां तक कि कोडिंग में सहायता करने के लिए चैटजीपीटी का उपयोग कर रहे हैं


हालाँकि, यदि ठीक से उपयोग नहीं किया जाता है, तो ये उपकरण अनजाने में आपकी कंपनी की बौद्धिक संपदा (आईपी) को भविष्य के जेनरेटर एआई मॉडल जैसे जीपीटी-3.5, जीपीटी-4 और अंततः जीपीटी-5 में उजागर कर सकते हैं, जिसका अर्थ है कि कोई भी चैटजीपीटी उपयोगकर्ता उस जानकारी तक पहुंच सकता है।


मामला इस प्रकार है: सैमसंग

सैमसंग इंजीनियरों ने सोर्स कोड की जाँच में सहायता के लिए ChatGPT का उपयोग किया, लेकिन द इकोनॉमिस्ट कोरिया ने सैमसंग कर्मचारियों द्वारा टूल के माध्यम से अनजाने में संवेदनशील जानकारी लीक करने के तीन अलग-अलग उदाहरणों की सूचना दी। इससे गोपनीय स्रोत कोड और रिकॉर्ड की गई मीटिंग सामग्री सार्वजनिक डोमेन में समाप्त हो गई, जो चैटजीपीटी ( स्रोत ) के भविष्य के पुनरावृत्तियों द्वारा उपयोग योग्य थी।


निश्चित रूप से, OpenAI की ChatGPT गोपनीयता नीति बहुत स्पष्ट है:


जब आप हमारी गैर-एपीआई उपभोक्ता सेवाओं ChatGPT या DALL-E का उपयोग करते हैं, तो हम आपके द्वारा प्रदान किए गए डेटा का उपयोग अपने मॉडलों को बेहतर बनाने के लिए कर सकते हैं।


मॉडल प्रदर्शन को बेहतर बनाने के लिए आपके डेटा का उपयोग कैसे किया जाता है


इस पोस्ट में, हम आंतरिक कंपनी डेटा के साथ चैटजीपीटी और ओपनएआई के एपीआई का उपयोग करने के संभावित जोखिमों के बारे में बात करेंगे, और आप अपनी कंपनी के लिए जोखिम को यथासंभव कम कैसे कर सकते हैं। हम आपकी कंपनी के लिए अन्य विकल्पों पर भी चर्चा करेंगे, जैसे अपने स्वयं के भाषा मॉडल को प्रशिक्षित करना जो चैटजीपीटी की कार्यक्षमता को दोहराता है या ओपन सोर्स मॉडल का उपयोग करना। ये दोनों विकल्प ओपनएआई को डेटा भेजे बिना चैटजीपीटी के उत्पादकता लाभ प्राप्त करने के अवसर प्रदान करते हैं।

OpenAI के समापन API का उपयोग करें

ओपनएआई के कंप्लीशन एपीआई का उपयोग डेवलपर्स द्वारा एप्लिकेशन बनाने और ओपनएआई के अत्याधुनिक भाषा मॉडल जैसे जीपीटी-3 और जीपीटी-4 का उपयोग करने के लिए किया जाता है, जो मॉडल चैटजीपीटी को शक्ति प्रदान करते हैं। ये एपीआई बॉक्स से बाहर अतिरिक्त स्तर की सुरक्षा प्रदान करते हैं। चैटजीपीटी के विपरीत, आपका डेटा केवल एक अनुबंधित मॉडरेशन टीम द्वारा देखा जाता है और ओपनएआई के मॉडल के भविष्य के प्रशिक्षण में पुनर्नवीनीकरण नहीं किया जाता है। उनके एपीआई एक डेटा नीति का पालन करते हैं जो प्रस्तुत की गई जानकारी को भविष्य के मॉडलों के प्रशिक्षण के लिए उपयोग करने की अनुमति नहीं देता है (उनकी एपीआई डेटा उपयोग नीति बताती है कि आपका डेटा केवल दुरुपयोग और दुरुपयोग की निगरानी के लिए 30 दिनों के लिए रखा जाता है। फिर इसे हटा दिया जाता है।)


हालाँकि, एपीआई को सबमिट किए गए आपके डेटा की प्रकृति के आधार पर, आप यह निर्णय ले सकते हैं कि ओपनएआई के एपीआई का उपयोग करना अभी भी बहुत जोखिम भरा है। अंततः, एक OpenAI कर्मचारी या ठेकेदार आपके द्वारा एपीआई को भेजे गए कुछ डेटा को देखेगा, और यदि इसमें संवेदनशील, व्यक्तिगत रूप से पहचाने जाने योग्य, या व्यक्तिगत स्वास्थ्य जानकारी शामिल है, तो इसका मतलब बहुत परेशानी हो सकती है।

चैट इतिहास और प्रशिक्षण अक्षम करें

चैटजीपीटी के सेटिंग पृष्ठ पर चैट इतिहास और प्रशिक्षण बटन

अप्रैल 2023 के अंत में, चैटजीपीटी ने आपके डेटा को प्रबंधित करने का एक तरीका, चैटजीपीटी सेटिंग्स में एक "चैट इतिहास और प्रशिक्षण" बटन जारी किया । इस सुविधा के बंद होने पर, प्लेटफ़ॉर्म पर साझा किए गए किसी भी डेटा का उपयोग भविष्य के मॉडल को प्रशिक्षित करने के लिए नहीं किया जाता है। बटन के नीचे, एक नोट है: "बिना सहेजे गए चैट 30 दिनों के भीतर हमारे सिस्टम से हटा दिए जाएंगे"। यह 30 दिन का नोट संभवतः दुरुपयोग और दुरुपयोग निगरानी नीति का जिक्र कर रहा है। जैसा कि ऊपर बताया गया है, यह OpenAI के एपीआई का उपयोग करने जैसा ही जोखिम लाता है।

अपने स्वयं के मॉडल का प्रशिक्षण

डेटा लीक की घटना के बाद कथित तौर पर सैमसंग द्वारा अपनाए गए रास्ते का अनुसरण करते हुए, कुछ कंपनियां विकल्प के रूप में अपने स्वयं के मॉडलों को प्रशिक्षित करने पर विचार कर सकती हैं। यह दृष्टिकोण एक उम्मीद की किरण की तरह लग सकता है: आप अपने डेटा पर पूर्ण नियंत्रण बनाए रखेंगे, संभावित आईपी लीक से बचेंगे, और अपनी विशिष्ट आवश्यकताओं के अनुरूप एक उपकरण प्राप्त करेंगे।


लेकिन आइए एक पल के लिए रुकें। अपने स्वयं के भाषा मॉडल को प्रशिक्षित करना कोई छोटा काम नहीं है। यह संसाधन-गहन है, इसके लिए महत्वपूर्ण विशेषज्ञता, कम्प्यूटेशनल शक्ति और उच्च गुणवत्ता वाले डेटा की आवश्यकता होती है। एक मॉडल विकसित करने के बाद भी, आपको इसे बनाए रखने, सुधारने और अपनी बढ़ती जरूरतों के अनुरूप ढालने की निरंतर चुनौतियों का सामना करना पड़ेगा।


इसके अलावा, भाषा मॉडल की गुणवत्ता काफी हद तक डेटा की मात्रा और विविधता पर निर्भर करती है जिस पर उन्हें प्रशिक्षित किया जाता है। OpenAI जैसी कंपनियों द्वारा अपने मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले विशाल डेटासेट को देखते हुए, व्यक्तिगत कंपनियों के लिए परिष्कार और बहुमुखी प्रतिभा के उस स्तर से मेल खाना चुनौतीपूर्ण है। जो कंपनियाँ सफल होती हैं वे ब्लूमबर्ग जैसी कंपनियाँ हैं, जिन्होंने अपने 40 वर्षों के वित्तीय डेटा और दस्तावेज़ों से ब्लूमबर्गजीपीटी बनाया ( स्रोत )। कभी-कभी, आगे बढ़ने की कोशिश कर रहे छोटे व्यवसायों के लिए डेटा उपलब्ध नहीं होता है।

ओपन सोर्स या स्व-होस्ट किए गए मॉडल का उपयोग करें

ओपन-सोर्स मॉडल की कला तेजी से आगे बढ़ रही है। एक ओपन-सोर्स मॉडल को डाउनलोड किया जा सकता है और आपकी मशीन पर चलाया जा सकता है, जिससे यह स्व-होस्टेबल हो जाता है और इसमें ओपनएआई जैसी कंपनी की आवश्यकता समाप्त हो जाती है।


ओपन असिस्टेंट जैसे संगठनों द्वारा प्रशिक्षित मॉडल उल्लेखनीय परिणाम दे रहे हैं और पूरी तरह से खुला स्रोत हैं। उनका समुदाय सक्रिय रूप से उसी सुदृढीकरण सीखने वाले मानव फीडबैक (आरएलएचएफ) लूप में संलग्न होने के लिए डेटा एकत्र कर रहा है जिसे ओपनएआई ने चैटजीपीटी के साथ उपयोग किया था। मॉडल का प्रदर्शन प्रभावशाली है, विशेष रूप से ओपन सोर्स समुदाय (मेरे अपने योगदान सहित) पर इसकी निर्भरता को देखते हुए। हालाँकि, ओपन असिस्टेंट अपने मॉडल की सीमाओं के बारे में पारदर्शी है, यह स्वीकार करते हुए कि उनका डेटा 26 वर्षीय पुरुष जनसांख्यिकीय के प्रति पक्षपाती है। वे केवल इन जनसांख्यिकी का खुलासा करने में जिम्मेदार व्यवहार का प्रदर्शन करते हुए, अनुसंधान सेटिंग्स में अपने मॉडल का उपयोग करने की सलाह देते हैं। सहायक खोलने के लिए बधाई!


ओर्का माइक्रोसॉफ्ट द्वारा प्रशिक्षित एक आशाजनक, अप्रकाशित ओपन-सोर्स मॉडल है। यह GPT-3 से छोटा है, फिर भी GPT-3 के बराबर और कभी-कभी बेहतर परिणाम देता है। यदि आपकी रुचि है तो ओर्का पर एआई द्वारा समझाया गया एक बेहतरीन वीडियो है । हालाँकि, आप अपने स्वयं के मॉडल को प्रशिक्षित करने के लिए OpenAI के मॉडल का उपयोग नहीं कर सकते, क्योंकि यह OpenAI की सेवा की शर्तों का उल्लंघन होगा। ओर्का को स्पष्ट रूप से जीपीटी-3.5 और जीपीटी-4 के आउटपुट पर प्रशिक्षित किया गया है, इसलिए माइक्रोसॉफ्ट का दावा है कि वे इस मॉडल को केवल "शोध" के लिए जारी करेंगे।


ये दोनों मॉडल विशेष रूप से अनुसंधान उद्देश्यों के लिए डिज़ाइन किए गए हैं, जो उन्हें व्यावसायिक अनुप्रयोगों के लिए अनुपयुक्त बनाते हैं। विकल्प के रूप में अन्य ओपन-सोर्स मॉडल की समीक्षा करने के बाद, मैंने पाया कि उनमें से अधिकतर या तो मेटा के एलएलएएमए मॉडल से प्राप्त हुए हैं (इस प्रकार समान "अनुसंधान" सीमाओं के अधीन हैं) या कुशलतापूर्वक चलाने के लिए बहुत बड़े हैं।


अपने अनुमान को निजी तौर पर होस्ट करने के लिए मोज़ेकएमएल जैसी कंपनी का लाभ उठाना एक उत्साहवर्धक विकल्प है। MosaicML कुछ व्यावसायिक रूप से उपलब्ध ओपन-सोर्स भाषा मॉडलों में से एक है। वे दावा करते हैं कि उनका एमपीटी-30बी मॉडल जीपीटी-3 की तुलनीय गुणवत्ता प्राप्त करता है । हालांकि वे विशिष्ट बेंचमार्क प्रदान नहीं करते हैं, मैं उनके दावे पर भरोसा करता हूं, एक मित्र के रूप में मैंने उनके छोटे मॉडल (एमपीटी-7बी) में से एक का परीक्षण शुरू किया, और प्रारंभिक परिणाम आशाजनक रहे हैं!

एमपीटी-7बी-चैट मॉडल परमाणु विखंडन और संलयन के बीच अंतर के बारे में एक प्रश्न का उत्तर दे रहा है। यह एक ठोस और पूर्ण प्रतिक्रिया प्रदान करता है!

निष्कर्ष

आपके डेटा की प्रकृति और उपयोग के मामलों के आधार पर, ChatGPT या OpenAI के API का उपयोग करना आपकी कंपनी के लिए अनुपयुक्त हो सकता है। यदि आपकी कंपनी के पास ChatGPT में कौन सा डेटा भेजा या सहेजा जा सकता है, इसके लिए कोई नीति नहीं है, तो अब उन वार्तालापों को शुरू करने का समय है।


निजी व्यावसायिक सेटिंग्स में इन उपकरणों के दुरुपयोग से आईपी रिसाव हो सकता है। इस तरह के प्रदर्शन के निहितार्थ बड़े पैमाने पर हैं, जिनमें प्रतिस्पर्धात्मक लाभ की हानि से लेकर संभावित कानूनी मुद्दे तक शामिल हैं।

यदि आप मोज़ेकएमएल के मॉडलों की और खोज में रुचि रखते हैं, जो सीमित विकल्पों में से हैं जो खुले स्रोत और बड़े भाषा मॉडल के लिए व्यावसायिक रूप से उपलब्ध हैं, तो कृपया हमें बताएं ! हमारी रुचि समान है और हम साथ मिलकर इस विषय पर आगे काम करने के लिए उत्साहित हैं।


यदि आप ऐसे समाधान में रुचि रखते हैं जो आपकी अपनी कंपनी के डेटा का उपयोग करके सुरक्षित, पुनर्प्राप्ति संवर्धित पीढ़ी प्रदान करता है, तो हम एक उपकरण विकसित कर रहे हैं जो विशेष रूप से आपके डेटा को SOC2 अनुपालन के साथ सुरक्षित रखने, आपके SSO प्रदाताओं के साथ एकीकृत करने, आपके संगठन के भीतर वार्तालाप साझा करने को सक्षम करने के लिए डिज़ाइन किया गया है, और डेटा इनपुट पर नीतियां लागू करें। हमारा अंतिम उद्देश्य आईपी रिसाव के किसी भी जोखिम के बिना आपके डेटा के लिए चैटजीपीटी गुणवत्ता प्रदान करना है। यदि आप ऐसे टूल में रुचि रखते हैं, तो हम आपको हमारा सर्वेक्षण भरने या Mindfuldataai.com पर जाने के लिए प्रोत्साहित करते हैं।


इस पोस्ट को पढ़ने के लिए समय निकालने के लिए धन्यवाद!