क्या यह आप हैं 👆? आपने CompSci नहीं किया है, इसलिए अब आप अदालत के विदूषक हैं, तेजी से दुनिया के सबसे तेज़ गति से चलने वाले उद्योग में ज्ञान बढ़ाने की कोशिश कर रहे हैं?
सांस लें। यहां बुनियादी बातों पर वापस जाने वाली एक पोस्ट है जहां आप " वास्तव में एक मूर्खतापूर्ण प्रश्न" पूछ सकते हैं और महसूस नहीं कर सकते कि आपको दोषी ठहराया जा रहा है।
ट्रांसफॉर्मर - जितना दिखता है उससे कहीं अधिक... एक प्रकार का मॉडल जिसका उपयोग मशीन लर्निंग में किया जाता है, विशेष रूप से टेक्स्ट या ऑडियो जैसे डेटा के अनुक्रमों को संभालने के लिए। यह वाक्यों में संदर्भ को समझने में अच्छा है और इसका उपयोग भाषाओं का अनुवाद करने, पाठ को सारांशित करने या चैटबॉट प्रतिक्रियाएं उत्पन्न करने के लिए किया जा सकता है।
बड़े भाषा मॉडल (एलएलएम) - यह भाषा ज्ञान के एक विशाल डेटाबेस की तरह है जो लेख लिख सकता है, सवालों के जवाब दे सकता है या यथार्थवादी संवाद बना सकता है।
ट्रांसफॉर्मर एक ऐसी तकनीक है जिसका उपयोग एआई में भाषा प्रसंस्करण के लिए किया जाता है। एलएलएम भाषा कार्यों के लिए एक बड़ा एआई मॉडल है, जिसे अक्सर ट्रांसफार्मर तकनीक का उपयोग करके बनाया जाता है।
इंटरफ़ेस - कंप्यूटर सिस्टम या सॉफ़्टवेयर का वह भाग जो उपयोगकर्ताओं को इसके साथ इंटरैक्ट करने की अनुमति देता है। इसे एक प्रोग्राम के फ्रंट-एंड के रूप में सोचें जहां आप अपना प्रश्न या कमांड टाइप करते हैं, और प्रोग्राम प्रतिक्रिया देता है।
अनुमान - एआई में, इसका मतलब पूर्वानुमान या निर्णय लेने के लिए एक प्रशिक्षित मॉडल का उपयोग करना है। उदाहरण के लिए, तस्वीरों में बिल्लियों को पहचानने के लिए एक मॉडल को प्रशिक्षित करने के बाद, अनुमान तब लगाया जाता है जब मॉडल एक नई तस्वीर को देखता है और निर्णय लेता है कि इसमें एक बिल्ली है या नहीं।🐈⬛
पर्यवेक्षित शिक्षण - मशीनों को प्रशिक्षित करने का एक तरीका जहां आप उत्तरों के साथ मॉडल उदाहरण देते हैं। जैसे किसी प्रोग्राम में बिल्लियों की ढेर सारी तस्वीरें दिखाना और यह बताना कि 'यह एक बिल्ली है' ताकि उसे पता चले कि बिल्लियाँ कैसी दिखती हैं।
अनसुपरवाइज्ड लर्निंग ( हीयो) - किसी मशीन को उत्तर दिए बिना उसे प्रशिक्षित करना। मॉडल डेटा को देखता है और स्वयं पैटर्न या समूह खोजने का प्रयास करता है। उदाहरण के लिए, यह शैली के नाम बताए बिना विभिन्न प्रकार के संगीत को शैलियों में क्रमबद्ध कर सकता है।
सुदृढीकरण सीखना - परीक्षण और त्रुटि के माध्यम से शिक्षण मशीनें। मशीन किसी स्थिति में चुनाव करती है और उसके विकल्प अच्छे या बुरे के आधार पर पुरस्कार या दंड प्राप्त करती है, समय के साथ बेहतर निर्णय लेना सीखती है ( या क्रोधी और गुप्त हो जाती है)
तंत्रिका नेटवर्क - कुछ हद तक मानव मस्तिष्क की तरह काम करने के लिए डिज़ाइन किया गया। इसमें बहुत सी छोटी इकाइयाँ (जैसे मस्तिष्क कोशिकाएँ) होती हैं जो सूचनाओं को संसाधित करने और समस्याओं को हल करने के लिए एक साथ काम करती हैं।
आपका डेटा एकत्रित करना
विभिन्न प्रकार के टेक्स्ट डेटा एकत्र करके प्रारंभ करें। इसमें किताबें, ऑनलाइन लेख या डेटाबेस से डेटा शामिल हो सकता है। आपका डेटा जितना अधिक विविध होगा, आपका एलएलएम भाषा के विभिन्न पहलुओं को समझने में उतना ही बेहतर होगा।
कागल के पास एमएल और डेटा विज्ञान परियोजनाओं के लिए बेहतरीन डेटा है। ऑस्ट्रेलियाई स्थानीय और कागल ग्रैंडमास्टर जेरेमी हॉवर्ड को देखें।
GitHub अक्सर शोधकर्ताओं और डेवलपर्स द्वारा प्रकाशित डेटासेट होस्ट करता है। खोजने के लिए अच्छी जगह है.
उल्लेखनीय है - कागजात + सरकारी साइटों से संबंधित डेटासेट के लिए Google विद्वान
प्रीप्रोसेसिंग डेटा
अब, इस डेटा को साफ़ करें। यह कदम त्रुटियों को ठीक करने, उन हिस्सों को हटाने और उन्हें व्यवस्थित करने के बारे में है ताकि आपका एआई उनसे प्रभावी ढंग से सीख सके।
विचार
आप लुप्त मानों को कैसे संभालेंगे, फ़ॉर्मेटिंग समस्याओं को ठीक करेंगे, डुप्लिकेट डेटा से कैसे निपटेंगे?
मॉडल आर्किटेक्चर अनिवार्य रूप से मॉडल का डिज़ाइन या संरचना है, जो ब्लूप्रिंट के रूप में कार्य करता है और मार्गदर्शन करता है कि एआई जानकारी को कैसे संसाधित करता है।
ट्रांसफॉर्मर आर्किटेक्चर विशेष रूप से पाठ जैसे अनुक्रमिक डेटा को संभालने के लिए तैयार किया गया है, जो डेटा के भीतर संदर्भ को समझने पर ध्यान केंद्रित करता है, और हम आज के लिए उसी पर टिके रहेंगे।
तैयार डेटा को अपने AI मॉडल में फ़ीड करें। यहीं पर आपका AI भाषा की पेचीदगियों को सीखना शुरू करता है। प्रशिक्षण में समय और संसाधन की खपत हो सकती है, विशेषकर बहुत सारे डेटा के साथ। (यह वह जगह है जहां मैं अनस्लोथ में अपने दोस्तों का उल्लेख करना चाहूंगा, पॉडकास्ट जल्द ही आ रहा है)
प्रशिक्षण के बाद, मूल्यांकन करें कि आपका एआई भाषा को कितनी अच्छी तरह समझता और उत्पन्न करता है। परिणामों के आधार पर, आपको इसके प्रदर्शन को बढ़ाने के लिए समायोजन और पुनः प्रशिक्षण की आवश्यकता हो सकती है।
अब, आप जानवर को कैसे चलाएंगे?
शुरुआत से एलएलएम बनाने के बजाय, आप पहले से ही भारी मात्रा में डेटा पर प्रशिक्षित मॉडलों तक पहुंचने के लिए हगिंग फेस का उपयोग कर सकते हैं। आप इन मॉडलों को या तो उनकी क्लाउड सेवा पर चला सकते हैं या अपनी मशीन पर स्थानीय रूप से चलाने के लिए उन्हें डाउनलोड कर सकते हैं।
आपकी पसंद के बावजूद, कुंजी एक प्रशिक्षित एलएलएम मॉडल और उसके साथ बातचीत करने का साधन होना है, चाहे इंटरनेट के माध्यम से या सीधे आपके कंप्यूटर पर।
ओपन-सोर्स एआई को समझने और अपनाने में आने वाली बाधाओं को कम करने के उद्देश्य से पोस्टों की श्रृंखला में यह पहला भाग है।
मैं यहां पॉडकास्ट लिखता और निर्मित करता हूं-
अन्य लिंक यहां https://linktr.ee/Unsupervisedlearning
यहाँ भी प्रकाशित किया गया