हाल के वर्षों में, बड़े भाषा मॉडल (एलएलएम) के उद्भव ने उपभोक्ताओं की दैनिक दिनचर्या में महत्वपूर्ण बदलाव लाए हैं। व्यक्ति अब इन शक्तिशाली भाषा उपकरणों के माध्यम से जानकारी प्राप्त करना, पाठ लिखना और दस्तावेजों को परिष्कृत करना जैसे विविध प्रकार के कार्य कर सकते हैं। दैनिक जीवन में एलएलएम के इस एकीकरण के परिणामस्वरूप काम और व्यक्तिगत प्रयासों दोनों में उत्पादकता में उल्लेखनीय वृद्धि हुई है।
हालांकि, यह पहचानना महत्वपूर्ण है कि सभी उपभोक्ताओं ने इन लाभों का समान रूप से अनुभव नहीं किया है। वास्तव में, दुनिया भर में बहुत से लोग जो कम आम भाषाएँ बोलते हैं, वे LLM के साथ बातचीत करने में सक्षम नहीं हैं, मुख्य रूप से इन विशिष्ट भाषाओं के लिए डिज़ाइन किए गए भाषा मॉडल की अपर्याप्तता के कारण। वर्तमान में दुनिया में 7,000 भाषाएँ बोली जाती हैं, सबसे बड़े बहुभाषी LLM को केवल सौ से भी कम भाषाओं का उपयोग करके प्रशिक्षित किया गया है, इस प्रकार कई भाषाएँ और लोग पूरी तरह से पीछे छूट गए हैं।
गैर-अंग्रेजी भाषाओं का समर्थन करने के लिए उच्च-गुणवत्ता वाले, प्रचुर मात्रा में डेटा स्रोतों की आवश्यकता होती है, जिन्हें खोजना और उन तक पहुँचना मुश्किल हो सकता है। और न केवल वे मॉडल खराब प्रदर्शन करते हैं, बल्कि यह भी रिपोर्ट किया गया है
निम्न संसाधन भाषाओं (एलआरएल) के लिए तैयार एलएलएम का प्रदर्शन कई प्रमुख चुनौतियों से बाधित है।
सबसे पहले, कई एलएलएम के लिए आधार मॉडल इंटरनेट से प्राप्त डेटा पर निर्भर करते हैं, जिसमें अक्सर एलआरएल के व्यापक कवरेज का अभाव होता है। नीचे दिया गया ग्राफ भाषा समूहों में विभाजित इंटरनेट पर डेटा का वितरण दिखाता है। जबकि अधिक सामान्य भाषाओं में प्रशिक्षण मॉडल के लिए संभावित रूप से सैकड़ों जीबी डेटा उपलब्ध है, ग्राफ की पूंछ में भाषाओं में केवल सैकड़ों मेगाबाइट की सीमा में डेटा उपलब्ध है।
यह सीमा कई LRLs के लिए ठीक-ठाक निर्देश डेटासेट की अनुपस्थिति से और भी बढ़ जाती है। एक निर्देश डेटासेट में आदर्श उत्तरों के साथ जोड़ा गया एक प्रश्न सेट होता है और यह LLM प्रशिक्षण का एक महत्वपूर्ण हिस्सा है - इस मामले में, विशिष्ट भाषाओं में। इस तरह से मॉडल निर्देशों का पालन करना सीखता है, और इस संपत्ति के बिना, मॉडल केवल अनुक्रम में अगले शब्द की भविष्यवाणी करने में सक्षम होते हैं, बजाय जटिल प्रश्नों और समस्या-समाधान कार्यों में मनुष्यों की सहायता करने के।
उपरोक्त तथ्य इस तथ्य के कारण है कि LLM को क्रमिक चरणों में प्रशिक्षित किया जाता है। पहला चरण बड़ी मात्रा में बिना टिप्पणी वाले पाठ को पढ़कर भाषा सीखना है जो मॉडल को अनुक्रम में अगली दुनिया की भविष्यवाणी करने की क्षमता देता है। दूसरा चरण इस पूर्वानुमानित व्यवहार को विशिष्ट निर्देशों का पालन करने के लिए तैयार करना है, जैसे कि प्रश्नों का उत्तर देना, सारांश लिखना या डेटा निकालना। यही कारण है कि डेटासेट को ठीक करना इतना महत्वपूर्ण है, क्योंकि उनकी गुणवत्ता उपयोगकर्ताओं को आवश्यक कार्यों में सहायता करने के लिए LLM की क्षमता को और निर्धारित करेगी।
अगले भाग में, हम स्वाहिली के लिए एक उच्च-गुणवत्ता वाला डेटासेट बनाने की विधि प्रस्तुत करेंगे जिसका उपयोग इस भाषा के लिए LLM को बेहतर बनाने के लिए किया जा सकता है। इस विधि को किसी भी कम संसाधन वाली भाषा पर लागू किया जा सकता है।
स्वाहिली 14 अलग-अलग अफ्रीकी देशों में 200 मिलियन से ज़्यादा लोगों द्वारा बोली जाने वाली भाषा है और तंजानिया, केन्या, युगांडा और कांगो लोकतांत्रिक गणराज्य में आधिकारिक राष्ट्रीय भाषा है। यह कम संसाधन वाली भाषाओं के समूह से संबंधित है और एक ऐसी भाषा का उदाहरण है जिसमें LLM फ़ाइन-ट्यूनिंग के लिए आउट-ऑफ़-द-बॉक्स निर्देश डेटासेट नहीं है।
सामान्य तौर पर, किसी भाषा के लिए फाइन-ट्यूनिंग डेटासेट बनाने के लिए तीन तरीके मौजूद हैं। पहला तरीका है मूल्यांकनकर्ताओं द्वारा सीधे डेटासेट तैयार करना, इस मामले में भाषा विशेषज्ञ, जिसके लिए वांछित भाषा में प्रश्न और आदर्श उत्तर दोनों विकसित करने की आवश्यकता होती है। स्वाहिली भाषा के लिए यह चुनौतीपूर्ण हो सकता है क्योंकि मूल्यांकनकर्ताओं को उच्च-स्तरीय विशेषज्ञ होने की आवश्यकता होती है और यह प्रक्रिया आम तौर पर महंगी होती है।
एक और संभावित समाधान अंग्रेजी में मौजूदा निर्देश डेटासेट लेना और उसका स्वाहिली में अनुवाद करना है। यह उन अनुवादकों द्वारा किया जा सकता है जो स्वाहिली और अंग्रेजी दोनों बोलते हैं, लेकिन इसमें समय और संसाधन दोनों की ज़रूरत हो सकती है। एक स्वचालित अनुवादक का उपयोग किया जा सकता है, हालाँकि, इससे आमतौर पर अपर्याप्त या खराब गुणवत्ता वाले परिणाम मिलते हैं।
दूसरा समाधान स्वचालित अनुवाद को मानवीय सत्यापन के साथ जोड़ता है, जो लागत-कुशल और मापनीय दृष्टिकोण प्रदान करता है, जो यह सुनिश्चित करने के लिए महत्वपूर्ण है कि LRL मॉडल सटीक हैं, स्थानीय रीति-रिवाजों और मानदंडों को दर्शाते हैं, और उन समुदायों के लिए उपयोगी हैं जो उनका उपयोग करेंगे। यह विधि स्वाहिली से अंग्रेजी में उपलब्ध सर्वोत्तम स्वचालित अनुवादक का उपयोग करती है और फिर मूल स्वाहिली बोलने वालों से उन उदाहरणों को फ़िल्टर करने के लिए कहती है जो गुणवत्ता मानकों को पूरा नहीं करते हैं।
टोलोका ने हाल ही में एक विकास परियोजना शुरू की, जहां उन्होंने 15,000 मूल से स्वाहिली के लिए 11,000 फाइन-ट्यूनिंग डेटासेट बनाया
इसके बाद डेटासेट का उपयोग सुधार के लिए किया गया
जैसे-जैसे डेवलपर्स और संगठन अधिक समावेशी AI पारिस्थितिकी तंत्र बनाने का प्रयास करते हैं, मूल्यांकन और भी अधिक महत्वपूर्ण हो जाता है, साथ ही LLM के प्रशिक्षण में मानवीय भागीदारी भी। कोहेयर द्वारा हाल ही में लॉन्च किया गया