3,939 रीडिंग

जिम्मेदार AI के लिए LLM में कम संसाधन वाली भाषाओं को एकीकृत करना क्यों आवश्यक है

द्वारा Magdalena Konkiewicz5m2024/04/27

बहुत लंबा; पढ़ने के लिए

यह लेख बड़े भाषा मॉडल (एलएलएम) तक पहुँचने में कम संसाधन वाली भाषाओं के सामने आने वाली चुनौतियों का पता लगाता है और एलएलएम प्रदर्शन को बेहतर बनाने के लिए उच्च गुणवत्ता वाले फाइन-ट्यूनिंग डेटासेट बनाने जैसी नवीन रणनीतियाँ प्रस्तुत करता है, विशेष रूप से केस स्टडी के रूप में स्वाहिली पर ध्यान केंद्रित करता है। ये प्रगति एक अधिक समावेशी एआई पारिस्थितिकी तंत्र में योगदान करती है, जो भाषाई विविधता और पहुँच का समर्थन करती है।

featured image - जिम्मेदार AI के लिए LLM में कम संसाधन वाली भाषाओं को एकीकृत करना क्यों आवश्यक है

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

बड़े भाषा मॉडल (एलएलएम) में कम संसाधन वाली भाषाएं (एलआरएल)

हाल के वर्षों में, बड़े भाषा मॉडल (एलएलएम) के उद्भव ने उपभोक्ताओं की दैनिक दिनचर्या में महत्वपूर्ण बदलाव लाए हैं। व्यक्ति अब इन शक्तिशाली भाषा उपकरणों के माध्यम से जानकारी प्राप्त करना, पाठ लिखना और दस्तावेजों को परिष्कृत करना जैसे विविध प्रकार के कार्य कर सकते हैं। दैनिक जीवन में एलएलएम के इस एकीकरण के परिणामस्वरूप काम और व्यक्तिगत प्रयासों दोनों में उत्पादकता में उल्लेखनीय वृद्धि हुई है।

हालांकि, यह पहचानना महत्वपूर्ण है कि सभी उपभोक्ताओं ने इन लाभों का समान रूप से अनुभव नहीं किया है। वास्तव में, दुनिया भर में बहुत से लोग जो कम आम भाषाएँ बोलते हैं, वे LLM के साथ बातचीत करने में सक्षम नहीं हैं, मुख्य रूप से इन विशिष्ट भाषाओं के लिए डिज़ाइन किए गए भाषा मॉडल की अपर्याप्तता के कारण। वर्तमान में दुनिया में 7,000 भाषाएँ बोली जाती हैं, सबसे बड़े बहुभाषी LLM को केवल सौ से भी कम भाषाओं का उपयोग करके प्रशिक्षित किया गया है, इस प्रकार कई भाषाएँ और लोग पूरी तरह से पीछे छूट गए हैं।

गैर-अंग्रेजी भाषाओं का समर्थन करने के लिए उच्च-गुणवत्ता वाले, प्रचुर मात्रा में डेटा स्रोतों की आवश्यकता होती है, जिन्हें खोजना और उन तक पहुँचना मुश्किल हो सकता है। और न केवल वे मॉडल खराब प्रदर्शन करते हैं, बल्कि यह भी रिपोर्ट किया गया है ब्राउन विश्वविद्यालय उनके अनैतिक प्रतिक्रिया देने की संभावना अधिक होती है, जिससे वे दुर्भावनापूर्ण हमलों के प्रति अधिक संवेदनशील हो जाते हैं।

एलएलएम में भाषाओं का प्रतिनिधित्व कम क्यों है?

निम्न संसाधन भाषाओं (एलआरएल) के लिए तैयार एलएलएम का प्रदर्शन कई प्रमुख चुनौतियों से बाधित है।

सबसे पहले, कई एलएलएम के लिए आधार मॉडल इंटरनेट से प्राप्त डेटा पर निर्भर करते हैं, जिसमें अक्सर एलआरएल के व्यापक कवरेज का अभाव होता है। नीचे दिया गया ग्राफ भाषा समूहों में विभाजित इंटरनेट पर डेटा का वितरण दिखाता है। जबकि अधिक सामान्य भाषाओं में प्रशिक्षण मॉडल के लिए संभावित रूप से सैकड़ों जीबी डेटा उपलब्ध है, ग्राफ की पूंछ में भाषाओं में केवल सैकड़ों मेगाबाइट की सीमा में डेटा उपलब्ध है।

यह सीमा कई LRLs के लिए ठीक-ठाक निर्देश डेटासेट की अनुपस्थिति से और भी बढ़ जाती है। एक निर्देश डेटासेट में आदर्श उत्तरों के साथ जोड़ा गया एक प्रश्न सेट होता है और यह LLM प्रशिक्षण का एक महत्वपूर्ण हिस्सा है - इस मामले में, विशिष्ट भाषाओं में। इस तरह से मॉडल निर्देशों का पालन करना सीखता है, और इस संपत्ति के बिना, मॉडल केवल अनुक्रम में अगले शब्द की भविष्यवाणी करने में सक्षम होते हैं, बजाय जटिल प्रश्नों और समस्या-समाधान कार्यों में मनुष्यों की सहायता करने के।

उपरोक्त तथ्य इस तथ्य के कारण है कि LLM को क्रमिक चरणों में प्रशिक्षित किया जाता है। पहला चरण बड़ी मात्रा में बिना टिप्पणी वाले पाठ को पढ़कर भाषा सीखना है जो मॉडल को अनुक्रम में अगली दुनिया की भविष्यवाणी करने की क्षमता देता है। दूसरा चरण इस पूर्वानुमानित व्यवहार को विशिष्ट निर्देशों का पालन करने के लिए तैयार करना है, जैसे कि प्रश्नों का उत्तर देना, सारांश लिखना या डेटा निकालना। यही कारण है कि डेटासेट को ठीक करना इतना महत्वपूर्ण है, क्योंकि उनकी गुणवत्ता उपयोगकर्ताओं को आवश्यक कार्यों में सहायता करने के लिए LLM की क्षमता को और निर्धारित करेगी।

अगले भाग में, हम स्वाहिली के लिए एक उच्च-गुणवत्ता वाला डेटासेट बनाने की विधि प्रस्तुत करेंगे जिसका उपयोग इस भाषा के लिए LLM को बेहतर बनाने के लिए किया जा सकता है। इस विधि को किसी भी कम संसाधन वाली भाषा पर लागू किया जा सकता है।

एलआरएल के लिए डेटा एकत्र करने हेतु अभिनव पाइपलाइन

स्वाहिली 14 अलग-अलग अफ्रीकी देशों में 200 मिलियन से ज़्यादा लोगों द्वारा बोली जाने वाली भाषा है और तंजानिया, केन्या, युगांडा और कांगो लोकतांत्रिक गणराज्य में आधिकारिक राष्ट्रीय भाषा है। यह कम संसाधन वाली भाषाओं के समूह से संबंधित है और एक ऐसी भाषा का उदाहरण है जिसमें LLM फ़ाइन-ट्यूनिंग के लिए आउट-ऑफ़-द-बॉक्स निर्देश डेटासेट नहीं है।

सामान्य तौर पर, किसी भाषा के लिए फाइन-ट्यूनिंग डेटासेट बनाने के लिए तीन तरीके मौजूद हैं। पहला तरीका है मूल्यांकनकर्ताओं द्वारा सीधे डेटासेट तैयार करना, इस मामले में भाषा विशेषज्ञ, जिसके लिए वांछित भाषा में प्रश्न और आदर्श उत्तर दोनों विकसित करने की आवश्यकता होती है। स्वाहिली भाषा के लिए यह चुनौतीपूर्ण हो सकता है क्योंकि मूल्यांकनकर्ताओं को उच्च-स्तरीय विशेषज्ञ होने की आवश्यकता होती है और यह प्रक्रिया आम तौर पर महंगी होती है।

एक और संभावित समाधान अंग्रेजी में मौजूदा निर्देश डेटासेट लेना और उसका स्वाहिली में अनुवाद करना है। यह उन अनुवादकों द्वारा किया जा सकता है जो स्वाहिली और अंग्रेजी दोनों बोलते हैं, लेकिन इसमें समय और संसाधन दोनों की ज़रूरत हो सकती है। एक स्वचालित अनुवादक का उपयोग किया जा सकता है, हालाँकि, इससे आमतौर पर अपर्याप्त या खराब गुणवत्ता वाले परिणाम मिलते हैं।

दूसरा समाधान स्वचालित अनुवाद को मानवीय सत्यापन के साथ जोड़ता है, जो लागत-कुशल और मापनीय दृष्टिकोण प्रदान करता है, जो यह सुनिश्चित करने के लिए महत्वपूर्ण है कि LRL मॉडल सटीक हैं, स्थानीय रीति-रिवाजों और मानदंडों को दर्शाते हैं, और उन समुदायों के लिए उपयोगी हैं जो उनका उपयोग करेंगे। यह विधि स्वाहिली से अंग्रेजी में उपलब्ध सर्वोत्तम स्वचालित अनुवादक का उपयोग करती है और फिर मूल स्वाहिली बोलने वालों से उन उदाहरणों को फ़िल्टर करने के लिए कहती है जो गुणवत्ता मानकों को पूरा नहीं करते हैं।

टोलोका ने हाल ही में एक विकास परियोजना शुरू की, जहां उन्होंने 15,000 मूल से स्वाहिली के लिए 11,000 फाइन-ट्यूनिंग डेटासेट बनाया डॉली डेटासेट प्रत्येक डेटा बिंदु जिसमें एक संकेत और एक उत्तर शामिल है, को स्वचालित अनुवाद का उपयोग करके अंग्रेजी से स्वाहिली में अनुवादित किया गया, जिसके परिणामस्वरूप स्वाहिली में शुरू में 15,000 प्रश्न उत्तर जोड़े प्राप्त हुए। इस डेटासेट को देशी वक्ताओं से निम्न गुणवत्ता वाले जोड़ों को हटाने के लिए कहकर और कम किया गया, जिससे 11,000 उदाहरणों के साथ एक सुसंगठित स्वाहिली डेटासेट प्राप्त हुआ।

इसके बाद डेटासेट का उपयोग सुधार के लिए किया गया एमटी5 स्वाहिली के लिए शीर्ष प्रदर्शन करने वाले बहुभाषी भाषा मॉडलों में से एक, जिसने इस भाषा के लिए महत्वपूर्ण प्रदर्शन संवर्द्धन प्रदर्शित किया। परिष्कृत डेटासेट ने वर्गीकरण कार्यों के लिए सटीकता और एफ-स्कोर (पूर्वानुमानित प्रदर्शन का एक उपाय) को बढ़ाया, लेकिन इससे भी महत्वपूर्ण बात यह है कि इसने काफी वृद्धि की लाल होना , या गिस्टिंग मूल्यांकन के लिए रिकॉल-ओरिएंटेड अंडरस्टडी, जो एनएलपी में स्वचालित संक्षेपण और मशीन अनुवाद सॉफ्टवेयर के मूल्यांकन के लिए उपयोग किए जाने वाले मैट्रिक्स का एक सेट है, और chrF++, कैरेक्टर एन-ग्राम एफ-स्कोर (chrF), जनरेटिव कार्यों में जहां मॉडल को खुले प्रश्नों का जवाब देना चाहिए। यह प्रयोग LRLs में LLM प्रदर्शन को बेहतर बनाने की क्षमता को दर्शाता है और इसलिए वास्तव में बहुभाषी मॉडल बनाने का मार्ग खोलता है।

अधिक समावेशी AI पारिस्थितिकी तंत्र का निर्माण

जैसे-जैसे डेवलपर्स और संगठन अधिक समावेशी AI पारिस्थितिकी तंत्र बनाने का प्रयास करते हैं, मूल्यांकन और भी अधिक महत्वपूर्ण हो जाता है, साथ ही LLM के प्रशिक्षण में मानवीय भागीदारी भी। कोहेयर द्वारा हाल ही में लॉन्च किया गया अया स्वाहिली और अन्य एलआरएल सहित सौ से अधिक भाषाओं का समर्थन करने वाला एक भाषा मॉडल इस प्रतिबद्धता का उदाहरण है। डेटा की कमी को संबोधित करना और एलआरएल के लिए मॉडल प्रदर्शन को बढ़ाना दुनिया भर में विविध भाषाई समुदायों की सेवा करने वाले अधिक समावेशी और जिम्मेदार एआई सिस्टम बनाने की दिशा में एक महत्वपूर्ण कदम है।