3,981 পড়া

দায়ী এআই-এর জন্য কেন LLM-এ নিম্ন সম্পদের ভাষাগুলিকে একীভূত করা অপরিহার্য

দ্বারা Magdalena Konkiewicz5m2024/04/27

অতিদীর্ঘ; পড়তে

নিবন্ধটি বড় ল্যাঙ্গুয়েজ মডেল (LLMs) অ্যাক্সেস করার ক্ষেত্রে স্বল্প সম্পদের ভাষাগুলির মুখোমুখি হওয়া চ্যালেঞ্জগুলি অন্বেষণ করে এবং LLM কার্যকারিতা উন্নত করতে, বিশেষ করে কেস স্টাডি হিসাবে সোয়াহিলিতে ফোকাস করে উচ্চ-মানের ফাইন-টিউনিং ডেটাসেট তৈরি করার মতো উদ্ভাবনী কৌশলগুলি উপস্থাপন করে। এই অগ্রগতিগুলি আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেমে অবদান রাখে, ভাষাগত বৈচিত্র্য এবং অ্যাক্সেসযোগ্যতাকে সমর্থন করে।

featured image - দায়ী এআই-এর জন্য কেন LLM-এ নিম্ন সম্পদের ভাষাগুলিকে একীভূত করা অপরিহার্য

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

লো রিসোর্স ল্যাঙ্গুয়েজ (LRLs) ইন লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs)

সাম্প্রতিক বছরগুলিতে, বড় ভাষা মডেলের (LLMs) উত্থান ভোক্তাদের দৈনন্দিন রুটিনে উল্লেখযোগ্য পরিবর্তন এনেছে। ব্যক্তিরা এখন এই শক্তিশালী ভাষা সরঞ্জামগুলির মাধ্যমে তথ্য পুনরুদ্ধার করা, পাঠ্য রচনা করা এবং নথি পরিমার্জন করার মতো বিভিন্ন ধরণের কাজ করতে পারে। দৈনন্দিন জীবনে এলএলএম-এর এই একীকরণের ফলে কর্মক্ষেত্রে এবং ব্যক্তিগত প্রচেষ্টা উভয় ক্ষেত্রেই উৎপাদনশীলতা উল্লেখযোগ্য বৃদ্ধি পেয়েছে।

যাইহোক, এটি স্বীকার করা গুরুত্বপূর্ণ যে সমস্ত ভোক্তা এই সুবিধাগুলি সমানভাবে অনুভব করেননি। প্রকৃতপক্ষে, বিশ্বজুড়ে উল্লেখযোগ্য সংখ্যক লোক যারা কম সাধারণ ভাষায় কথা বলে তারা এলএলএম-এর সাথে যোগাযোগ করতে সক্ষম হয় না, প্রাথমিকভাবে এই নির্দিষ্ট ভাষার জন্য ডিজাইন করা ভাষার মডেলের অপর্যাপ্ততার কারণে। বর্তমানে বিশ্বে 7,000টি ভাষা কথ্য, বৃহত্তম বহুভাষিক এলএলএমগুলিকে শুধুমাত্র একশোরও কম ভাষা ব্যবহার করে প্রশিক্ষিত করা হয়েছে, এইভাবে অনেক ভাষা এবং লোককে সম্পূর্ণভাবে পিছনে ফেলে দিয়েছে।

অ-ইংরেজি ভাষাগুলিকে সমর্থন করার জন্য উচ্চ-মানের, প্রচুর ডেটা উত্সের প্রয়োজন, যা খুঁজে পাওয়া এবং অ্যাক্সেস করা কঠিন হতে পারে। এবং শুধুমাত্র সেই মডেলগুলি খারাপ কাজ করে না কিন্তু এটি দ্বারা রিপোর্ট করা হয়েছে ব্রাউন ইউনিভার্সিটি যে তারা অনৈতিক প্রতিক্রিয়া দেওয়ার সম্ভাবনা বেশি এইভাবে তাদের দূষিত আক্রমণের জন্য আরও ঝুঁকিপূর্ণ করে তোলে।

কেন আমাদের এলএলএম-এ উপস্থাপিত ভাষা আছে?

লো রিসোর্স ল্যাঙ্গুয়েজ (এলআরএল) এর জন্য তৈরি করা এলএলএম-এর কর্মক্ষমতা বেশ কয়েকটি মূল চ্যালেঞ্জ দ্বারা বাধাগ্রস্ত হয়।

প্রথমত, অনেক LLM-এর ফাউন্ডেশন মডেলগুলি ইন্টারনেট থেকে স্ক্র্যাপ করা ডেটার উপর নির্ভর করে, যেখানে প্রায়শই LRL-এর ব্যাপক কভারেজের অভাব থাকে। নীচের গ্রাফটি ভাষা গোষ্ঠীতে বিভক্ত ইন্টারনেট জুড়ে ডেটা বিতরণ দেখায়। যদিও আরও সাধারণ ভাষাগুলিতে প্রশিক্ষণের মডেলগুলির জন্য সম্ভাব্যভাবে শত শত GB ডেটা উপলব্ধ থাকে, গ্রাফের লেজের ভাষাগুলিতে কেবলমাত্র কয়েকশো মেগাবাইটের পরিসরে ডেটা উপলব্ধ থাকে।

অনেক LRL-এর জন্য সূক্ষ্ম-টিউন করা নির্দেশনা ডেটাসেটের অনুপস্থিতির কারণে এই সীমাবদ্ধতা আরও বড় হয়েছে। একটি নির্দেশনা ডেটাসেটে আদর্শ উত্তর সহ একটি প্রশ্ন সেট থাকে এবং এটি এলএলএম প্রশিক্ষণের একটি গুরুত্বপূর্ণ অংশ - এই ক্ষেত্রে, নির্দিষ্ট ভাষায়। এইভাবে মডেল নির্দেশাবলী অনুসরণ করতে শেখে, এবং এই সম্পদ ব্যতীত, মডেলগুলি জটিল প্রশ্ন এবং সমস্যা সমাধানের কাজগুলিতে মানুষকে সহায়তা করার পরিবর্তে ক্রমানুসারে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে সক্ষম হয়।

উপরোক্ত ঘটনাটি এই কারণে ঘটে যে এলএলএমগুলিকে অনুক্রমিক ধাপে প্রশিক্ষণ দেওয়া হয়। প্রথম ধাপ হল প্রচুর পরিমাণে অলিখিত পাঠ্য পড়ে ভাষা শেখা যা মডেলকে ক্রমানুসারে পরবর্তী বিশ্বের ভবিষ্যদ্বাণী করার ক্ষমতা দেয়। দ্বিতীয় ধাপটি হল এই ভবিষ্যদ্বাণীমূলক আচরণকে সুনির্দিষ্ট নির্দেশাবলী অনুসরণ করার জন্য উপযোগী করা, যেমন প্রশ্নের উত্তর দেওয়া, সারসংক্ষেপ লেখা বা ডেটা বের করা। এই কারণেই ফাইন-টিউনিং ডেটাসেটগুলি এত গুরুত্বপূর্ণ, কারণ তাদের গুণমান আরও নির্ধারণ করবে ব্যবহারকারীদের প্রয়োজনীয় কাজগুলিতে সহায়তা করার জন্য এলএলএম-এর ক্ষমতা।

নিম্নলিখিত বিভাগে, আমরা সোয়াহিলির জন্য একটি উচ্চ-মানের ডেটাসেট তৈরি করার একটি পদ্ধতি উপস্থাপন করব যা এই ভাষার জন্য এলএলএম-কে সূক্ষ্ম-সুর করতে ব্যবহার করা যেতে পারে। পদ্ধতিটি যেকোনো স্বল্প-সম্পদ ভাষায় প্রয়োগ করা যেতে পারে।

এলআরএল-এর জন্য ডেটা সংগ্রহের জন্য উদ্ভাবনী পাইপলাইন

সোয়াহিলি হল একটি ভাষা যা 14টি বিভিন্ন আফ্রিকান দেশে 200 মিলিয়নেরও বেশি লোক বলে এবং তানজানিয়া, কেনিয়া, উগান্ডা এবং কঙ্গো গণতান্ত্রিক প্রজাতন্ত্রের সরকারী জাতীয় ভাষা। এটি নিম্ন-সম্পদ ভাষার গোষ্ঠীর অন্তর্গত এবং এটি এমন একটি ভাষার উদাহরণ যেখানে এলএলএম ফাইন-টিউনিংয়ের জন্য বাক্সের বাইরের নির্দেশনা ডেটাসেট নেই।

সাধারণভাবে, একটি ভাষার জন্য একটি সূক্ষ্ম-টিউনিং ডেটাসেট তৈরি করতে তিনটি পন্থা বিদ্যমান। প্রথমটি হল মূল্যায়নকারীদের দ্বারা একটি ডেটাসেটের সরাসরি প্রজন্ম, এই ক্ষেত্রে, ভাষা বিশেষজ্ঞরা, যার জন্য কাঙ্ক্ষিত ভাষায় প্রশ্ন এবং আদর্শ উত্তর উভয়ই বিকাশ করা প্রয়োজন। এটি সোয়াহিলি ভাষার জন্য চ্যালেঞ্জিং হতে পারে কারণ মূল্যায়নকারীদের উচ্চ-স্তরের বিশেষজ্ঞ হতে হবে এবং প্রক্রিয়াটি সাধারণত ব্যয়বহুল।

আরেকটি সম্ভাব্য সমাধান হল ইংরেজিতে একটি বিদ্যমান নির্দেশ ডেটাসেট নেওয়া এবং এটি সোয়াহিলিতে অনুবাদ করা। এটি অনুবাদকদের দ্বারা করা যেতে পারে যারা সোয়াহিলি এবং ইংরেজি উভয়ই বলতে পারেন তবে এটি সময় এবং সম্পদের নিবিড়ও হতে পারে। একটি স্বয়ংক্রিয় অনুবাদক ব্যবহার করা যেতে পারে, তবে, এটি সাধারণত অপর্যাপ্ত বা নিম্ন-মানের ফলাফলের ফলাফল দেয়।

আরেকটি সমাধান স্বয়ংক্রিয় অনুবাদকে মানব বৈধকরণের সাথে একত্রিত করে, একটি ব্যয়-দক্ষ এবং মাপযোগ্য পদ্ধতির অফার করে, যা LRL মডেলগুলি সঠিক, স্থানীয় রীতিনীতি এবং নিয়মগুলি প্রতিফলিত করে এবং যে সম্প্রদায়গুলি সেগুলি ব্যবহার করবে তাদের জন্য দরকারী তা নিশ্চিত করার জন্য গুরুত্বপূর্ণ। এই পদ্ধতিটি সোয়াহিলি থেকে ইংরেজিতে সর্বোত্তম উপলব্ধ স্বয়ংক্রিয় অনুবাদক ব্যবহার করে এবং তারপরে স্থানীয় সোয়াহিলি ভাষাভাষীদের এমন উদাহরণগুলি ফিল্টার করতে বলে যা গুণমানের মান পূরণ করে না।

টোলোকা সম্প্রতি একটি উন্নয়ন প্রকল্প হাতে নিয়েছে, যেখানে তারা সোয়াহিলির জন্য 15,000 আসল থেকে একটি 11,000 ফাইন-টিউনিং ডেটাসেট তৈরি করেছে ডলি ডেটাসেট . একটি প্রম্পট এবং একটি উত্তর সমন্বিত প্রতিটি ডেটা পয়েন্ট স্বয়ংক্রিয় অনুবাদ ব্যবহার করে ইংরেজি থেকে সোয়াহিলিতে অনুবাদ করা হয়েছে যার ফলে প্রাথমিকভাবে সোয়াহিলিতে 15,000টি প্রশ্ন উত্তর জোড়া হয়েছে। এই ডেটাসেটটি নেটিভ স্পিকারদের নিম্ন মানের সাথে জোড়াগুলি সরাতে বলার দ্বারা আরও কমানো হয়েছিল এইভাবে 11,000 দৃষ্টান্ত সহ একটি সূক্ষ্ম-সুরিত সোয়াহিলি ডেটাসেট রেখে৷

ডেটাসেটটি তখন উন্নত করতে ব্যবহার করা হয়েছিল mT5 , সোয়াহিলির জন্য শীর্ষস্থানীয় বহুভাষিক ভাষার মডেলগুলির মধ্যে একটি, যা এই ভাষার জন্য উল্লেখযোগ্য কর্মক্ষমতা বর্ধন প্রদর্শন করেছে। সূক্ষ্ম-টিউন করা ডেটাসেট শ্রেণীবিভাগের কাজগুলির জন্য নির্ভুলতা এবং এফ-স্কোর (ভবিষ্যদ্বাণীমূলক কর্মক্ষমতার একটি পরিমাপ) বৃদ্ধি করেছে, কিন্তু আরও গুরুত্বপূর্ণভাবে, এটি উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে রুজ , অথবা Gisting Evaluation এর জন্য Recall-oriented Understudy, যা NLP-তে স্বয়ংক্রিয় সংক্ষিপ্তকরণ এবং মেশিন অনুবাদ সফ্টওয়্যার মূল্যায়নের জন্য ব্যবহৃত মেট্রিক্সের একটি সেট, এবং chrF++, অক্ষর n-গ্রাম F-স্কোর (chrF), জেনারেটিভ টাস্কে যেখানে মডেলকে অবশ্যই খোলা প্রশ্নের জবাব দিতে হবে। এই পরীক্ষাটি এলআরএল-এ এলএলএম কর্মক্ষমতা উন্নত করার সম্ভাবনা দেখায় এবং তাই সত্যিকারের বহুভাষিক মডেল তৈরির পথ খুলে দেয়।

আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেম তৈরি করা

ডেভেলপার এবং সংস্থাগুলি একটি আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেম তৈরি করার চেষ্টা করে, মূল্যায়ন আরও বেশি গুরুত্বপূর্ণ হয়ে ওঠে, যেমন এলএলএম প্রশিক্ষণে মানুষের সম্পৃক্ততা। Cohere এর সাম্প্রতিক লঞ্চ আয়া , একটি ভাষার মডেল যা সোয়াহিলি এবং অন্যান্য LRL সহ একশোরও বেশি ভাষাকে সমর্থন করে, এই প্রতিশ্রুতির উদাহরণ দেয়৷ ডেটা ঘাটতি মোকাবেলা করা এবং LRL-এর জন্য মডেলের কার্যকারিতা বৃদ্ধি করা আরও অন্তর্ভুক্তিমূলক এবং দায়িত্বশীল AI সিস্টেম তৈরি করার জন্য একটি গুরুত্বপূর্ণ পদক্ষেপ যা বিশ্বব্যাপী বিভিন্ন ভাষাগত সম্প্রদায়ের সেবা করে।