paint-brush
দায়ী এআই-এর জন্য কেন LLM-এ নিম্ন সম্পদের ভাষাগুলিকে একীভূত করা অপরিহার্যদ্বারা@konkiewicz
3,916 পড়া
3,916 পড়া

দায়ী এআই-এর জন্য কেন LLM-এ নিম্ন সম্পদের ভাষাগুলিকে একীভূত করা অপরিহার্য

দ্বারা Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

নিবন্ধটি বড় ল্যাঙ্গুয়েজ মডেল (LLMs) অ্যাক্সেস করার ক্ষেত্রে স্বল্প সম্পদের ভাষাগুলির মুখোমুখি হওয়া চ্যালেঞ্জগুলি অন্বেষণ করে এবং LLM কার্যকারিতা উন্নত করতে, বিশেষ করে কেস স্টাডি হিসাবে সোয়াহিলিতে ফোকাস করে উচ্চ-মানের ফাইন-টিউনিং ডেটাসেট তৈরি করার মতো উদ্ভাবনী কৌশলগুলি উপস্থাপন করে। এই অগ্রগতিগুলি আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেমে অবদান রাখে, ভাষাগত বৈচিত্র্য এবং অ্যাক্সেসযোগ্যতাকে সমর্থন করে।
featured image - দায়ী এআই-এর জন্য কেন LLM-এ নিম্ন সম্পদের ভাষাগুলিকে একীভূত করা অপরিহার্য
Magdalena Konkiewicz HackerNoon profile picture
0-item

লো রিসোর্স ল্যাঙ্গুয়েজ (LRLs) ইন লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs)

সাম্প্রতিক বছরগুলিতে, বড় ভাষা মডেলের (LLMs) উত্থান ভোক্তাদের দৈনন্দিন রুটিনে উল্লেখযোগ্য পরিবর্তন এনেছে। ব্যক্তিরা এখন এই শক্তিশালী ভাষা সরঞ্জামগুলির মাধ্যমে তথ্য পুনরুদ্ধার করা, পাঠ্য রচনা করা এবং নথি পরিমার্জন করার মতো বিভিন্ন ধরণের কাজ করতে পারে। দৈনন্দিন জীবনে এলএলএম-এর এই একীকরণের ফলে কর্মক্ষেত্রে এবং ব্যক্তিগত প্রচেষ্টা উভয় ক্ষেত্রেই উৎপাদনশীলতা উল্লেখযোগ্য বৃদ্ধি পেয়েছে।


যাইহোক, এটি স্বীকার করা গুরুত্বপূর্ণ যে সমস্ত ভোক্তা এই সুবিধাগুলি সমানভাবে অনুভব করেননি। প্রকৃতপক্ষে, বিশ্বজুড়ে উল্লেখযোগ্য সংখ্যক লোক যারা কম সাধারণ ভাষায় কথা বলে তারা এলএলএম-এর সাথে যোগাযোগ করতে সক্ষম হয় না, প্রাথমিকভাবে এই নির্দিষ্ট ভাষার জন্য ডিজাইন করা ভাষার মডেলের অপর্যাপ্ততার কারণে। বর্তমানে বিশ্বে 7,000টি ভাষা কথ্য, বৃহত্তম বহুভাষিক এলএলএমগুলিকে শুধুমাত্র একশোরও কম ভাষা ব্যবহার করে প্রশিক্ষিত করা হয়েছে, এইভাবে অনেক ভাষা এবং লোককে সম্পূর্ণভাবে পিছনে ফেলে দিয়েছে।


অ-ইংরেজি ভাষাগুলিকে সমর্থন করার জন্য উচ্চ-মানের, প্রচুর ডেটা উত্সের প্রয়োজন, যা খুঁজে পাওয়া এবং অ্যাক্সেস করা কঠিন হতে পারে। এবং শুধুমাত্র সেই মডেলগুলি খারাপ কাজ করে না কিন্তু এটি দ্বারা রিপোর্ট করা হয়েছে ব্রাউন ইউনিভার্সিটি যে তারা অনৈতিক প্রতিক্রিয়া দেওয়ার সম্ভাবনা বেশি এইভাবে তাদের দূষিত আক্রমণের জন্য আরও ঝুঁকিপূর্ণ করে তোলে।


কেন আমাদের এলএলএম-এ উপস্থাপিত ভাষা আছে?

লো রিসোর্স ল্যাঙ্গুয়েজ (এলআরএল) এর জন্য তৈরি করা এলএলএম-এর কর্মক্ষমতা বেশ কয়েকটি মূল চ্যালেঞ্জ দ্বারা বাধাগ্রস্ত হয়।


প্রথমত, অনেক LLM-এর ফাউন্ডেশন মডেলগুলি ইন্টারনেট থেকে স্ক্র্যাপ করা ডেটার উপর নির্ভর করে, যেখানে প্রায়শই LRL-এর ব্যাপক কভারেজের অভাব থাকে। নীচের গ্রাফটি ভাষা গোষ্ঠীতে বিভক্ত ইন্টারনেট জুড়ে ডেটা বিতরণ দেখায়। যদিও আরও সাধারণ ভাষাগুলিতে প্রশিক্ষণের মডেলগুলির জন্য সম্ভাব্যভাবে শত শত GB ডেটা উপলব্ধ থাকে, গ্রাফের লেজের ভাষাগুলিতে কেবলমাত্র কয়েকশো মেগাবাইটের পরিসরে ডেটা উপলব্ধ থাকে।

বহুভাষিকতার দীর্ঘ লেজ, কয়েকটি উচ্চ-সম্পদ ভাষা এবং অনেক কম জনবহুল ভাষা। - ছবিটি মূলত https://arxiv.org/pdf/1911.02116.pdf এ প্রকাশিত


অনেক LRL-এর জন্য সূক্ষ্ম-টিউন করা নির্দেশনা ডেটাসেটের অনুপস্থিতির কারণে এই সীমাবদ্ধতা আরও বড় হয়েছে। একটি নির্দেশনা ডেটাসেটে আদর্শ উত্তর সহ একটি প্রশ্ন সেট থাকে এবং এটি এলএলএম প্রশিক্ষণের একটি গুরুত্বপূর্ণ অংশ - এই ক্ষেত্রে, নির্দিষ্ট ভাষায়। এইভাবে মডেল নির্দেশাবলী অনুসরণ করতে শেখে, এবং এই সম্পদ ব্যতীত, মডেলগুলি জটিল প্রশ্ন এবং সমস্যা সমাধানের কাজগুলিতে মানুষকে সহায়তা করার পরিবর্তে ক্রমানুসারে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে সক্ষম হয়।


উপরোক্ত ঘটনাটি এই কারণে ঘটে যে এলএলএমগুলিকে অনুক্রমিক ধাপে প্রশিক্ষণ দেওয়া হয়। প্রথম ধাপ হল প্রচুর পরিমাণে অলিখিত পাঠ্য পড়ে ভাষা শেখা যা মডেলকে ক্রমানুসারে পরবর্তী বিশ্বের ভবিষ্যদ্বাণী করার ক্ষমতা দেয়। দ্বিতীয় ধাপটি হল এই ভবিষ্যদ্বাণীমূলক আচরণকে সুনির্দিষ্ট নির্দেশাবলী অনুসরণ করার জন্য উপযোগী করা, যেমন প্রশ্নের উত্তর দেওয়া, সারসংক্ষেপ লেখা বা ডেটা বের করা। এই কারণেই ফাইন-টিউনিং ডেটাসেটগুলি এত গুরুত্বপূর্ণ, কারণ তাদের গুণমান আরও নির্ধারণ করবে ব্যবহারকারীদের প্রয়োজনীয় কাজগুলিতে সহায়তা করার জন্য এলএলএম-এর ক্ষমতা।

নিম্নলিখিত বিভাগে, আমরা সোয়াহিলির জন্য একটি উচ্চ-মানের ডেটাসেট তৈরি করার একটি পদ্ধতি উপস্থাপন করব যা এই ভাষার জন্য এলএলএম-কে সূক্ষ্ম-সুর করতে ব্যবহার করা যেতে পারে। পদ্ধতিটি যেকোনো স্বল্প-সম্পদ ভাষায় প্রয়োগ করা যেতে পারে।


এলআরএল-এর জন্য ডেটা সংগ্রহের জন্য উদ্ভাবনী পাইপলাইন

সোয়াহিলি হল একটি ভাষা যা 14টি বিভিন্ন আফ্রিকান দেশে 200 মিলিয়নেরও বেশি লোক বলে এবং তানজানিয়া, কেনিয়া, উগান্ডা এবং কঙ্গো গণতান্ত্রিক প্রজাতন্ত্রের সরকারী জাতীয় ভাষা। এটি নিম্ন-সম্পদ ভাষার গোষ্ঠীর অন্তর্গত এবং এটি এমন একটি ভাষার উদাহরণ যেখানে এলএলএম ফাইন-টিউনিংয়ের জন্য বাক্সের বাইরের নির্দেশনা ডেটাসেট নেই।



সাধারণভাবে, একটি ভাষার জন্য একটি সূক্ষ্ম-টিউনিং ডেটাসেট তৈরি করতে তিনটি পন্থা বিদ্যমান। প্রথমটি হল মূল্যায়নকারীদের দ্বারা একটি ডেটাসেটের সরাসরি প্রজন্ম, এই ক্ষেত্রে, ভাষা বিশেষজ্ঞরা, যার জন্য কাঙ্ক্ষিত ভাষায় প্রশ্ন এবং আদর্শ উত্তর উভয়ই বিকাশ করা প্রয়োজন। এটি সোয়াহিলি ভাষার জন্য চ্যালেঞ্জিং হতে পারে কারণ মূল্যায়নকারীদের উচ্চ-স্তরের বিশেষজ্ঞ হতে হবে এবং প্রক্রিয়াটি সাধারণত ব্যয়বহুল।

আরেকটি সম্ভাব্য সমাধান হল ইংরেজিতে একটি বিদ্যমান নির্দেশ ডেটাসেট নেওয়া এবং এটি সোয়াহিলিতে অনুবাদ করা। এটি অনুবাদকদের দ্বারা করা যেতে পারে যারা সোয়াহিলি এবং ইংরেজি উভয়ই বলতে পারেন তবে এটি সময় এবং সম্পদের নিবিড়ও হতে পারে। একটি স্বয়ংক্রিয় অনুবাদক ব্যবহার করা যেতে পারে, তবে, এটি সাধারণত অপর্যাপ্ত বা নিম্ন-মানের ফলাফলের ফলাফল দেয়।


আরেকটি সমাধান স্বয়ংক্রিয় অনুবাদকে মানব বৈধকরণের সাথে একত্রিত করে, একটি ব্যয়-দক্ষ এবং মাপযোগ্য পদ্ধতির অফার করে, যা LRL মডেলগুলি সঠিক, স্থানীয় রীতিনীতি এবং নিয়মগুলি প্রতিফলিত করে এবং যে সম্প্রদায়গুলি সেগুলি ব্যবহার করবে তাদের জন্য দরকারী তা নিশ্চিত করার জন্য গুরুত্বপূর্ণ। এই পদ্ধতিটি সোয়াহিলি থেকে ইংরেজিতে সর্বোত্তম উপলব্ধ স্বয়ংক্রিয় অনুবাদক ব্যবহার করে এবং তারপরে স্থানীয় সোয়াহিলি ভাষাভাষীদের এমন উদাহরণগুলি ফিল্টার করতে বলে যা গুণমানের মান পূরণ করে না।


টোলোকা সম্প্রতি একটি উন্নয়ন প্রকল্প হাতে নিয়েছে, যেখানে তারা সোয়াহিলির জন্য 15,000 আসল থেকে একটি 11,000 ফাইন-টিউনিং ডেটাসেট তৈরি করেছে ডলি ডেটাসেট . একটি প্রম্পট এবং একটি উত্তর সমন্বিত প্রতিটি ডেটা পয়েন্ট স্বয়ংক্রিয় অনুবাদ ব্যবহার করে ইংরেজি থেকে সোয়াহিলিতে অনুবাদ করা হয়েছে যার ফলে প্রাথমিকভাবে সোয়াহিলিতে 15,000টি প্রশ্ন উত্তর জোড়া হয়েছে। এই ডেটাসেটটি নেটিভ স্পিকারদের নিম্ন মানের সাথে জোড়াগুলি সরাতে বলার দ্বারা আরও কমানো হয়েছিল এইভাবে 11,000 দৃষ্টান্ত সহ একটি সূক্ষ্ম-সুরিত সোয়াহিলি ডেটাসেট রেখে৷




ডেটাসেটটি তখন উন্নত করতে ব্যবহার করা হয়েছিল mT5 , সোয়াহিলির জন্য শীর্ষস্থানীয় বহুভাষিক ভাষার মডেলগুলির মধ্যে একটি, যা এই ভাষার জন্য উল্লেখযোগ্য কর্মক্ষমতা বর্ধন প্রদর্শন করেছে। সূক্ষ্ম-টিউন করা ডেটাসেট শ্রেণীবিভাগের কাজগুলির জন্য নির্ভুলতা এবং এফ-স্কোর (ভবিষ্যদ্বাণীমূলক কর্মক্ষমতার একটি পরিমাপ) বৃদ্ধি করেছে, কিন্তু আরও গুরুত্বপূর্ণভাবে, এটি উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে রুজ , অথবা Gisting Evaluation এর জন্য Recall-oriented Understudy, যা NLP-তে স্বয়ংক্রিয় সংক্ষিপ্তকরণ এবং মেশিন অনুবাদ সফ্টওয়্যার মূল্যায়নের জন্য ব্যবহৃত মেট্রিক্সের একটি সেট, এবং chrF++, অক্ষর n-গ্রাম F-স্কোর (chrF), জেনারেটিভ টাস্কে যেখানে মডেলকে অবশ্যই খোলা প্রশ্নের জবাব দিতে হবে। এই পরীক্ষাটি এলআরএল-এ এলএলএম কর্মক্ষমতা উন্নত করার সম্ভাবনা দেখায় এবং তাই সত্যিকারের বহুভাষিক মডেল তৈরির পথ খুলে দেয়।


আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেম তৈরি করা

ডেভেলপার এবং সংস্থাগুলি একটি আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেম তৈরি করার চেষ্টা করে, মূল্যায়ন আরও বেশি গুরুত্বপূর্ণ হয়ে ওঠে, যেমন এলএলএম প্রশিক্ষণে মানুষের সম্পৃক্ততা। Cohere এর সাম্প্রতিক লঞ্চ আয়া , একটি ভাষার মডেল যা সোয়াহিলি এবং অন্যান্য LRL সহ একশোরও বেশি ভাষাকে সমর্থন করে, এই প্রতিশ্রুতির উদাহরণ দেয়৷ ডেটা ঘাটতি মোকাবেলা করা এবং LRL-এর জন্য মডেলের কার্যকারিতা বৃদ্ধি করা আরও অন্তর্ভুক্তিমূলক এবং দায়িত্বশীল AI সিস্টেম তৈরি করার জন্য একটি গুরুত্বপূর্ণ পদক্ষেপ যা বিশ্বব্যাপী বিভিন্ন ভাষাগত সম্প্রদায়ের সেবা করে।