এআই বিপ্লব কয়েক দশক ধরে তৈরি হয়েছিল। এটি ছিল উত্তেজনায় ভরা একটি ক্ষেত্র, তবুও প্রায়শই হতাশা এবং " " দ্বারা বিরামচিহ্নিত। কিন্তু সম্প্রতি কিছু পরিবর্তন হয়েছে। ChatGPT, Claude এবং Bard এর মতো বড় ভাষার মডেল (LLMs) ল্যাবরেটরির কৌতূহল থেকে AI কে নিয়ে গেছে। এআই শীত মূলধারায় এই পরিবর্তনটি শুধুমাত্র AI এর বিজয় ছিল না বরং বড় এবং অগোছালো ডেটার জটিলতার উপরও একটি বিজয় ছিল। কথায় আছে, "আবর্জনা ভিতরে, আবর্জনা আউট।" নতুন টুল আবির্ভূত হচ্ছে যা অন্তর্নিহিত ডেটার উন্নতিতে ফোকাস করে, তাই এলএলএম-এর উন্নতি। এলএলএম এর ডাবল চ্যালেঞ্জ "লার্জ ল্যাঙ্গুয়েজ মডেল" শব্দটি এর মধ্যে দুটি বড় চ্যালেঞ্জ রয়েছে। প্রথমত, ডেটার নিছক ভলিউম। আমরা GPT-4-এর জন্য একটি (এক মিলিয়ন গিগাবাইট) ডেটার উপরে কথা বলছি, লক্ষ লক্ষ বই, ব্লগ, সোশ্যাল মিডিয়া পোস্ট, ভিডিও ট্রান্সক্রিপ্ট এবং আরও অনেক কিছুকে অন্তর্ভুক্ত করে৷ এই বিশাল স্কেলটি বিশাল সম্ভাবনার প্রস্তাব দেয় তবে তা উল্লেখযোগ্য যৌক্তিক বিবেচনার বিষয়ও তুলে ধরে। পেটাবাইট দ্বিতীয়ত, প্রাকৃতিক ভাষার জটিলতা। প্রসঙ্গ-নির্ভর, অস্পষ্ট, এবং বৈচিত্র্যময়, ভাষার ডেটা একটি বন্য জন্তু যা এমনকি সেরা অ্যালগরিদমগুলিও নিয়ন্ত্রণ করতে লড়াই করে। এই সমস্ত ডেটাকে সঠিকভাবে লেবেল করা অসম্ভব, যার অবশ্যম্ভাবী অর্থ হল এমনকি অত্যাধুনিক এলএলএমগুলিও ভুলভাবে লেবেল করা ডেটার উপর প্রশিক্ষিত। এই চ্যালেঞ্জগুলি মোকাবেলায়, নতুন ডেটা-কেন্দ্রিক সরঞ্জাম এবং পদ্ধতির আবির্ভাব হয়েছে, যা এআই যা করতে সক্ষম তাতে সত্যিকারের লাফ দিতে সক্ষম হয়েছে। ক্লিনল্যাব এবং অন্যদের মতো সমাধানগুলি বিভিন্ন তথ্য সংগ্রহ, স্বয়ংক্রিয় মান নিয়ন্ত্রণ, এবং AI মডেলগুলির জন্য উপযুক্ত একটি ফর্মে ভাষা প্রক্রিয়া করার উপায় অফার করতে শুরু করে। এই সরঞ্জামগুলি কেবল ক্রমবর্ধমান উন্নতির প্রস্তাব দেয়নি; তারা মৌলিকভাবে এআই ডেটা হ্যান্ডলিং পদ্ধতির নতুন আকার দিয়েছে। তারা একটি ম্যানুয়াল, ত্রুটি-প্রবণ প্রক্রিয়া থেকে বৃহৎ মাপের ভাষা ডেটা পরিচালনা করার কাজটিকে একটি স্বয়ংক্রিয়, সুনির্দিষ্ট একটিতে রূপান্তরিত করেছে, ক্ষেত্রের গণতন্ত্রীকরণ এবং অভূতপূর্ব গতিতে অগ্রগতি সক্ষম করে। কেন ডেটা-কেন্দ্রিক AI প্রয়োজন (একটি পাইথন ডেমো সহ) AI-তে, বাস্তব-বিশ্বের ডেটাসেটে রয়েছে। এই অপূর্ণতাগুলি উল্লেখযোগ্যভাবে প্রশিক্ষণ এবং মূল্যায়নকে বাধা দেয়। ডেটা-কেন্দ্রিক AI ডেটাসেটের গুণমান উন্নত করার উপর জোর দেয়। 7-50% পর্যন্ত টীকা সংক্রান্ত ত্রুটি উদাহরণস্বরূপ, OpenAI-এর এই জোরকে চিত্রিত করে: “আমরা সমস্ত ভাল ডেটা ছেড়ে যাওয়ার চেয়ে সমস্ত খারাপ ডেটা ফিল্টার করাকে অগ্রাধিকার দিয়েছি। এর কারণ হল আমরা সবসময় আমাদের মডেলটিকে নতুন জিনিস শেখানোর জন্য পরবর্তীতে আরও ডেটা দিয়ে সূক্ষ্ম-টিউন করতে পারি, কিন্তু মডেলটিকে এমন কিছু ভুলে যাওয়া অনেক কঠিন যা এটি ইতিমধ্যেই শিখেছে।" কৌশল ম্যানুয়ালি ডেটা ফিল্টার করার একটি পদ্ধতি, তবে, সময়সাপেক্ষ এবং ব্যয়বহুল। একটি ওপেন-সোর্স ফ্রেমওয়ার্ক যা বর্তমানে ডেটা-কেন্দ্রিক AI অনুশীলনের জন্য জনপ্রিয়। এটি আপনাকে আপনার প্রশিক্ষিত এমএল মডেলের আউটপুটগুলিতে ডেটা মানের অ্যালগরিদম চালানোর অনুমতি দেয় যাতে লেবেল ত্রুটি, আউটলায়ার, ড্রিফট এবং আরও অনেক কিছুর মতো সাধারণ ডেটাসেট সমস্যাগুলি সনাক্ত করা যায়। Cleanlab প্যাকেজ কোডের মাত্র কয়েকটি লাইনের সাহায্যে, আপনি স্বয়ংক্রিয়ভাবে বিভিন্ন ধরণের ডেটা যেমন চিত্র, পাঠ্য, টেবুলার এবং অডিওতে সমস্যাগুলি খুঁজে পেতে এবং সনাক্ত করতে পারেন৷ ক্লিনল্যাব প্যাকেজ ব্যবহার করে, আপনি কীভাবে আপনার ডেটাসেট এবং মডেলকে উন্নত করবেন, আপনার এমএল মডেলকে পুনরায় প্রশিক্ষণ দেবেন এবং আপনার বিদ্যমান কোডে কোনো পরিবর্তন ছাড়াই এর কার্যকারিতা উন্নত করতে পারবেন তা নির্ধারণ করতে পারেন। ক্লিনল্যাব স্টুডিও, অন্যদিকে, ক্লিনল্যাব প্যাকেজের একটি এক্সটেনশনের চেয়েও বেশি কিছু; এটি একটি নো-কোড প্ল্যাটফর্ম যা বাস্তব-বিশ্বের ডেটাসেটে সমস্যাগুলি খুঁজে পেতে এবং সমাধান করার জন্য ডিজাইন করা হয়েছে৷ এটি কেবল সমস্যাগুলি সনাক্ত করেই থেমে থাকে না বরং ডেটা কিউরেশন এবং সংশোধন পরিচালনায় আরও এগিয়ে যায় এবং এমনকি কাঁচা ডেটাকে নির্ভরযোগ্য এমএল বা অ্যানালিটিক্সে পরিণত করার প্রায় সমস্ত কঠিন অংশগুলিকে স্বয়ংক্রিয় করে। ডেটা-কেন্দ্রিক AI-এর শক্তি প্রদর্শনের জন্য Cleanlab প্যাকেজটি ব্যবহার করা যাক। 1. তথ্য প্রস্তুত করা এবং সূক্ষ্ম টিউনিং আমরা দিয়ে শুরু করি। নিশ্চিত করুন যে আপনি এবং সেট লোড করেছেন। এই ডেমোতে, আমরা প্রথমে ক্লিনল্যাব ছাড়াই 3-শ্রেণির শ্রেণীবিভাগের জন্য Davinci LLM-কে ফাইন-টিউন করব, এবং তারপর দেখব কীভাবে আমরা ডেটা-কেন্দ্রিকতার সাথে নির্ভুলতা উন্নত করতে পারি। আমরা একটি মডেল প্রশিক্ষণের জন্য একটি সাধারণ bash কমান্ড চালাতে পারি। স্ট্যানফোর্ড ভদ্রতা ডেটাসেট ট্রেন পরীক্ষার !openai api fine_tunes.create -t "train_prepared.jsonl" -v "test_prepared.jsonl" --compute_classification_metrics --classification_n_classes 3 -m davinci --suffix "baseline" এটি হয়ে গেলে, পরীক্ষার নির্ভুলতা দেখতে আমরা একটি এন্ডপয়েন্ট জিজ্ঞাসা করতে পারি। fine_tunes.results !openai api fine_tunes.results -i ft-9800F2gcVNzyMdTLKcMqAtJ5 > baseline.csv `df = pd.read_csv('baseline.csv') baseline_acc = df.iloc[-1]['classification/accuracy']` আমরা 63% নির্ভুলতার ফলাফল পাই। দেখা যাক আমরা এই উন্নতি করতে পারি কিনা। 2. ভবিষ্যদ্বাণীকৃত শ্রেণীর সম্ভাব্যতা প্রাপ্ত করুন এখন, এম্বেডিং গণনা করার জন্য ওপেনএআই-এর API ব্যবহার করা যাক এবং নমুনা বহির্ভূত পূর্বাভাসিত শ্রেণীর সম্ভাব্যতা পেতে একটি লজিস্টিক রিগ্রেশন মডেল ফিট করা যাক। # Get embeddings from OpenAI. from openai.embeddings_utils import get_embedding embedding_model = "text-similarity-davinci-001" train["embedding"] = train.prompt.apply(lambda x: get_embedding(x, engine=embedding_model)) embeddings = train["embedding"].values # Get out-of-sample predicted class probabilities via cross-validation. from sklearn.linear_model import LogisticRegression model = LogisticRegression() labels = train["completion"].values pred_probs = cross_val_predict(estimator=model, X=embeddings, y=labels, cv=10, method="predict_proba") কোডের মাত্র একটি লাইন দিয়ে, Cleanlab অনুমান করে যে কোন উদাহরণে আমাদের প্রশিক্ষণ ডেটাসেটে লেবেল সমস্যা আছে। from cleanlab.filter import find_label_issues এখন আমরা লেবেল সমস্যা আছে আনুমানিক উদাহরণ সূচক পেতে পারেন: issue_idx = find_label_issues(labels, pred_probs, return_indices_ranked_by='self_confidence') # sort indices by likelihood of label error 3. ফিল্টার লেবেল সমস্যা এবং পুনরায় ট্রেন এখন, আমরা স্বয়ংক্রিয়ভাবে সম্ভাব্য ভুল লেবেলযুক্ত উদাহরণগুলির সূচকগুলি বের করেছি, তাই আমরা সেগুলিকে সরাতে এবং একটি নতুন শ্রেণীবিভাগকে প্রশিক্ষণ দিতে পারি৷ # Remove the label errors train_cl = train.drop(issue_idx).reset_index(drop=True) format_data(train_cl, "train_cl.jsonl") এখন আরও ভাল ডেটা সহ আরও শক্তিশালী ক্লাসিফায়ারকে প্রশিক্ষণ দেওয়া যাক। !openai api fine_tunes.create -t "train_cl_prepared.jsonl" -v "test_prepared.jsonl" --compute_classification_metrics --classification_n_classes 3 -m davinci --suffix "dropped" # Evaluate model on test data !openai api fine_tunes.results -i ft-InhTRQGu11gIDlVJUt0LYbEx > cleanlab.csv df = pd.read_csv('cleanlab.csv') dropped_acc = df.iloc[-1]['classification/accuracy'] আমরা একটি অত্যাধুনিক ফাইন-টিউনেবল মডেল (GPT-3, যেমন আপনি GPT-4 ঠিক করতে পারবেন না) উন্নত করে, শুধুমাত্র স্বয়ংক্রিয়ভাবে ডেটাসেটকে কোনো পরিবর্তন ছাড়াই উন্নত করার মাধ্যমে, আমরা 66% এর বেশি নির্ভুলতা পাই। মডেলের কাছে। ক্লিনল্যাব স্টুডিওর সাহায্যে, ভুল লেবেলগুলিকে সরাসরি সরানোর পরিবর্তে স্বয়ংক্রিয়ভাবে ঠিক করাও সম্ভব, সঠিকতা আরও উন্নত করা। ক্লিনল্যাবের একটি দেখায় যে এটি 77% পর্যন্ত নির্ভুলতা নেয়। গাইড Takeaways ক্লিনল্যাবের মতো ডেটা-কেন্দ্রিক সরঞ্জামগুলি ব্যবহার করে, আপনি দক্ষতার সাথে ডেটা এবং লেবেল সমস্যাগুলি খুঁজে পেতে এবং ঠিক করতে পারেন, যা ডেভিন্সির মতো LLM-এর কর্মক্ষমতাতে উল্লেখযোগ্য উন্নতির দিকে পরিচালিত করে। এই পদ্ধতিটি মডেল আর্কিটেকচার বা হাইপারপ্যারামিটারগুলিকে পরিবর্তন করে না এবং শুধুমাত্র প্রশিক্ষণ ডেটার গুণমান বাড়ানোর উপর ফোকাস করে। এই নির্দেশিকায় বর্ণিত পদ্ধতিটি AI মডেলগুলিতে আরও বেশি নির্ভুলতা এবং দৃঢ়তা আনলক করার চাবিকাঠি হতে পারে, এমনকি GPT-5 এর মতো ভবিষ্যতের উন্নত এলএলএমগুলির সাথেও।