এআই বিপ্লব কয়েক দশক ধরে তৈরি হয়েছিল। এটি ছিল উত্তেজনায় ভরা একটি ক্ষেত্র, তবুও প্রায়শই হতাশা এবং "   " দ্বারা বিরামচিহ্নিত। কিন্তু সম্প্রতি কিছু পরিবর্তন হয়েছে। ChatGPT, Claude এবং Bard এর মতো বড় ভাষার মডেল (LLMs) ল্যাবরেটরির কৌতূহল থেকে AI কে   নিয়ে গেছে। এআই শীত মূলধারায়  এই পরিবর্তনটি শুধুমাত্র AI এর বিজয় ছিল না বরং বড় এবং অগোছালো ডেটার জটিলতার উপরও একটি বিজয় ছিল। কথায় আছে, "আবর্জনা ভিতরে, আবর্জনা আউট।" নতুন টুল আবির্ভূত হচ্ছে যা অন্তর্নিহিত ডেটার উন্নতিতে ফোকাস করে, তাই এলএলএম-এর উন্নতি।  এলএলএম এর ডাবল চ্যালেঞ্জ  "লার্জ ল্যাঙ্গুয়েজ মডেল" শব্দটি এর মধ্যে দুটি বড় চ্যালেঞ্জ রয়েছে। প্রথমত, ডেটার নিছক ভলিউম। আমরা GPT-4-এর জন্য একটি   (এক মিলিয়ন গিগাবাইট) ডেটার উপরে কথা বলছি, লক্ষ লক্ষ বই, ব্লগ, সোশ্যাল মিডিয়া পোস্ট, ভিডিও ট্রান্সক্রিপ্ট এবং আরও অনেক কিছুকে অন্তর্ভুক্ত করে৷ এই বিশাল স্কেলটি বিশাল সম্ভাবনার প্রস্তাব দেয় তবে তা উল্লেখযোগ্য যৌক্তিক বিবেচনার বিষয়ও তুলে ধরে। পেটাবাইট  দ্বিতীয়ত, প্রাকৃতিক ভাষার জটিলতা। প্রসঙ্গ-নির্ভর, অস্পষ্ট, এবং বৈচিত্র্যময়, ভাষার ডেটা একটি বন্য জন্তু যা এমনকি সেরা অ্যালগরিদমগুলিও নিয়ন্ত্রণ করতে লড়াই করে। এই সমস্ত ডেটাকে সঠিকভাবে লেবেল করা অসম্ভব, যার অবশ্যম্ভাবী অর্থ হল এমনকি অত্যাধুনিক এলএলএমগুলিও ভুলভাবে লেবেল করা ডেটার উপর প্রশিক্ষিত।  এই চ্যালেঞ্জগুলি মোকাবেলায়, নতুন ডেটা-কেন্দ্রিক সরঞ্জাম এবং পদ্ধতির আবির্ভাব হয়েছে, যা এআই যা করতে সক্ষম তাতে সত্যিকারের লাফ দিতে সক্ষম হয়েছে। ক্লিনল্যাব এবং অন্যদের মতো সমাধানগুলি বিভিন্ন তথ্য সংগ্রহ, স্বয়ংক্রিয় মান নিয়ন্ত্রণ, এবং AI মডেলগুলির জন্য উপযুক্ত একটি ফর্মে ভাষা প্রক্রিয়া করার উপায় অফার করতে শুরু করে।  এই সরঞ্জামগুলি কেবল ক্রমবর্ধমান উন্নতির প্রস্তাব দেয়নি; তারা মৌলিকভাবে এআই ডেটা হ্যান্ডলিং পদ্ধতির নতুন আকার দিয়েছে। তারা একটি ম্যানুয়াল, ত্রুটি-প্রবণ প্রক্রিয়া থেকে বৃহৎ মাপের ভাষা ডেটা পরিচালনা করার কাজটিকে একটি স্বয়ংক্রিয়, সুনির্দিষ্ট একটিতে রূপান্তরিত করেছে, ক্ষেত্রের গণতন্ত্রীকরণ এবং অভূতপূর্ব গতিতে অগ্রগতি সক্ষম করে।  কেন ডেটা-কেন্দ্রিক AI প্রয়োজন (একটি পাইথন ডেমো সহ)  AI-তে, বাস্তব-বিশ্বের ডেটাসেটে   রয়েছে। এই অপূর্ণতাগুলি উল্লেখযোগ্যভাবে প্রশিক্ষণ এবং মূল্যায়নকে বাধা দেয়। ডেটা-কেন্দ্রিক AI ডেটাসেটের গুণমান উন্নত করার উপর জোর দেয়। 7-50% পর্যন্ত টীকা সংক্রান্ত ত্রুটি  উদাহরণস্বরূপ, OpenAI-এর   এই জোরকে চিত্রিত করে: “আমরা সমস্ত ভাল ডেটা ছেড়ে যাওয়ার চেয়ে সমস্ত খারাপ ডেটা ফিল্টার করাকে অগ্রাধিকার দিয়েছি। এর কারণ হল আমরা সবসময় আমাদের মডেলটিকে নতুন জিনিস শেখানোর জন্য পরবর্তীতে আরও ডেটা দিয়ে সূক্ষ্ম-টিউন করতে পারি, কিন্তু মডেলটিকে এমন কিছু ভুলে যাওয়া অনেক কঠিন যা এটি ইতিমধ্যেই শিখেছে।" কৌশল  ম্যানুয়ালি ডেটা ফিল্টার করার একটি পদ্ধতি, তবে, সময়সাপেক্ষ এবং ব্যয়বহুল।   একটি ওপেন-সোর্স ফ্রেমওয়ার্ক যা বর্তমানে ডেটা-কেন্দ্রিক AI অনুশীলনের জন্য জনপ্রিয়। এটি আপনাকে আপনার প্রশিক্ষিত এমএল মডেলের আউটপুটগুলিতে ডেটা মানের অ্যালগরিদম চালানোর অনুমতি দেয় যাতে লেবেল ত্রুটি, আউটলায়ার, ড্রিফট এবং আরও অনেক কিছুর মতো সাধারণ ডেটাসেট সমস্যাগুলি সনাক্ত করা যায়। Cleanlab প্যাকেজ  কোডের মাত্র কয়েকটি লাইনের সাহায্যে, আপনি স্বয়ংক্রিয়ভাবে বিভিন্ন ধরণের ডেটা যেমন চিত্র, পাঠ্য, টেবুলার এবং অডিওতে সমস্যাগুলি খুঁজে পেতে এবং সনাক্ত করতে পারেন৷ ক্লিনল্যাব প্যাকেজ ব্যবহার করে, আপনি কীভাবে আপনার ডেটাসেট এবং মডেলকে উন্নত করবেন, আপনার এমএল মডেলকে পুনরায় প্রশিক্ষণ দেবেন এবং আপনার বিদ্যমান কোডে কোনো পরিবর্তন ছাড়াই এর কার্যকারিতা উন্নত করতে পারবেন তা নির্ধারণ করতে পারেন।  ক্লিনল্যাব স্টুডিও, অন্যদিকে, ক্লিনল্যাব প্যাকেজের একটি এক্সটেনশনের চেয়েও বেশি কিছু; এটি একটি নো-কোড প্ল্যাটফর্ম যা বাস্তব-বিশ্বের ডেটাসেটে সমস্যাগুলি খুঁজে পেতে এবং সমাধান করার জন্য ডিজাইন করা হয়েছে৷ এটি কেবল সমস্যাগুলি সনাক্ত করেই থেমে থাকে না বরং ডেটা কিউরেশন এবং সংশোধন পরিচালনায় আরও এগিয়ে যায় এবং এমনকি কাঁচা ডেটাকে নির্ভরযোগ্য এমএল বা অ্যানালিটিক্সে পরিণত করার প্রায় সমস্ত কঠিন অংশগুলিকে স্বয়ংক্রিয় করে।  ডেটা-কেন্দ্রিক AI-এর শক্তি প্রদর্শনের জন্য Cleanlab প্যাকেজটি ব্যবহার করা যাক।  1. তথ্য প্রস্তুত করা এবং সূক্ষ্ম টিউনিং  আমরা   দিয়ে শুরু করি। নিশ্চিত করুন যে আপনি   এবং   সেট লোড করেছেন। এই ডেমোতে, আমরা প্রথমে ক্লিনল্যাব ছাড়াই 3-শ্রেণির শ্রেণীবিভাগের জন্য Davinci LLM-কে ফাইন-টিউন করব, এবং তারপর দেখব কীভাবে আমরা ডেটা-কেন্দ্রিকতার সাথে নির্ভুলতা উন্নত করতে পারি। আমরা একটি মডেল প্রশিক্ষণের জন্য একটি সাধারণ bash কমান্ড চালাতে পারি। স্ট্যানফোর্ড ভদ্রতা ডেটাসেট ট্রেন পরীক্ষার   !openai api fine_tunes.create -t "train_prepared.jsonl" -v "test_prepared.jsonl" --compute_classification_metrics --classification_n_classes 3 -m davinci --suffix "baseline"  এটি হয়ে গেলে, পরীক্ষার নির্ভুলতা দেখতে আমরা একটি   এন্ডপয়েন্ট জিজ্ঞাসা করতে পারি। fine_tunes.results   !openai api fine_tunes.results -i ft-9800F2gcVNzyMdTLKcMqAtJ5 > baseline.csv  `df = pd.read_csv('baseline.csv')  baseline_acc = df.iloc[-1]['classification/accuracy']`  আমরা 63% নির্ভুলতার ফলাফল পাই। দেখা যাক আমরা এই উন্নতি করতে পারি কিনা।  2. ভবিষ্যদ্বাণীকৃত শ্রেণীর সম্ভাব্যতা প্রাপ্ত করুন  এখন, এম্বেডিং গণনা করার জন্য ওপেনএআই-এর API ব্যবহার করা যাক এবং নমুনা বহির্ভূত পূর্বাভাসিত শ্রেণীর সম্ভাব্যতা পেতে একটি লজিস্টিক রিগ্রেশন মডেল ফিট করা যাক।   # Get embeddings from OpenAI. from openai.embeddings_utils import get_embedding   embedding_model = "text-similarity-davinci-001" train["embedding"] = train.prompt.apply(lambda x: get_embedding(x, engine=embedding_model)) embeddings = train["embedding"].values   # Get out-of-sample predicted class probabilities via cross-validation.   from sklearn.linear_model import LogisticRegression   model = LogisticRegression() labels = train["completion"].values pred_probs = cross_val_predict(estimator=model, X=embeddings, y=labels, cv=10, method="predict_proba")  কোডের মাত্র একটি লাইন দিয়ে, Cleanlab অনুমান করে যে কোন উদাহরণে আমাদের প্রশিক্ষণ ডেটাসেটে লেবেল সমস্যা আছে।   from cleanlab.filter import find_label_issues  এখন আমরা লেবেল সমস্যা আছে আনুমানিক উদাহরণ সূচক পেতে পারেন:   issue_idx = find_label_issues(labels, pred_probs, return_indices_ranked_by='self_confidence') # sort indices by likelihood of label error  3. ফিল্টার লেবেল সমস্যা এবং পুনরায় ট্রেন  এখন, আমরা স্বয়ংক্রিয়ভাবে সম্ভাব্য ভুল লেবেলযুক্ত উদাহরণগুলির সূচকগুলি বের করেছি, তাই আমরা সেগুলিকে সরাতে এবং একটি নতুন শ্রেণীবিভাগকে প্রশিক্ষণ দিতে পারি৷   # Remove the label errors   train_cl = train.drop(issue_idx).reset_index(drop=True) format_data(train_cl, "train_cl.jsonl")  এখন আরও ভাল ডেটা সহ আরও শক্তিশালী ক্লাসিফায়ারকে প্রশিক্ষণ দেওয়া যাক।   !openai api fine_tunes.create -t "train_cl_prepared.jsonl" -v "test_prepared.jsonl" --compute_classification_metrics --classification_n_classes 3 -m davinci --suffix "dropped"   # Evaluate model on test data   !openai api fine_tunes.results -i ft-InhTRQGu11gIDlVJUt0LYbEx > cleanlab.csv df = pd.read_csv('cleanlab.csv') dropped_acc = df.iloc[-1]['classification/accuracy']  আমরা একটি অত্যাধুনিক ফাইন-টিউনেবল মডেল (GPT-3, যেমন আপনি GPT-4 ঠিক করতে পারবেন না) উন্নত করে, শুধুমাত্র স্বয়ংক্রিয়ভাবে ডেটাসেটকে কোনো পরিবর্তন ছাড়াই উন্নত করার মাধ্যমে, আমরা 66% এর বেশি নির্ভুলতা পাই। মডেলের কাছে।  ক্লিনল্যাব স্টুডিওর সাহায্যে, ভুল লেবেলগুলিকে সরাসরি সরানোর পরিবর্তে স্বয়ংক্রিয়ভাবে ঠিক করাও সম্ভব, সঠিকতা আরও উন্নত করা। ক্লিনল্যাবের একটি   দেখায় যে এটি 77% পর্যন্ত নির্ভুলতা নেয়। গাইড  Takeaways  ক্লিনল্যাবের মতো ডেটা-কেন্দ্রিক সরঞ্জামগুলি ব্যবহার করে, আপনি দক্ষতার সাথে ডেটা এবং লেবেল সমস্যাগুলি খুঁজে পেতে এবং ঠিক করতে পারেন, যা ডেভিন্সির মতো LLM-এর কর্মক্ষমতাতে উল্লেখযোগ্য উন্নতির দিকে পরিচালিত করে। এই পদ্ধতিটি মডেল আর্কিটেকচার বা হাইপারপ্যারামিটারগুলিকে পরিবর্তন করে না এবং শুধুমাত্র প্রশিক্ষণ ডেটার গুণমান বাড়ানোর উপর ফোকাস করে।  এই নির্দেশিকায় বর্ণিত পদ্ধতিটি AI মডেলগুলিতে আরও বেশি নির্ভুলতা এবং দৃঢ়তা আনলক করার চাবিকাঠি হতে পারে, এমনকি GPT-5 এর মতো ভবিষ্যতের উন্নত এলএলএমগুলির সাথেও।

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This story contains new, firsthand information uncovered by the writer.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Let's connect!

গল্পের মূল ভাষায় এই অডিও তৈরি!

মাত্র কয়েকটি লাইনের কোড দিয়ে যেকোনো এলএলএমকে আরও নির্ভুল কীভাবে করা যায়

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps