একটি AI ভূমিকম্পের জন্য প্রস্তুত হন! UCLA গবেষকদের একটি দল (   n,   ,   ,     ) AGI-তে কিছু প্রধান কী ফেলেছে। এটি শুধুমাত্র গুরুতরভাবে মানব-শব্দযুক্ত এআই-এর কোড নয়, তবে তারা পুরো জিনিসটি ওপেন সোর্স করেছে। @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu  এখন আপনি এটিকে প্রচুর নতুন, মানব-টীকাযুক্ত ডেটা খাওয়ানোর প্রয়োজন ছাড়াই আরও ভাল LLM বিকাশ করতে পারেন।   প্রথমে, আসুন এখানে গেম-চেঞ্জারের উপর ফোকাস করি: একটি স্ব-শিক্ষক ভাষার মডেল।  এই পদ্ধতিটি একটি ভাষা মডেল   প্রচুর পরিমাণে নতুন, বাহ্যিকভাবে কিউরেট করা ডেটা ছাড়াই আরও ভাল এবং আরও ভাল হয়ে উঠতে পারে। নিজেকে শেখাতে দেয়,  স্পিন পেশ করা হচ্ছে: সেলফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে  আমি সম্পূর্ণ ডিপ-ডাইভ মোডে গিয়েছিলাম – তাদের পেপার পড়ি ("   "), Google Gemini Ultra এবং GPT-4-এর সাথে   ,   , এবং   এর মতো ফোরামগুলির অন্তর্দৃষ্টিগুলি স্কোর করেছি৷ Turbo - এবং SPIN এর মূল ধারণা আমার প্রযুক্তি-প্রেমী রূপক মোজা বন্ধ করে দিয়েছে: সেল্ফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলগুলিকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে হ্যাকারনিউজ X Reddit-  'কথোপকথন অংশীদার' কৌশল  একটি ভাষা মডেল দিয়ে শুরু করার কল্পনা করুন যা মৌলিক দক্ষতা আয়ত্ত করেছে (আসুন কথোপকথনমূলক শিষ্টাচার বলি)। SPIN-এর সাহায্যে, মডেলটি   যা এটি ইতিমধ্যেই জানে তা থেকে একটি ডেটাসেট তৈরি করে৷ অভ্যন্তরীণ 'কথোপকথন' তৈরি করে,   তাৎক্ষণিক জ্ঞানের প্রসার!  দ্বিতীয় ধাপে একটি নতুন মডেল প্রকাশ করা এবং এটিকে একটি কাজ দেওয়া জড়িত:   এবং প্রকৃত মানুষের যোগাযোগের মধ্যে পার্থক্য চিহ্নিত করুন। এটি মূল মডেলটিকে তার গেমটি আপ করতে বাধ্য করে, সনাক্তকরণ এড়াতে প্রতিটি প্রতিক্রিয়ার সাথে আরও বেশি   হয়ে উঠছে। মেশিন-জেনারেটেড চ্যাট মানুষের মতো  এখানে জিনিস আকর্ষণীয় হয় যেখানে. তারা   দিয়ে শুরু করেছে (   সাথে ইতিমধ্যেই ফাইন-টিউন করা হয়েছে)। SPIN এই বেস মডেলের সাথে একটি পুনরাবৃত্ত প্রশিক্ষণ ব্যবস্থা চালু করেছে, টন নতুন বাহ্যিকভাবে তৈরি ডেটার উপর নির্ভর না করে এটিকে দ্রুতগতিতে উন্নত করেছে। zephyr-7b-sft-full আলট্রাচ্যাট কর্পাসের  SPIN বনাম ঐতিহ্যগত AI প্রশিক্ষণ (DPO): একটি নতুন চ্যাম্পিয়ন?  আমরা সাধারণত মনে করি মেশিন লার্নিং, বিশেষ করে এই বিশাল ভাষার মডেলগুলির জন্য, সাবধানে কিউরেট করা এবং লেবেলযুক্ত ডেটার বোটলোড প্রয়োজন।   পদ্ধতিতে প্রশিক্ষণের জন্য মানুষ শ্রমসাধ্যভাবে এআই প্রতিক্রিয়াগুলিকে একে অপরের বিরুদ্ধে রেটিং দেয়। এটি শুধুমাত্র শ্রম-নিবিড় নয়, এটি একটি ডেটাসেট বৃদ্ধির সাথে সাথে বেলুন খরচও করে। ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও)  ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিটিও) হল একটি প্রশিক্ষণ পদ্ধতি যেখানে পছন্দের ডেটাসেট ব্যবহার করে একটি মডেলকে সূক্ষ্মভাবে তৈরি করা হয়, প্রায়শই মানুষের বিচারের সাথে জড়িত থাকে যা নির্ধারণ করে যে মডেল-উত্পন্ন প্রতিক্রিয়াগুলির মধ্যে কোনটি পছন্দ করা হবে। এই পদ্ধতির জন্য নতুন ডেটা সংগ্রহ করা প্রয়োজন যেখানে প্রতিটি অংশকে এই পছন্দগুলির উপর ভিত্তি করে লেবেল করা হয়, যা সম্পদ-নিবিড় হতে পারে।  বিপরীতে, SPIN   ব্যবহার করে, উল্লেখযোগ্যভাবে নতুন ডেটার প্রয়োজনীয়তা হ্রাস করে। পুনরাবৃত্তিমূলক স্ব-প্লে  প্রথম পুনরাবৃত্তির মাধ্যমে,   , মডেলের কর্মক্ষমতা বাড়ানোর জন্য বিদ্যমান ডেটা ব্যবহারে এর কার্যকারিতা এবং কার্যকারিতা তুলে ধরে।  SPIN-এর কর্মক্ষমতা ইতিমধ্যেই বেশিরভাগ ক্ষেত্রে DPO-কে ছাড়িয়ে গেছে  SPIN   অর্জন করে তার শক্তি প্রদর্শন করে৷   প্রক্রিয়া, পদ্ধতিগতভাবে একাধিক পুনরাবৃত্তি জুড়ে মডেলের কার্যকারিতা বৃদ্ধি করে,   , বিশেষ করে TruthfulQA এবং GSM8k-এর মতো চ্যালেঞ্জিং বেঞ্চমার্কগুলিতে।  আরও ব্যাপক ডেটাসেটে প্রশিক্ষিত মডেলগুলির সাথে অন-পার পারফরম্যান্স পুনরাবৃত্তিমূলক প্রশিক্ষণের উল্লেখযোগ্য উন্নতি প্রদর্শন করে  সুতরাং, অতিরিক্ত মানব-টীকাযুক্ত ডেটার প্রয়োজন ছাড়াই, স্ব-খেলার মাধ্যমে তৈরি সিন্থেটিক ডেটাসেটগুলি দক্ষতার সাথে ব্যবহার করে SPIN DPO সহ প্রচলিত প্রশিক্ষণ পদ্ধতিগুলিকে ছাড়িয়ে যায়।  SPIN এর শক্তি এবং খরচ কি?  SPIN তার স্ব-খেলার গতিশীলতার সাথে একটি কার্ভবল নিক্ষেপ করে।  এটিকে ভাষাগত বক্সিং রিংয়ে নিজের সাথে ঝগড়া করার মতো একটি ভাষা মডেলের মতো মনে করুন, প্রতিটি রাউন্ড এটিকে নতুন কৌশল শেখায়।  স্পিনের ডেটা দক্ষতা নতুন মানব-টীকাযুক্ত ডেটাসেটের প্রয়োজনীয়তাকে বাইপাস করে।  কিন্তু আরও গুরুত্বপূর্ণ, এটি   ,   । উন্নতির লুপকে ত্বরান্বিত করে মডেলটিকে মানুষের মতো পাঠ্য তৈরিতে ক্রমবর্ধমান পারদর্শী করে তোলে  স্পিন শুধুমাত্র বৃহত্তর বাহ্যিক ডেটাসেটগুলিতে প্রশিক্ষিত মডেলগুলির সাথে মেলে বলে মনে হয় না, তবে এটির পুনরাবৃত্ত শক্তি মানে ধারাবাহিক লাভ কারণ এটি মূলত নিজস্ব আউটপুট অধ্যয়ন করে।  মাইন্ডব্লোয়িং, তাই না?  ঠিক আছে, আসুন ঘরে হাতির কথা বলি – খরচ  নুস রিসার্চের সহ-প্রতিষ্ঠাতা   এর একটা পয়েন্ট আছে। এই বড় ভাষা মডেলগুলি বিনামূল্যের জন্য স্মার্ট হয় না৷ SPIN এর সাথে পুনরাবৃত্তিমূলকভাবে পুনরায় প্রশিক্ষণের সাথে প্রতিবার সুপারভাইজড ফাইন-টিউনিং (SFT) এর ব্যয়বহুল প্রক্রিয়া জড়িত। @Teknium1  যাইহোক, তিনি এটিও উল্লেখ করেছেন যে "আমি মনে করি এটি মূল্যবান!"। এছাড়াও, দ্রুত বিবর্তনের দীর্ঘমেয়াদী সুবিধা এবং মানব-টীকাযুক্ত ডেটার উপর সম্ভাব্য কম নির্ভরতা প্রাথমিক বিনিয়োগের চেয়ে বেশি? এটাই উত্তেজনাপূর্ণ প্রশ্ন!  বুম! এটি ওপেন-সোর্স এআই টাইম  মাত্র গতকাল,   , ইউসিএলএ-তে কম্পিউটার বিজ্ঞানের সহযোগী অধ্যাপক এবং বাইটড্যান্সের এআই গবেষণার পরিচালক, ঘোষণা করেছেন যে যে   । এর মানে শুধু কোড এবং ডেটাসেট নয়, আপনার নিজের AI যাত্রা শুরু করার জন্য প্রাক-প্রশিক্ষিত মডেল। কোয়ানকুয়ান গু কেউ এখন স্পিন মডেল এবং ডেটাসেট ব্যবহার করতে পারবেন   স্পিন মানুষের চিন্তা প্রক্রিয়ার আয়না করে।  মানবিক মনে হয় এমন পাঠ্য তৈরি করে, SPIN যুক্তির মৌলিক উপাদানগুলির দিকে ইঙ্গিত দেয় যা ভবিষ্যতে এআই করতে পারে। আপনি জানেন কিভাবে কিছু এলএলএম আউটপুট রোবোটিক ঠিক মনে হয়? ঠিক আছে, স্পিন আলাদা। এটি আসলে মানুষের চিন্তাভাবনার প্রতিফলন করে। এটি যেভাবে লেখে তা খুবই স্বাভাবিক মনে হয়, এটি একটি উঁকি দেওয়ার মতো যে ভবিষ্যতে এআই কীভাবে নিজেদের জন্য যুক্তি দিতে পারে।  এটি কেবল চ্যাটবটগুলিকে আরও সুন্দর করে তোলার বিষয়ে নয়।    এটি এক ধরনের ডিজিটাল চিন্তাভাবনা তৈরি করার বিষয়ে যা আমাদের মতো কাজ করে। এই ধরনের AI অনেক বেশি নমনীয় এবং বাস্তব বোঝার জন্য সক্ষম হবে।  যদিও SPIN ভাষা মডেলগুলিকে আরও স্বাভাবিক করে তোলার ক্ষেত্রে একটি বড় অগ্রগতি,   । তবে উত্তেজিত হওয়া এবং এর অর্থ কী তা অতিরিক্ত মূল্যায়ন করা সহজ  এটি যে পাঠ্যটি তৈরি করে তা চিত্তাকর্ষক (আপনি ডাটাবেসের দিকে নজর দিতে পারেন), তবে এটি মনে রাখা গুরুত্বপূর্ণ যে AI এর এখনও সত্যিকারের স্বাধীন যুক্তির ক্ষমতা নেই।  যদিও SPIN সত্য   নয়, এটি যেভাবে মানুষের মতো লেখার নকল করে তা প্রমাণ করে যে কীভাবে AI প্রক্রিয়া করতে পারে এবং ভবিষ্যতে ভাষা ব্যবহার করতে পারে। AGI  তবুও, এটি ভবিষ্যতে কীভাবে এআই এবং ভাষা বিকাশ করতে পারে তার জন্য আশ্চর্যজনক সম্ভাবনার পরামর্শ দেয় (যদি আপনি মনে রাখেন যে আমরা হকি স্টিকের শুরুতে আছি, ভবিষ্যত আজ থেকে খুব বেশি দূরে নয়...)  লহরের প্রভাবগুলি বিশাল হবে এবং এখানে আপনার অ্যাক্সেস পাস রয়েছে:  কোড:   এ উপলব্ধ:  GitHub https://github.com/uclaml/SPIN  ডেটা:   এ হোস্ট করা, যারা SPIN পদ্ধতি প্রয়োগ করতে আগ্রহী তাদের জন্য ডেটাসেটটি সহজেই অ্যাক্সেসযোগ্য:  হাগিং ফেস- https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…  মডেল: প্রাক-প্রশিক্ষিত মডেলগুলিও পাওয়া যায়, SPIN-বর্ধিত ভাষার মডেলগুলির সাথে পরীক্ষা করার জন্য একটি প্রধান সূচনা অফার করে:  https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…  প্রকল্প পৃষ্ঠা: ব্যাপক অন্তর্দৃষ্টি এবং আরও তথ্যের জন্য, প্রকল্প পৃষ্ঠাটি একটি অমূল্য সম্পদ:  https://uclaml.github.io/SPIN/  সংক্ষেপে, এর পুনরাবৃত্তিমূলক, স্ব-উন্নতি পদ্ধতি এলএলএম তৈরির দিকে একটি উল্লেখযোগ্য অগ্রগতি যা সত্যিকারের মানুষের মতো যোগাযোগে নিযুক্ত হতে পারে।  মূলত আমার   শেয়ার করা হয়েছে। এক্স অ্যাকাউন্টে

Let's connect and explore together!

Read My Stories

গল্পের মূল ভাষায় এই অডিও তৈরি!

এজিআই ব্লুপ্রিন্ট? UCLA গবেষকরা ওপেন-সোর্স স্পিন—একটি স্ব-উন্নতিশীল ভাষা মডেল

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps