একটি AI ভূমিকম্পের জন্য প্রস্তুত হন! UCLA গবেষকদের একটি দল ( n, , , ) AGI-তে কিছু প্রধান কী ফেলেছে। এটি শুধুমাত্র গুরুতরভাবে মানব-শব্দযুক্ত এআই-এর কোড নয়, তবে তারা পুরো জিনিসটি ওপেন সোর্স করেছে। @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu এখন আপনি এটিকে প্রচুর নতুন, মানব-টীকাযুক্ত ডেটা খাওয়ানোর প্রয়োজন ছাড়াই আরও ভাল LLM বিকাশ করতে পারেন। প্রথমে, আসুন এখানে গেম-চেঞ্জারের উপর ফোকাস করি: একটি স্ব-শিক্ষক ভাষার মডেল। এই পদ্ধতিটি একটি ভাষা মডেল প্রচুর পরিমাণে নতুন, বাহ্যিকভাবে কিউরেট করা ডেটা ছাড়াই আরও ভাল এবং আরও ভাল হয়ে উঠতে পারে। নিজেকে শেখাতে দেয়, স্পিন পেশ করা হচ্ছে: সেলফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে আমি সম্পূর্ণ ডিপ-ডাইভ মোডে গিয়েছিলাম – তাদের পেপার পড়ি (" "), Google Gemini Ultra এবং GPT-4-এর সাথে , , এবং এর মতো ফোরামগুলির অন্তর্দৃষ্টিগুলি স্কোর করেছি৷ Turbo - এবং SPIN এর মূল ধারণা আমার প্রযুক্তি-প্রেমী রূপক মোজা বন্ধ করে দিয়েছে: সেল্ফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলগুলিকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে হ্যাকারনিউজ X Reddit- 'কথোপকথন অংশীদার' কৌশল একটি ভাষা মডেল দিয়ে শুরু করার কল্পনা করুন যা মৌলিক দক্ষতা আয়ত্ত করেছে (আসুন কথোপকথনমূলক শিষ্টাচার বলি)। SPIN-এর সাহায্যে, মডেলটি যা এটি ইতিমধ্যেই জানে তা থেকে একটি ডেটাসেট তৈরি করে৷ অভ্যন্তরীণ 'কথোপকথন' তৈরি করে, তাৎক্ষণিক জ্ঞানের প্রসার! দ্বিতীয় ধাপে একটি নতুন মডেল প্রকাশ করা এবং এটিকে একটি কাজ দেওয়া জড়িত: এবং প্রকৃত মানুষের যোগাযোগের মধ্যে পার্থক্য চিহ্নিত করুন। এটি মূল মডেলটিকে তার গেমটি আপ করতে বাধ্য করে, সনাক্তকরণ এড়াতে প্রতিটি প্রতিক্রিয়ার সাথে আরও বেশি হয়ে উঠছে। মেশিন-জেনারেটেড চ্যাট মানুষের মতো এখানে জিনিস আকর্ষণীয় হয় যেখানে. তারা দিয়ে শুরু করেছে ( সাথে ইতিমধ্যেই ফাইন-টিউন করা হয়েছে)। SPIN এই বেস মডেলের সাথে একটি পুনরাবৃত্ত প্রশিক্ষণ ব্যবস্থা চালু করেছে, টন নতুন বাহ্যিকভাবে তৈরি ডেটার উপর নির্ভর না করে এটিকে দ্রুতগতিতে উন্নত করেছে। zephyr-7b-sft-full আলট্রাচ্যাট কর্পাসের SPIN বনাম ঐতিহ্যগত AI প্রশিক্ষণ (DPO): একটি নতুন চ্যাম্পিয়ন? আমরা সাধারণত মনে করি মেশিন লার্নিং, বিশেষ করে এই বিশাল ভাষার মডেলগুলির জন্য, সাবধানে কিউরেট করা এবং লেবেলযুক্ত ডেটার বোটলোড প্রয়োজন। পদ্ধতিতে প্রশিক্ষণের জন্য মানুষ শ্রমসাধ্যভাবে এআই প্রতিক্রিয়াগুলিকে একে অপরের বিরুদ্ধে রেটিং দেয়। এটি শুধুমাত্র শ্রম-নিবিড় নয়, এটি একটি ডেটাসেট বৃদ্ধির সাথে সাথে বেলুন খরচও করে। ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিটিও) হল একটি প্রশিক্ষণ পদ্ধতি যেখানে পছন্দের ডেটাসেট ব্যবহার করে একটি মডেলকে সূক্ষ্মভাবে তৈরি করা হয়, প্রায়শই মানুষের বিচারের সাথে জড়িত থাকে যা নির্ধারণ করে যে মডেল-উত্পন্ন প্রতিক্রিয়াগুলির মধ্যে কোনটি পছন্দ করা হবে। এই পদ্ধতির জন্য নতুন ডেটা সংগ্রহ করা প্রয়োজন যেখানে প্রতিটি অংশকে এই পছন্দগুলির উপর ভিত্তি করে লেবেল করা হয়, যা সম্পদ-নিবিড় হতে পারে। বিপরীতে, SPIN ব্যবহার করে, উল্লেখযোগ্যভাবে নতুন ডেটার প্রয়োজনীয়তা হ্রাস করে। পুনরাবৃত্তিমূলক স্ব-প্লে প্রথম পুনরাবৃত্তির মাধ্যমে, , মডেলের কর্মক্ষমতা বাড়ানোর জন্য বিদ্যমান ডেটা ব্যবহারে এর কার্যকারিতা এবং কার্যকারিতা তুলে ধরে। SPIN-এর কর্মক্ষমতা ইতিমধ্যেই বেশিরভাগ ক্ষেত্রে DPO-কে ছাড়িয়ে গেছে SPIN অর্জন করে তার শক্তি প্রদর্শন করে৷ প্রক্রিয়া, পদ্ধতিগতভাবে একাধিক পুনরাবৃত্তি জুড়ে মডেলের কার্যকারিতা বৃদ্ধি করে, , বিশেষ করে TruthfulQA এবং GSM8k-এর মতো চ্যালেঞ্জিং বেঞ্চমার্কগুলিতে। আরও ব্যাপক ডেটাসেটে প্রশিক্ষিত মডেলগুলির সাথে অন-পার পারফরম্যান্স পুনরাবৃত্তিমূলক প্রশিক্ষণের উল্লেখযোগ্য উন্নতি প্রদর্শন করে সুতরাং, অতিরিক্ত মানব-টীকাযুক্ত ডেটার প্রয়োজন ছাড়াই, স্ব-খেলার মাধ্যমে তৈরি সিন্থেটিক ডেটাসেটগুলি দক্ষতার সাথে ব্যবহার করে SPIN DPO সহ প্রচলিত প্রশিক্ষণ পদ্ধতিগুলিকে ছাড়িয়ে যায়। SPIN এর শক্তি এবং খরচ কি? SPIN তার স্ব-খেলার গতিশীলতার সাথে একটি কার্ভবল নিক্ষেপ করে। এটিকে ভাষাগত বক্সিং রিংয়ে নিজের সাথে ঝগড়া করার মতো একটি ভাষা মডেলের মতো মনে করুন, প্রতিটি রাউন্ড এটিকে নতুন কৌশল শেখায়। স্পিনের ডেটা দক্ষতা নতুন মানব-টীকাযুক্ত ডেটাসেটের প্রয়োজনীয়তাকে বাইপাস করে। কিন্তু আরও গুরুত্বপূর্ণ, এটি , । উন্নতির লুপকে ত্বরান্বিত করে মডেলটিকে মানুষের মতো পাঠ্য তৈরিতে ক্রমবর্ধমান পারদর্শী করে তোলে স্পিন শুধুমাত্র বৃহত্তর বাহ্যিক ডেটাসেটগুলিতে প্রশিক্ষিত মডেলগুলির সাথে মেলে বলে মনে হয় না, তবে এটির পুনরাবৃত্ত শক্তি মানে ধারাবাহিক লাভ কারণ এটি মূলত নিজস্ব আউটপুট অধ্যয়ন করে। মাইন্ডব্লোয়িং, তাই না? ঠিক আছে, আসুন ঘরে হাতির কথা বলি – খরচ নুস রিসার্চের সহ-প্রতিষ্ঠাতা এর একটা পয়েন্ট আছে। এই বড় ভাষা মডেলগুলি বিনামূল্যের জন্য স্মার্ট হয় না৷ SPIN এর সাথে পুনরাবৃত্তিমূলকভাবে পুনরায় প্রশিক্ষণের সাথে প্রতিবার সুপারভাইজড ফাইন-টিউনিং (SFT) এর ব্যয়বহুল প্রক্রিয়া জড়িত। @Teknium1 যাইহোক, তিনি এটিও উল্লেখ করেছেন যে "আমি মনে করি এটি মূল্যবান!"। এছাড়াও, দ্রুত বিবর্তনের দীর্ঘমেয়াদী সুবিধা এবং মানব-টীকাযুক্ত ডেটার উপর সম্ভাব্য কম নির্ভরতা প্রাথমিক বিনিয়োগের চেয়ে বেশি? এটাই উত্তেজনাপূর্ণ প্রশ্ন! বুম! এটি ওপেন-সোর্স এআই টাইম মাত্র গতকাল, , ইউসিএলএ-তে কম্পিউটার বিজ্ঞানের সহযোগী অধ্যাপক এবং বাইটড্যান্সের এআই গবেষণার পরিচালক, ঘোষণা করেছেন যে যে । এর মানে শুধু কোড এবং ডেটাসেট নয়, আপনার নিজের AI যাত্রা শুরু করার জন্য প্রাক-প্রশিক্ষিত মডেল। কোয়ানকুয়ান গু কেউ এখন স্পিন মডেল এবং ডেটাসেট ব্যবহার করতে পারবেন স্পিন মানুষের চিন্তা প্রক্রিয়ার আয়না করে। মানবিক মনে হয় এমন পাঠ্য তৈরি করে, SPIN যুক্তির মৌলিক উপাদানগুলির দিকে ইঙ্গিত দেয় যা ভবিষ্যতে এআই করতে পারে। আপনি জানেন কিভাবে কিছু এলএলএম আউটপুট রোবোটিক ঠিক মনে হয়? ঠিক আছে, স্পিন আলাদা। এটি আসলে মানুষের চিন্তাভাবনার প্রতিফলন করে। এটি যেভাবে লেখে তা খুবই স্বাভাবিক মনে হয়, এটি একটি উঁকি দেওয়ার মতো যে ভবিষ্যতে এআই কীভাবে নিজেদের জন্য যুক্তি দিতে পারে। এটি কেবল চ্যাটবটগুলিকে আরও সুন্দর করে তোলার বিষয়ে নয়। এটি এক ধরনের ডিজিটাল চিন্তাভাবনা তৈরি করার বিষয়ে যা আমাদের মতো কাজ করে। এই ধরনের AI অনেক বেশি নমনীয় এবং বাস্তব বোঝার জন্য সক্ষম হবে। যদিও SPIN ভাষা মডেলগুলিকে আরও স্বাভাবিক করে তোলার ক্ষেত্রে একটি বড় অগ্রগতি, । তবে উত্তেজিত হওয়া এবং এর অর্থ কী তা অতিরিক্ত মূল্যায়ন করা সহজ এটি যে পাঠ্যটি তৈরি করে তা চিত্তাকর্ষক (আপনি ডাটাবেসের দিকে নজর দিতে পারেন), তবে এটি মনে রাখা গুরুত্বপূর্ণ যে AI এর এখনও সত্যিকারের স্বাধীন যুক্তির ক্ষমতা নেই। যদিও SPIN সত্য নয়, এটি যেভাবে মানুষের মতো লেখার নকল করে তা প্রমাণ করে যে কীভাবে AI প্রক্রিয়া করতে পারে এবং ভবিষ্যতে ভাষা ব্যবহার করতে পারে। AGI তবুও, এটি ভবিষ্যতে কীভাবে এআই এবং ভাষা বিকাশ করতে পারে তার জন্য আশ্চর্যজনক সম্ভাবনার পরামর্শ দেয় (যদি আপনি মনে রাখেন যে আমরা হকি স্টিকের শুরুতে আছি, ভবিষ্যত আজ থেকে খুব বেশি দূরে নয়...) লহরের প্রভাবগুলি বিশাল হবে এবং এখানে আপনার অ্যাক্সেস পাস রয়েছে: কোড: এ উপলব্ধ: GitHub https://github.com/uclaml/SPIN ডেটা: এ হোস্ট করা, যারা SPIN পদ্ধতি প্রয়োগ করতে আগ্রহী তাদের জন্য ডেটাসেটটি সহজেই অ্যাক্সেসযোগ্য: হাগিং ফেস- https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… মডেল: প্রাক-প্রশিক্ষিত মডেলগুলিও পাওয়া যায়, SPIN-বর্ধিত ভাষার মডেলগুলির সাথে পরীক্ষা করার জন্য একটি প্রধান সূচনা অফার করে: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… প্রকল্প পৃষ্ঠা: ব্যাপক অন্তর্দৃষ্টি এবং আরও তথ্যের জন্য, প্রকল্প পৃষ্ঠাটি একটি অমূল্য সম্পদ: https://uclaml.github.io/SPIN/ সংক্ষেপে, এর পুনরাবৃত্তিমূলক, স্ব-উন্নতি পদ্ধতি এলএলএম তৈরির দিকে একটি উল্লেখযোগ্য অগ্রগতি যা সত্যিকারের মানুষের মতো যোগাযোগে নিযুক্ত হতে পারে। মূলত আমার শেয়ার করা হয়েছে। এক্স অ্যাকাউন্টে