একটি AI ভূমিকম্পের জন্য প্রস্তুত হন! UCLA গবেষকদের একটি দল ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) AGI-তে কিছু প্রধান কী ফেলেছে। এটি শুধুমাত্র গুরুতরভাবে মানব-শব্দযুক্ত এআই-এর কোড নয়, তবে তারা পুরো জিনিসটি ওপেন সোর্স করেছে।
এখন আপনি এটিকে প্রচুর নতুন, মানব-টীকাযুক্ত ডেটা খাওয়ানোর প্রয়োজন ছাড়াই আরও ভাল LLM বিকাশ করতে পারেন।
প্রথমে, আসুন এখানে গেম-চেঞ্জারের উপর ফোকাস করি: একটি স্ব-শিক্ষক ভাষার মডেল।
এই পদ্ধতিটি একটি ভাষা মডেল নিজেকে শেখাতে দেয়, প্রচুর পরিমাণে নতুন, বাহ্যিকভাবে কিউরেট করা ডেটা ছাড়াই আরও ভাল এবং আরও ভাল হয়ে উঠতে পারে।
আমি সম্পূর্ণ ডিপ-ডাইভ মোডে গিয়েছিলাম – তাদের পেপার পড়ি (" সেল্ফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলগুলিকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে "), Google Gemini Ultra এবং GPT-4-এর সাথে হ্যাকারনিউজ , X , এবং Reddit- এর মতো ফোরামগুলির অন্তর্দৃষ্টিগুলি স্কোর করেছি৷ Turbo - এবং SPIN এর মূল ধারণা আমার প্রযুক্তি-প্রেমী রূপক মোজা বন্ধ করে দিয়েছে:
একটি ভাষা মডেল দিয়ে শুরু করার কল্পনা করুন যা মৌলিক দক্ষতা আয়ত্ত করেছে (আসুন কথোপকথনমূলক শিষ্টাচার বলি)। SPIN-এর সাহায্যে, মডেলটি অভ্যন্তরীণ 'কথোপকথন' তৈরি করে, যা এটি ইতিমধ্যেই জানে তা থেকে একটি ডেটাসেট তৈরি করে৷
তাৎক্ষণিক জ্ঞানের প্রসার!
দ্বিতীয় ধাপে একটি নতুন মডেল প্রকাশ করা এবং এটিকে একটি কাজ দেওয়া জড়িত: মেশিন-জেনারেটেড চ্যাট এবং প্রকৃত মানুষের যোগাযোগের মধ্যে পার্থক্য চিহ্নিত করুন। এটি মূল মডেলটিকে তার গেমটি আপ করতে বাধ্য করে, সনাক্তকরণ এড়াতে প্রতিটি প্রতিক্রিয়ার সাথে আরও বেশি মানুষের মতো হয়ে উঠছে।
এখানে জিনিস আকর্ষণীয় হয় যেখানে. তারা zephyr-7b-sft-full দিয়ে শুরু করেছে ( আলট্রাচ্যাট কর্পাসের সাথে ইতিমধ্যেই ফাইন-টিউন করা হয়েছে)। SPIN এই বেস মডেলের সাথে একটি পুনরাবৃত্ত প্রশিক্ষণ ব্যবস্থা চালু করেছে, টন নতুন বাহ্যিকভাবে তৈরি ডেটার উপর নির্ভর না করে এটিকে দ্রুতগতিতে উন্নত করেছে।
আমরা সাধারণত মনে করি মেশিন লার্নিং, বিশেষ করে এই বিশাল ভাষার মডেলগুলির জন্য, সাবধানে কিউরেট করা এবং লেবেলযুক্ত ডেটার বোটলোড প্রয়োজন। ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) পদ্ধতিতে প্রশিক্ষণের জন্য মানুষ শ্রমসাধ্যভাবে এআই প্রতিক্রিয়াগুলিকে একে অপরের বিরুদ্ধে রেটিং দেয়। এটি শুধুমাত্র শ্রম-নিবিড় নয়, এটি একটি ডেটাসেট বৃদ্ধির সাথে সাথে বেলুন খরচও করে।
ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিটিও) হল একটি প্রশিক্ষণ পদ্ধতি যেখানে পছন্দের ডেটাসেট ব্যবহার করে একটি মডেলকে সূক্ষ্মভাবে তৈরি করা হয়, প্রায়শই মানুষের বিচারের সাথে জড়িত থাকে যা নির্ধারণ করে যে মডেল-উত্পন্ন প্রতিক্রিয়াগুলির মধ্যে কোনটি পছন্দ করা হবে। এই পদ্ধতির জন্য নতুন ডেটা সংগ্রহ করা প্রয়োজন যেখানে প্রতিটি অংশকে এই পছন্দগুলির উপর ভিত্তি করে লেবেল করা হয়, যা সম্পদ-নিবিড় হতে পারে।
বিপরীতে, SPIN পুনরাবৃত্তিমূলক স্ব-প্লে ব্যবহার করে, উল্লেখযোগ্যভাবে নতুন ডেটার প্রয়োজনীয়তা হ্রাস করে।
প্রথম পুনরাবৃত্তির মাধ্যমে, SPIN-এর কর্মক্ষমতা ইতিমধ্যেই বেশিরভাগ ক্ষেত্রে DPO-কে ছাড়িয়ে গেছে , মডেলের কর্মক্ষমতা বাড়ানোর জন্য বিদ্যমান ডেটা ব্যবহারে এর কার্যকারিতা এবং কার্যকারিতা তুলে ধরে।
SPIN আরও ব্যাপক ডেটাসেটে প্রশিক্ষিত মডেলগুলির সাথে অন-পার পারফরম্যান্স অর্জন করে তার শক্তি প্রদর্শন করে৷ পুনরাবৃত্তিমূলক প্রশিক্ষণের প্রক্রিয়া, পদ্ধতিগতভাবে একাধিক পুনরাবৃত্তি জুড়ে মডেলের কার্যকারিতা বৃদ্ধি করে, উল্লেখযোগ্য উন্নতি প্রদর্শন করে , বিশেষ করে TruthfulQA এবং GSM8k-এর মতো চ্যালেঞ্জিং বেঞ্চমার্কগুলিতে।
সুতরাং, অতিরিক্ত মানব-টীকাযুক্ত ডেটার প্রয়োজন ছাড়াই, স্ব-খেলার মাধ্যমে তৈরি সিন্থেটিক ডেটাসেটগুলি দক্ষতার সাথে ব্যবহার করে SPIN DPO সহ প্রচলিত প্রশিক্ষণ পদ্ধতিগুলিকে ছাড়িয়ে যায়।
SPIN তার স্ব-খেলার গতিশীলতার সাথে একটি কার্ভবল নিক্ষেপ করে।
এটিকে ভাষাগত বক্সিং রিংয়ে নিজের সাথে ঝগড়া করার মতো একটি ভাষা মডেলের মতো মনে করুন, প্রতিটি রাউন্ড এটিকে নতুন কৌশল শেখায়।
স্পিনের ডেটা দক্ষতা নতুন মানব-টীকাযুক্ত ডেটাসেটের প্রয়োজনীয়তাকে বাইপাস করে।
কিন্তু আরও গুরুত্বপূর্ণ, এটি উন্নতির লুপকে ত্বরান্বিত করে , মডেলটিকে মানুষের মতো পাঠ্য তৈরিতে ক্রমবর্ধমান পারদর্শী করে তোলে ।
স্পিন শুধুমাত্র বৃহত্তর বাহ্যিক ডেটাসেটগুলিতে প্রশিক্ষিত মডেলগুলির সাথে মেলে বলে মনে হয় না, তবে এটির পুনরাবৃত্ত শক্তি মানে ধারাবাহিক লাভ কারণ এটি মূলত নিজস্ব আউটপুট অধ্যয়ন করে।
মাইন্ডব্লোয়িং, তাই না?
নুস রিসার্চের সহ-প্রতিষ্ঠাতা @Teknium1 এর একটা পয়েন্ট আছে। এই বড় ভাষা মডেলগুলি বিনামূল্যের জন্য স্মার্ট হয় না৷ SPIN এর সাথে পুনরাবৃত্তিমূলকভাবে পুনরায় প্রশিক্ষণের সাথে প্রতিবার সুপারভাইজড ফাইন-টিউনিং (SFT) এর ব্যয়বহুল প্রক্রিয়া জড়িত।
যাইহোক, তিনি এটিও উল্লেখ করেছেন যে "আমি মনে করি এটি মূল্যবান!"। এছাড়াও, দ্রুত বিবর্তনের দীর্ঘমেয়াদী সুবিধা এবং মানব-টীকাযুক্ত ডেটার উপর সম্ভাব্য কম নির্ভরতা প্রাথমিক বিনিয়োগের চেয়ে বেশি? এটাই উত্তেজনাপূর্ণ প্রশ্ন!
মাত্র গতকাল, কোয়ানকুয়ান গু , ইউসিএলএ-তে কম্পিউটার বিজ্ঞানের সহযোগী অধ্যাপক এবং বাইটড্যান্সের এআই গবেষণার পরিচালক, ঘোষণা করেছেন যে যে কেউ এখন স্পিন মডেল এবং ডেটাসেট ব্যবহার করতে পারবেন । এর মানে শুধু কোড এবং ডেটাসেট নয়, আপনার নিজের AI যাত্রা শুরু করার জন্য প্রাক-প্রশিক্ষিত মডেল।
স্পিন মানুষের চিন্তা প্রক্রিয়ার আয়না করে।
মানবিক মনে হয় এমন পাঠ্য তৈরি করে, SPIN যুক্তির মৌলিক উপাদানগুলির দিকে ইঙ্গিত দেয় যা ভবিষ্যতে এআই করতে পারে। আপনি জানেন কিভাবে কিছু এলএলএম আউটপুট রোবোটিক ঠিক মনে হয়? ঠিক আছে, স্পিন আলাদা। এটি আসলে মানুষের চিন্তাভাবনার প্রতিফলন করে। এটি যেভাবে লেখে তা খুবই স্বাভাবিক মনে হয়, এটি একটি উঁকি দেওয়ার মতো যে ভবিষ্যতে এআই কীভাবে নিজেদের জন্য যুক্তি দিতে পারে।
এটি কেবল চ্যাটবটগুলিকে আরও সুন্দর করে তোলার বিষয়ে নয়।
এটি এক ধরনের ডিজিটাল চিন্তাভাবনা তৈরি করার বিষয়ে যা আমাদের মতো কাজ করে। এই ধরনের AI অনেক বেশি নমনীয় এবং বাস্তব বোঝার জন্য সক্ষম হবে।
যদিও SPIN ভাষা মডেলগুলিকে আরও স্বাভাবিক করে তোলার ক্ষেত্রে একটি বড় অগ্রগতি, তবে উত্তেজিত হওয়া এবং এর অর্থ কী তা অতিরিক্ত মূল্যায়ন করা সহজ ।
এটি যে পাঠ্যটি তৈরি করে তা চিত্তাকর্ষক (আপনি ডাটাবেসের দিকে নজর দিতে পারেন), তবে এটি মনে রাখা গুরুত্বপূর্ণ যে AI এর এখনও সত্যিকারের স্বাধীন যুক্তির ক্ষমতা নেই।
যদিও SPIN সত্য AGI নয়, এটি যেভাবে মানুষের মতো লেখার নকল করে তা প্রমাণ করে যে কীভাবে AI প্রক্রিয়া করতে পারে এবং ভবিষ্যতে ভাষা ব্যবহার করতে পারে।
তবুও, এটি ভবিষ্যতে কীভাবে এআই এবং ভাষা বিকাশ করতে পারে তার জন্য আশ্চর্যজনক সম্ভাবনার পরামর্শ দেয় (যদি আপনি মনে রাখেন যে আমরা হকি স্টিকের শুরুতে আছি, ভবিষ্যত আজ থেকে খুব বেশি দূরে নয়...)
লহরের প্রভাবগুলি বিশাল হবে এবং এখানে আপনার অ্যাক্সেস পাস রয়েছে:
সংক্ষেপে, এর পুনরাবৃত্তিমূলক, স্ব-উন্নতি পদ্ধতি এলএলএম তৈরির দিকে একটি উল্লেখযোগ্য অগ্রগতি যা সত্যিকারের মানুষের মতো যোগাযোগে নিযুক্ত হতে পারে।
মূলত আমার এক্স অ্যাকাউন্টে শেয়ার করা হয়েছে।