paint-brush
এজিআই ব্লুপ্রিন্ট? UCLA গবেষকরা ওপেন-সোর্স স্পিন—একটি স্ব-উন্নতিশীল ভাষা মডেলদ্বারা@youraimarketer
2,693 পড়া
2,693 পড়া

এজিআই ব্লুপ্রিন্ট? UCLA গবেষকরা ওপেন-সোর্স স্পিন—একটি স্ব-উন্নতিশীল ভাষা মডেল

দ্বারা Muratcan Koylan5m2024/02/12
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ইউসিএলএ গবেষকরা স্পিন প্রবর্তন করেছেন, একটি স্ব-শিক্ষক ভাষার মডেল যা মানুষের মতো পাঠ্য প্রজন্মের সাথে AI-তে বিপ্লব ঘটায়। SPIN-এর ওপেন-সোর্স রিলিজটি এর ক্ষমতাগুলিতে অভূতপূর্ব অ্যাক্সেস অফার করে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অগ্রগতির পথ প্রশস্ত করে এবং সত্যিকারের মানুষের মতো যোগাযোগ করতে সক্ষম AI মডেলগুলির বিকাশের পথ তৈরি করে৷
featured image - এজিআই ব্লুপ্রিন্ট? UCLA গবেষকরা ওপেন-সোর্স স্পিন—একটি স্ব-উন্নতিশীল ভাষা মডেল
Muratcan Koylan HackerNoon profile picture


একটি AI ভূমিকম্পের জন্য প্রস্তুত হন! UCLA গবেষকদের একটি দল ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) AGI-তে কিছু প্রধান কী ফেলেছে। এটি শুধুমাত্র গুরুতরভাবে মানব-শব্দযুক্ত এআই-এর কোড নয়, তবে তারা পুরো জিনিসটি ওপেন সোর্স করেছে।


এখন আপনি এটিকে প্রচুর নতুন, মানব-টীকাযুক্ত ডেটা খাওয়ানোর প্রয়োজন ছাড়াই আরও ভাল LLM বিকাশ করতে পারেন।


প্রথমে, আসুন এখানে গেম-চেঞ্জারের উপর ফোকাস করি: একটি স্ব-শিক্ষক ভাষার মডেল।

এই পদ্ধতিটি একটি ভাষা মডেল নিজেকে শেখাতে দেয়, প্রচুর পরিমাণে নতুন, বাহ্যিকভাবে কিউরেট করা ডেটা ছাড়াই আরও ভাল এবং আরও ভাল হয়ে উঠতে পারে।


স্পিন পেশ করা হচ্ছে: সেলফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে

আমি সম্পূর্ণ ডিপ-ডাইভ মোডে গিয়েছিলাম – তাদের পেপার পড়ি (" সেল্ফ-প্লে ফাইন-টিউনিং দুর্বল ভাষার মডেলগুলিকে শক্তিশালী ভাষার মডেলে রূপান্তরিত করে "), Google Gemini Ultra এবং GPT-4-এর সাথে হ্যাকারনিউজ , X , এবং Reddit- এর মতো ফোরামগুলির অন্তর্দৃষ্টিগুলি স্কোর করেছি৷ Turbo - এবং SPIN এর মূল ধারণা আমার প্রযুক্তি-প্রেমী রূপক মোজা বন্ধ করে দিয়েছে:

'কথোপকথন অংশীদার' কৌশল

একটি ভাষা মডেল দিয়ে শুরু করার কল্পনা করুন যা মৌলিক দক্ষতা আয়ত্ত করেছে (আসুন কথোপকথনমূলক শিষ্টাচার বলি)। SPIN-এর সাহায্যে, মডেলটি অভ্যন্তরীণ 'কথোপকথন' তৈরি করে, যা এটি ইতিমধ্যেই জানে তা থেকে একটি ডেটাসেট তৈরি করে৷


তাৎক্ষণিক জ্ঞানের প্রসার!


দ্বিতীয় ধাপে একটি নতুন মডেল প্রকাশ করা এবং এটিকে একটি কাজ দেওয়া জড়িত: মেশিন-জেনারেটেড চ্যাট এবং প্রকৃত মানুষের যোগাযোগের মধ্যে পার্থক্য চিহ্নিত করুন। এটি মূল মডেলটিকে তার গেমটি আপ করতে বাধ্য করে, সনাক্তকরণ এড়াতে প্রতিটি প্রতিক্রিয়ার সাথে আরও বেশি মানুষের মতো হয়ে উঠছে।

এখানে জিনিস আকর্ষণীয় হয় যেখানে. তারা zephyr-7b-sft-full দিয়ে শুরু করেছে ( আলট্রাচ্যাট কর্পাসের সাথে ইতিমধ্যেই ফাইন-টিউন করা হয়েছে)। SPIN এই বেস মডেলের সাথে একটি পুনরাবৃত্ত প্রশিক্ষণ ব্যবস্থা চালু করেছে, টন নতুন বাহ্যিকভাবে তৈরি ডেটার উপর নির্ভর না করে এটিকে দ্রুতগতিতে উন্নত করেছে।


SPIN বনাম ঐতিহ্যগত AI প্রশিক্ষণ (DPO): একটি নতুন চ্যাম্পিয়ন?

আমরা সাধারণত মনে করি মেশিন লার্নিং, বিশেষ করে এই বিশাল ভাষার মডেলগুলির জন্য, সাবধানে কিউরেট করা এবং লেবেলযুক্ত ডেটার বোটলোড প্রয়োজন। ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিপিও) পদ্ধতিতে প্রশিক্ষণের জন্য মানুষ শ্রমসাধ্যভাবে এআই প্রতিক্রিয়াগুলিকে একে অপরের বিরুদ্ধে রেটিং দেয়। এটি শুধুমাত্র শ্রম-নিবিড় নয়, এটি একটি ডেটাসেট বৃদ্ধির সাথে সাথে বেলুন খরচও করে।


ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান (ডিটিও) হল একটি প্রশিক্ষণ পদ্ধতি যেখানে পছন্দের ডেটাসেট ব্যবহার করে একটি মডেলকে সূক্ষ্মভাবে তৈরি করা হয়, প্রায়শই মানুষের বিচারের সাথে জড়িত থাকে যা নির্ধারণ করে যে মডেল-উত্পন্ন প্রতিক্রিয়াগুলির মধ্যে কোনটি পছন্দ করা হবে। এই পদ্ধতির জন্য নতুন ডেটা সংগ্রহ করা প্রয়োজন যেখানে প্রতিটি অংশকে এই পছন্দগুলির উপর ভিত্তি করে লেবেল করা হয়, যা সম্পদ-নিবিড় হতে পারে।


বিপরীতে, SPIN পুনরাবৃত্তিমূলক স্ব-প্লে ব্যবহার করে, উল্লেখযোগ্যভাবে নতুন ডেটার প্রয়োজনীয়তা হ্রাস করে।

প্রথম পুনরাবৃত্তির মাধ্যমে, SPIN-এর কর্মক্ষমতা ইতিমধ্যেই বেশিরভাগ ক্ষেত্রে DPO-কে ছাড়িয়ে গেছে , মডেলের কর্মক্ষমতা বাড়ানোর জন্য বিদ্যমান ডেটা ব্যবহারে এর কার্যকারিতা এবং কার্যকারিতা তুলে ধরে।



SPIN আরও ব্যাপক ডেটাসেটে প্রশিক্ষিত মডেলগুলির সাথে অন-পার পারফরম্যান্স অর্জন করে তার শক্তি প্রদর্শন করে৷ পুনরাবৃত্তিমূলক প্রশিক্ষণের প্রক্রিয়া, পদ্ধতিগতভাবে একাধিক পুনরাবৃত্তি জুড়ে মডেলের কার্যকারিতা বৃদ্ধি করে, উল্লেখযোগ্য উন্নতি প্রদর্শন করে , বিশেষ করে TruthfulQA এবং GSM8k-এর মতো চ্যালেঞ্জিং বেঞ্চমার্কগুলিতে।


সুতরাং, অতিরিক্ত মানব-টীকাযুক্ত ডেটার প্রয়োজন ছাড়াই, স্ব-খেলার মাধ্যমে তৈরি সিন্থেটিক ডেটাসেটগুলি দক্ষতার সাথে ব্যবহার করে SPIN DPO সহ প্রচলিত প্রশিক্ষণ পদ্ধতিগুলিকে ছাড়িয়ে যায়।


SPIN এর শক্তি এবং খরচ কি?

SPIN তার স্ব-খেলার গতিশীলতার সাথে একটি কার্ভবল নিক্ষেপ করে।

এটিকে ভাষাগত বক্সিং রিংয়ে নিজের সাথে ঝগড়া করার মতো একটি ভাষা মডেলের মতো মনে করুন, প্রতিটি রাউন্ড এটিকে নতুন কৌশল শেখায়।


স্পিনের ডেটা দক্ষতা নতুন মানব-টীকাযুক্ত ডেটাসেটের প্রয়োজনীয়তাকে বাইপাস করে।

কিন্তু আরও গুরুত্বপূর্ণ, এটি উন্নতির লুপকে ত্বরান্বিত করে , মডেলটিকে মানুষের মতো পাঠ্য তৈরিতে ক্রমবর্ধমান পারদর্শী করে তোলে


স্পিন শুধুমাত্র বৃহত্তর বাহ্যিক ডেটাসেটগুলিতে প্রশিক্ষিত মডেলগুলির সাথে মেলে বলে মনে হয় না, তবে এটির পুনরাবৃত্ত শক্তি মানে ধারাবাহিক লাভ কারণ এটি মূলত নিজস্ব আউটপুট অধ্যয়ন করে।

মাইন্ডব্লোয়িং, তাই না?

ঠিক আছে, আসুন ঘরে হাতির কথা বলি – খরচ

নুস রিসার্চের সহ-প্রতিষ্ঠাতা @Teknium1 এর একটা পয়েন্ট আছে। এই বড় ভাষা মডেলগুলি বিনামূল্যের জন্য স্মার্ট হয় না৷ SPIN এর সাথে পুনরাবৃত্তিমূলকভাবে পুনরায় প্রশিক্ষণের সাথে প্রতিবার সুপারভাইজড ফাইন-টিউনিং (SFT) এর ব্যয়বহুল প্রক্রিয়া জড়িত।


যাইহোক, তিনি এটিও উল্লেখ করেছেন যে "আমি মনে করি এটি মূল্যবান!"। এছাড়াও, দ্রুত বিবর্তনের দীর্ঘমেয়াদী সুবিধা এবং মানব-টীকাযুক্ত ডেটার উপর সম্ভাব্য কম নির্ভরতা প্রাথমিক বিনিয়োগের চেয়ে বেশি? এটাই উত্তেজনাপূর্ণ প্রশ্ন!


বুম! এটি ওপেন-সোর্স এআই টাইম

মাত্র গতকাল, কোয়ানকুয়ান গু , ইউসিএলএ-তে কম্পিউটার বিজ্ঞানের সহযোগী অধ্যাপক এবং বাইটড্যান্সের এআই গবেষণার পরিচালক, ঘোষণা করেছেন যে যে কেউ এখন স্পিন মডেল এবং ডেটাসেট ব্যবহার করতে পারবেন । এর মানে শুধু কোড এবং ডেটাসেট নয়, আপনার নিজের AI যাত্রা শুরু করার জন্য প্রাক-প্রশিক্ষিত মডেল।


স্পিন মানুষের চিন্তা প্রক্রিয়ার আয়না করে।


মানবিক মনে হয় এমন পাঠ্য তৈরি করে, SPIN যুক্তির মৌলিক উপাদানগুলির দিকে ইঙ্গিত দেয় যা ভবিষ্যতে এআই করতে পারে। আপনি জানেন কিভাবে কিছু এলএলএম আউটপুট রোবোটিক ঠিক মনে হয়? ঠিক আছে, স্পিন আলাদা। এটি আসলে মানুষের চিন্তাভাবনার প্রতিফলন করে। এটি যেভাবে লেখে তা খুবই স্বাভাবিক মনে হয়, এটি একটি উঁকি দেওয়ার মতো যে ভবিষ্যতে এআই কীভাবে নিজেদের জন্য যুক্তি দিতে পারে।


এটি কেবল চ্যাটবটগুলিকে আরও সুন্দর করে তোলার বিষয়ে নয়।


এটি এক ধরনের ডিজিটাল চিন্তাভাবনা তৈরি করার বিষয়ে যা আমাদের মতো কাজ করে। এই ধরনের AI অনেক বেশি নমনীয় এবং বাস্তব বোঝার জন্য সক্ষম হবে।


যদিও SPIN ভাষা মডেলগুলিকে আরও স্বাভাবিক করে তোলার ক্ষেত্রে একটি বড় অগ্রগতি, তবে উত্তেজিত হওয়া এবং এর অর্থ কী তা অতিরিক্ত মূল্যায়ন করা সহজ


এটি যে পাঠ্যটি তৈরি করে তা চিত্তাকর্ষক (আপনি ডাটাবেসের দিকে নজর দিতে পারেন), তবে এটি মনে রাখা গুরুত্বপূর্ণ যে AI এর এখনও সত্যিকারের স্বাধীন যুক্তির ক্ষমতা নেই।


যদিও SPIN সত্য AGI নয়, এটি যেভাবে মানুষের মতো লেখার নকল করে তা প্রমাণ করে যে কীভাবে AI প্রক্রিয়া করতে পারে এবং ভবিষ্যতে ভাষা ব্যবহার করতে পারে।


তবুও, এটি ভবিষ্যতে কীভাবে এআই এবং ভাষা বিকাশ করতে পারে তার জন্য আশ্চর্যজনক সম্ভাবনার পরামর্শ দেয় (যদি আপনি মনে রাখেন যে আমরা হকি স্টিকের শুরুতে আছি, ভবিষ্যত আজ থেকে খুব বেশি দূরে নয়...)


লহরের প্রভাবগুলি বিশাল হবে এবং এখানে আপনার অ্যাক্সেস পাস রয়েছে:



সংক্ষেপে, এর পুনরাবৃত্তিমূলক, স্ব-উন্নতি পদ্ধতি এলএলএম তৈরির দিকে একটি উল্লেখযোগ্য অগ্রগতি যা সত্যিকারের মানুষের মতো যোগাযোগে নিযুক্ত হতে পারে।


মূলত আমার এক্স অ্যাকাউন্টে শেয়ার করা হয়েছে।