এটি একটি প্রবন্ধ যেখানে সপ্তাহান্তে মেশিন লার্নিং প্রযুক্তির বর্তমান অবস্থার উপর কিছু প্রতিফলন রয়েছে যার একটি বিশেষ ফোকাস LLMs ওরফে AI এবং আমাদের বর্তমান ইতিহাসে।
আমরা এই উত্তেজনাপূর্ণ এককতা জিনিসটিতে ঝাঁপিয়ে পড়ার আগে, আমি উল্লেখ করতে চাই যে, একটি প্রবন্ধ হিসাবে, এটি একটি আরও ব্যক্তিগত এবং কম আনুষ্ঠানিক লেখা, প্রাকৃতিক ভাষা বোঝার বিবর্তন সম্পর্কে আমার দৃষ্টিভঙ্গি ভাগ করে এবং সেই প্রসঙ্গে গুরুত্বপূর্ণ কিছু ধারণা তুলে ধরে। . এটি একটি বিস্তৃত শিল্প প্রতিবেদন নয় বা এটি একটি হওয়ার জন্যও ছিল না, তবে আমি আশা করি এটি মেশিন লার্নিং ইঞ্জিনিয়ারদের জন্য এবং বর্তমান এআই অভ্যুত্থানে আগ্রহী একটি বৃহত্তর দর্শকদের জন্য একটি আকর্ষণীয় পাঠ হবে।
গল্পটির তিনটি অংশ রয়েছে:
ইতিহাসের অংশটি সংক্ষিপ্তভাবে আমাদের স্মরণ করিয়ে দেয় কিভাবে আমরা মাত্র বারো বছরে একটি মাল্টিলেয়ার পারসেপ্ট্রন থেকে আমাদের বর্তমান AGI অবস্থায় পৌঁছেছি।
বর্তমান দিনের বিভাগটি এলএলএম- এর সাম্প্রতিক অর্জন এবং বর্তমান শিল্প প্রবণতাগুলির উপর দৃষ্টি নিবদ্ধ করে। আপনি যদি প্রেক্ষাপটের গভীরে থাকেন এবং কিছু নতুন ধারণা খুঁজছেন, তাহলে সেই অংশে যান।
রহস্যের অংশটি বর্তমান AGI পর্যায়ে কী অনুসরণ করতে পারে সে সম্পর্কে কিছু ধারণা উপস্থাপন করে।
সুতরাং, প্রথমত, মেশিন লার্নিং কিছু সময়ের জন্য, প্রায় এক দশক বা যুগান্তকারী, নির্ভর করে আপনি টমাস মিকোলভের word2vec প্রকাশনা থেকে বা Coursera-তে অ্যান্ড্রু এনজি-এর মেশিন লার্নিং কোর্স থেকে গণনা করছেন কিনা তার উপর। Kaggle 2010 সালে চালু করা হয়েছিল, এবং Fei-Fei Li 2009 সালে ইমেজনেট সংগ্রহ করেছিল৷ খুব বেশি দিন আগে নয়, আপনার বয়স 30 এর বেশি হলে আপনি সম্ভবত একমত হবেন৷
কিছু লোক তর্ক করবে যে মেশিন লার্নিং অনেক বেশি সময় ধরে আছে, কিন্তু আমি এখন শিল্পের গভীর শিক্ষার অ্যালগরিদম ওরফে প্রযুক্তিগত গতি গ্রহণের কথা বলছি, বিশুদ্ধ গবেষণার বিষয়ে নয়। এবং এখানে আমরা scikitlearn-এ আচ্ছাদিত ক্লাসিক ML অ্যালগরিদম, সমস্ত রিগ্রেশন, ক্লাস্টারিং এবং টাইম সিরিজের পূর্বাভাস ধরনের জিনিসগুলিকে স্পর্শ করছি না। তারা নীরবে তাদের গুরুত্বপূর্ণ কাজ করছে কিন্তু লোকেরা তাদের এআই বলে না, চারপাশে কোন হাইপ নেই, আপনি জানেন।
কেন AI বসন্ত 12 বছর আগে ঘটেছিল? গভীর শিক্ষা (একটি বহু-স্তর নিউরাল নেটওয়ার্কের সাথে ত্রুটির ব্যাক প্রচারের প্রশিক্ষণ) অবশেষে গড় GPU-তে সম্ভবপর হয়ে ওঠে। 2010 সালে সবচেয়ে সহজ নিউরাল নেটওয়ার্ক আর্কিটেকচার, একটি মাল্টি-লেয়ার পারসেপ্ট্রন, হাতে লেখা ডিজিট রিকগনিশনে (বিখ্যাত MNIST ডেটাসেট) অন্যান্য অ্যালগরিদমকে পরাজিত করেছিল, যার ফলাফল জুর্গেন স্মিডহুবার এট আল দ্বারা অর্জন করা হয়েছিল ।
2010 সালের দিকে সেই বিন্দু থেকে, প্রযুক্তি আরও বেশি শক্তিশালী হয়ে ওঠে। কিছু খেলা-পরিবর্তনকারী মুহূর্ত হয়েছে — বলা হয়েছে word2vec মডেল রিলিজ যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) জগতে শব্দার্থিক বোঝাপড়া নিয়ে এসেছে, টেনসরফ্লো এবং কেরাস ডিপ লার্নিং ফ্রেমওয়ার্কের পাবলিক রিলিজ, এবং অবশ্যই, এর উদ্ভাবন। 2017 সালে ট্রান্সফরমার , যা এখনও একটি SOTA নিউরাল নেটওয়ার্ক আর্কিটেকচার, যা NLP-এর বিশ্বের বাইরেও প্রসারিত হয়েছে। কেন এমন হল? কারণ ট্রান্সফরমারের মনোযোগ রয়েছে এবং এটি O(n2) জটিলতা সহ পাঠ্যের মতো সিকোয়েন্স পরিচালনা করতে সক্ষম যা ম্যাট্রিক্স গুণন পদ্ধতির দ্বারা সক্ষম করা হয়েছে যা আমাদের সম্পূর্ণ ইনপুট ক্রমটি দেখতে দেয়। আমার মতে ট্রান্সফরমারের সাফল্যের দ্বিতীয় কারণ হল নমনীয় এনকোডার-ডিকোডার আর্কিটেকচার যা আমাদেরকে যৌথভাবে এবং আলাদাভাবে মডেলগুলিকে প্রশিক্ষণ ও ব্যবহার করতে দেয় (ক্রম-থেকে-ক্রম বা সিকোয়েন্স-টু-ভেক্টর)।
ওপেনএআই জিপিটি ফ্যামিলি মডেলগুলি (ট্রান্সফরমার ডিকোডার) প্রযুক্তি শিল্পের বাইরে গিয়ে কিছু শব্দ করেছে যেহেতু GPT-3 ইতিমধ্যেই মোটামুটি মানবসদৃশ পাঠ্য তৈরি করতে পারে এবং কিছু-শট এবং কিছু শূন্য-শট শেখার জন্য সক্ষম ছিল। শেষ অংশটি আরও গুরুত্বপূর্ণ, GPT-3 কাগজটির এমনকি নাম দেওয়া হয়েছে "ভাষা মডেলগুলি অল্প-শট লার্নার্স" - উদাহরণ থেকে দ্রুত শিখতে বড় ভাষার মডেলগুলির এই ক্ষমতাটি 2020 সালে OpenAI দ্বারা প্রথম বলা হয়েছিল।
কিন্তু ঠ্যাং!
চ্যাটজিপিটি -এর রিলিজ এমন হাইপ নিয়ে এসেছে যা আমরা আগে কখনও দেখিনি, অবশেষে বিশাল জনসাধারণের দৃষ্টি আকর্ষণ করেছে। এবং এখন, GPT-4 এর বাইরে যাচ্ছে।
কেন এমন হল? গত 7 বছর ধরে, যেহেতু নিউরাল নেটওয়ার্কগুলি শালীন ফলাফল দেখাতে শুরু করেছে, আমরা যাকে AI বলে আসছি তা আসলে একটি সংকীর্ণ কৃত্রিম বুদ্ধিমত্তা — আমাদের মডেলগুলিকে কিছু নির্দিষ্ট কাজ সমাধান করার জন্য প্রশিক্ষিত করা হয়েছিল — বস্তুগুলিকে চিনতে, শ্রেণিবিন্যাস সম্পাদন করতে বা নিম্নলিখিত টোকেনগুলির পূর্বাভাস দেওয়া হয়েছিল অনুক্রমে এবং লোকেরা কেবল AGI- এর স্বপ্ন দেখছে - একটি কৃত্রিম সাধারণ বুদ্ধিমত্তা, যা মানব স্তরে একাধিক কাজ সম্পন্ন করতে সক্ষম।
প্রকৃতপক্ষে, নির্দেশ-ভিত্তিক এলএলএম টিউনিংয়ের সাথে কী ঘটেছিল, বা, যেমন তারা এটিকে ওপেনএআই বলে, মানুষের প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শেখার —
GPT-3.5+ মডেলগুলি অবশেষে প্রদত্ত তথ্যের উপর যুক্তি করার ক্ষমতা শিখেছে । এবং এটি জিনিসগুলিকে পরিবর্তন করে — LLM এর আগে একটি যুক্তিসঙ্গতভাবে ভাল পরিসংখ্যানগত তোতাপাখির কাছাকাছি ছিল, কিন্তু এখনও অনেক অ্যাপ্লিকেশন যেমন টেক্সট এম্বেডিং, ভেক্টর অনুসন্ধান, চ্যাটবট ইত্যাদির জন্য খুব দরকারী। কিন্তু নির্দেশ-ভিত্তিক প্রশিক্ষণের মাধ্যমে, তারা কার্যকরভাবে মানুষের কাছ থেকে যুক্তি শেখে। .
যুক্তি আসলে কি?
কিছু যৌক্তিক ক্রিয়াকলাপের মাধ্যমে সিদ্ধান্তে উপনীত হওয়ার জন্য প্রদত্ত তথ্য ব্যবহার করার ক্ষমতা। বলুন A এর সাথে B এবং B C এর সাথে সংযুক্ত, তাহলে A কি C এর সাথে সংযুক্ত? GPT-4 তাদের অফিসিয়াল পণ্যের পৃষ্ঠায় আরও জটিল যুক্তির উদাহরণ দেয়। মডেলের যুক্তি করার ক্ষমতা এতটাই শক্তিশালী এবং নমনীয় যে এটি শুধুমাত্র প্রদত্ত তথ্য নয়, "সাধারণ জ্ঞান" বা "সাধারণ জ্ঞান" ব্যবহার করে প্রদত্ত লক্ষ্য অর্জনের জন্য অনুসরণ করার জন্য নির্দেশাবলী বা যৌক্তিক ক্রিয়াকলাপগুলির একটি কাঠামোগত ক্রম তৈরি করতে পারে। প্রম্পটে
LLM-এর আগে, যুক্তির জন্য ভালভাবে ডিজাইন করা অন্য টুলটি ছিল একটি নলেজ গ্রাফ , যেখানে সত্তা এবং সত্ত্বার সম্পর্ক হিসাবে সত্তা এবং প্রান্ত রয়েছে। এটি তথ্য সঞ্চয়ের একটি ফর্ম যা স্পষ্ট যুক্তির ক্ষমতা প্রদান করে। কিছু সময়ে, আমি একটি প্রশ্ন-উত্তর সিস্টেম তৈরির সাথে জড়িত ছিলাম যা অন্যান্য জিনিসগুলির মধ্যে একটি জ্ঞান গ্রাফ ব্যবহার করে জিজ্ঞাসা করা তথ্য খুঁজে বের করে - আপনাকে কেবল উদ্দেশ্যটি সনাক্ত করতে হবে, গ্রাফে আমাদের এই ধরণের সম্পর্ক আছে কিনা তা দেখুন, দেখুন উল্লিখিত নির্দিষ্ট সত্তা, এবং, যদি তারা বিদ্যমান থাকে, এই সাবগ্রাফটি জিজ্ঞাসা করুন। প্রকৃতপক্ষে, এই পাইপলাইনটি একটি SPARQL ক্যোয়ারীতে প্রাকৃতিক ভাষায় কোয়েরির অনুবাদ প্রদান করেছে।
এখন আপনি আপনার প্রম্পটের প্রসঙ্গ অংশ হিসাবে মডেলটিকে প্লেইন টেক্সটে এই বাস্তব তথ্য সরবরাহ করতে পারেন এবং এটি এটিকে শূন্য-শটে "শিখবে" এবং এটির উপর যুক্তি দিতে সক্ষম হবে। বাহ, তাই না?
এবং আপনি গ্রাফে থাকা সত্তা এবং সম্পর্কের প্রকারের সংখ্যার মধ্যে সীমাবদ্ধ নন। এছাড়াও, আপনার কাছে সেই "সাধারণ জ্ঞান" আছে, আমাদের বিশ্বের ধারণা এবং তাদের সম্পর্কের সাধারণ ধারণা, যা মানুষের জ্ঞান থেকে মেশিন লার্নিং মডেলগুলিকে আলাদা করার সবচেয়ে জটিল অংশ ছিল। আমরা এমনকি খেয়াল করিনি কিভাবে আমরা প্রাকৃতিক ভাষায় নির্দেশনা দিতে সক্ষম হয়েছি এবং তারা খুব স্পষ্ট ব্যাখ্যা ছাড়াই সঠিকভাবে কাজ শুরু করেছে।
যুক্তি এবং জ্ঞান হল বুদ্ধিমত্তার দুটি গুরুত্বপূর্ণ উপাদান। গত 20 বছর ধরে, আমরা ইন্টারনেটে মোটামুটিভাবে সমস্ত মানব জ্ঞানকে উইকিপিডিয়া, বৈজ্ঞানিক প্রকাশনা, পরিষেবার বিবরণ, ব্লগ, কোটি কোটি লাইন কোড এবং স্ট্যাকওভারফ্লো উত্তর এবং সোশ্যাল মিডিয়ায় কোটি কোটি মতামত দিয়েছি।
এখন আমরা সেই জ্ঞান দিয়ে যুক্তি দিতে পারি।
GPT4-এর অফিসিয়াল OpenAI টেক রিপোর্টে এই যুক্তির ক্ষমতাগুলি ভালভাবে প্রদর্শিত হয়েছে:
GPT-4 এই পেশাগত এবং একাডেমিক পরীক্ষার বেশিরভাগ ক্ষেত্রে মানব-স্তরের কর্মক্ষমতা প্রদর্শন করে। উল্লেখযোগ্যভাবে, এটি ইউনিফর্ম বার পরীক্ষার একটি সিমুলেটেড সংস্করণ পরীক্ষার্থীদের মধ্যে শীর্ষ 10% স্কোর সহ পাস করে।
বেশ কিছু মানুষের পরীক্ষায় GPT-4 ফলাফল অনুসারে, আমরা AGI-এর আশেপাশে কোথাও রয়েছি — OpenAI এমনকি তাদের ওয়েবপেজে এই শব্দগুলি ব্যবহার করে, এবং সাম্প্রতিক Microsoft 150+ পৃষ্ঠাগুলির একটি পেপার যেখানে GPT-4 ক্ষমতার বিভিন্ন বিষয়ে গভীরভাবে অধ্যয়ন করা হয়েছে। "কৃত্রিম সাধারণ বুদ্ধিমত্তার স্পার্কস: GPT-4 এর সাথে প্রাথমিক পরীক্ষা" নামক ডোমেনগুলি সাবধানে কিন্তু স্পষ্টভাবে দাবি করে যে AGI এখানে রয়েছে:
GPT-4 এর ক্ষমতার প্রশস্ততা এবং গভীরতার পরিপ্রেক্ষিতে, আমরা বিশ্বাস করি যে এটিকে যুক্তিসঙ্গতভাবে একটি কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) সিস্টেমের একটি প্রাথমিক (এখনো এখনও অসম্পূর্ণ) সংস্করণ হিসাবে দেখা যেতে পারে।
এবং পরে:
GPT-4-এর সামর্থ্যের সাধারণতার সংমিশ্রণ, বিস্তৃত ডোমেনে বিস্তৃত অসংখ্য ক্ষমতা সহ, এবং মানব-স্তরে বা তার বাইরে কাজগুলির একটি বিস্তৃত বর্ণালীতে এর কার্যকারিতা, এই কথা বলতে আমাদের স্বাচ্ছন্দ্য বোধ করে যে GPT-4 একটি উল্লেখযোগ্য পদক্ষেপ। AGI এর দিকে।
এই দাবির কারণ হল:
সম্পূর্ণরূপে একটি ভাষার মডেল হওয়া সত্ত্বেও, GPT-4-এর এই প্রাথমিক সংস্করণটি বিমূর্ততা, বোঝাপড়া, দৃষ্টিভঙ্গি, কোডিং, গণিত, চিকিৎসা, আইন, মানুষের উদ্দেশ্য এবং আবেগ বোঝা এবং আরো
এবং পেরেক দিতে:
এমনকি প্রথম ধাপ হিসেবে, যদিও, GPT-4 মেশিন বুদ্ধিমত্তা সম্পর্কে যথেষ্ট সংখ্যক ব্যাপকভাবে অনুষ্ঠিত অনুমানকে চ্যালেঞ্জ করে, এবং উদ্ভূত আচরণ এবং ক্ষমতা প্রদর্শন করে যার উত্স এবং প্রক্রিয়াগুলি এই মুহূর্তে সঠিকভাবে বোঝা কঠিন <…>। এই কাগজটি রচনা করার ক্ষেত্রে আমাদের প্রাথমিক লক্ষ্য হল আমাদের মূল্যায়নের সমর্থনে যে একটি প্রযুক্তিগত উল্লম্ফন অর্জিত হয়েছে তার সমর্থনে GPT-4 এর ক্ষমতা এবং সীমাবদ্ধতাগুলির আমাদের অন্বেষণ শেয়ার করা। আমরা বিশ্বাস করি যে GPT-4 এর বুদ্ধিমত্তা কম্পিউটার বিজ্ঞানের ক্ষেত্রে এবং এর বাইরেও একটি সত্যিকারের দৃষ্টান্ত পরিবর্তনের ইঙ্গিত দেয়।
আমি অত্যন্ত সুপারিশ করছি যে আপনি এই অধ্যয়নের সাথে কিছু সময় ব্যয় করুন কারণ এই উচ্চস্বরে দাবিগুলির পিছনে একটি খুব আকর্ষণীয় বিশ্লেষণ রয়েছে যে মডেলগুলি কীভাবে কাজ করে এবং GPT-4 এর সাথে ChatGPT ফলাফলের একটি বিস্তৃত তুলনা বিভিন্ন ডোমেনের বিভিন্ন অ-তুচ্ছ কাজের উপর।
প্রশিক্ষণের সময় মডেলের দ্বারা শেখা আশা করা যায় না এমন কিছু নির্দিষ্ট তথ্যের উপর সিদ্ধান্তে উপনীত হওয়ার জন্য যদি আমাদের LLM-এর যুক্তির ক্ষমতা প্রয়োগ করতে হয় , তাহলে আমরা যেকোন ধরনের অনুসন্ধান ব্যবহার করতে পারি —পুনরুদ্ধার প্লাস র্যাঙ্কিং পদ্ধতি, আপনি ভেক্টর এম্বেডিং হিসাবে আপনার ডেটা সঞ্চয় করলে তা কোন ব্যাপার না। Faiss- এর মতো কিছু ANN সূচক বা ইলাস্টিক-এর মতো পুরানো স্কুলের পূর্ণ-পাঠ্য সূচীতে — এবং তারপরে এই অনুসন্ধান ফলাফলগুলিকে প্রম্পটে ইনজেকশন দিয়ে একটি প্রসঙ্গ হিসাবে একটি LLM-এ ফিড করুন৷ Bing 2.0 এবং Bard (এখন PaLM2 দ্বারা চালিত) অনুসন্ধানগুলি এখন এই ধরনের।
আমি এই সার্চ + এলএলএম কল সিস্টেমটি একটি ডিপিআর আর্কিটেকচারের সাথে প্রয়োগ করেছি, যেখানে ChatGPT রিডার মডেলকে প্রতিস্থাপন করেছে এবং পূর্ণ-পাঠ্য ইলাস্টিক অনুসন্ধানের সাথে, উভয় ক্ষেত্রেই, সিস্টেমের সামগ্রিক গুণমান আপনার কাছে থাকা ডেটার মানের উপর নির্ভর করে আপনার সূচী - যদি এটি নির্দিষ্ট এবং সম্পূর্ণ হয়, তাহলে আপনি ভ্যানিলা ChatGPT প্রদানের চেয়ে ভাল উত্তরগুলির উপর নির্ভর করতে পারেন।
কেউ কেউ এমনকি জিপিটি-র চারপাশে একটি সুইস ছুরি লাইব্রেরি তৈরি করতে, এটিকে একটি ভেক্টর ডাটাবেস বলে এবং এটির উপর একটি ভাল রাউন্ড তৈরি করতে সক্ষম হয়েছিল — আমার টুপি বন্ধ হয়ে যায়!
কিন্তু জিপিটি মডেলগুলির পাঠ্য ইন্টারফেসের কারণে, আপনি পরিচিত যে কোনও সরঞ্জাম দিয়ে এটির চারপাশে কিছু তৈরি করতে পারেন, কোনও অ্যাডাপ্টারের প্রয়োজন নেই।
একটি প্রশ্ন যা আরও মডেলের অগ্রগতির জন্য একটি সূত্র দিতে পারে তা হল এই বড় মডেলগুলি আসলে কীভাবে শিখে এবং যেখানে সেই চিত্তাকর্ষক যুক্তি ক্ষমতাগুলি মডেল ওজনে সংরক্ষণ করা হয়।
এই সপ্তাহে ওপেনএআই একটি গবেষণাপত্র প্রকাশ করেছে "ভাষার মডেলগুলি ভাষা মডেলগুলিতে নিউরনগুলিকে ব্যাখ্যা করতে পারে" এবং একটি ওপেন-সোর্স প্রকল্প যা এলএলএম-এর স্তরগুলিকে দূরে সরিয়ে এই প্রশ্নের উত্তর দেওয়ার লক্ষ্যে রয়েছে৷ এটি যেভাবে কাজ করে — তারা মডেলের নিউরাল নেটওয়ার্কের কিছু অংশের কার্যকলাপ পর্যবেক্ষণ করে যা প্রায়শই জ্ঞানের কিছু ডোমেনে সক্রিয় হয়, তারপর একটি আরও শক্তিশালী GPT-4 মডেল এই বিশেষ অংশ বা এলএলএম-এর একটি নিউরন অধ্যয়ন করা হচ্ছে তার ব্যাখ্যা লেখে। এর জন্য দায়ী এবং তারপর তারা GPT-4 এর সাথে প্রাসঙ্গিক টেক্সট সিকোয়েন্সে মূল LLM-এর আউটপুট ভবিষ্যদ্বাণী করার চেষ্টা করে, যার ফলে প্রতিটি ব্যাখ্যার জন্য একটি স্কোর বরাদ্দ করা হয়।
যাইহোক, এই কৌশল কিছু অসুবিধা আছে। প্রথমত, লেখকদের মতে, তাদের পদ্ধতিটি অধ্যয়ন করা প্রায় 300000 নিউরনের মধ্যে শুধুমাত্র 1000 নিউরনের জন্যই ভাল ব্যাখ্যা দিয়েছে।
এখানে কাগজের উদ্ধৃতি আছে:
যাইহোক, আমরা দেখতে পেয়েছি যে GPT-4-ভিত্তিক এবং মানব ঠিকাদার উভয় ব্যাখ্যাই পরম পদে এখনও খারাপ স্কোর করে। নিউরনের দিকে তাকালে, আমরা দেখতে পেলাম যে সাধারণ নিউরন বেশ পলিসেম্যান্টিক দেখায়। এটি পরামর্শ দেয় যে আমরা যা ব্যাখ্যা করছি তা পরিবর্তন করা উচিত।
দ্বিতীয় বিষয় হল যে এই কৌশলটি বর্তমানে প্রশিক্ষণ প্রক্রিয়াটি কীভাবে উন্নত করা যেতে পারে তার অন্তর্দৃষ্টি প্রদান করে না। কিন্তু মডেল ব্যাখ্যাযোগ্যতা অধ্যয়নের ক্ষেত্রে এটি একটি ভাল প্রচেষ্টা।
হতে পারে যদি অধ্যয়ন করা নিউরনগুলি তাদের আন্তঃনির্ভরতার উপর ভিত্তি করে কিছু ক্লাস্টারে একত্রিত হয় এবং এই ক্লাস্টারগুলি এমন কিছু আচরণগত নিদর্শন প্রদর্শন করবে যা বিভিন্ন প্রশিক্ষণ পদ্ধতির কারণে পরিবর্তিত হতে পারে, তাহলে এটি আমাদেরকে কিছুটা বুঝতে দেবে যে কীভাবে নির্দিষ্ট মডেল ক্ষমতাগুলি প্রশিক্ষণের ডেটার সাথে সম্পর্কিত এবং প্রশিক্ষণ নীতি। কিছু উপায়ে, এই ক্লাস্টারিং এবং পার্থক্যটি নির্দিষ্ট দক্ষতার জন্য দায়ী বিভিন্ন ক্ষেত্রে মস্তিষ্কের বিভাজনের মতো দেখতে পারে। এটি কিছু বিশেষ নতুন দক্ষতা অর্জনের জন্য একটি এলএলএমকে কীভাবে দক্ষতার সাথে সূক্ষ্ম-টিউন করা যায় সে সম্পর্কে আমাদের অন্তর্দৃষ্টি প্রদান করতে পারে।
আরেকটি ট্রেন্ডিং আইডিয়া হল একটি লুপড এলএলএম দিয়ে একটি স্বায়ত্তশাসিত এজেন্ট তৈরি করা — টুইটার অটোজিপিটি, এজেন্টজিপিটি, বেবিএজিআই , এট আল-এর মতো পরীক্ষায় পূর্ণ। ধারণাটি হল এই ধরনের একটি এজেন্টের জন্য একটি লক্ষ্য নির্ধারণ করা এবং এটিকে কিছু বাহ্যিক সরঞ্জাম যেমন অন্যান্য পরিষেবার APIs প্রদান করা যাতে এটি পুনরাবৃত্তি বা চেইনিং মডেলগুলির লুপের মাধ্যমে পছন্দসই ফলাফল প্রদান করতে পারে।
গত সপ্তাহে Huggingface তাদের বিখ্যাত ট্রান্সফরমার লাইব্রেরিতে এজেন্ট প্রকাশ করেছে:
"ওপেনঅ্যাসিস্ট্যান্ট, স্টারকোডার, ওপেনএআই এবং আরও অনেক কিছুর মতো এলএলএম ব্যবহার করে সহজেই জেনারেটিভএআই অ্যাপ্লিকেশন এবং স্বায়ত্তশাসিত এজেন্ট তৈরি করুন"। (c) ফিলিপ স্মিড
লাইব্রেরি চেইন মডেল এবং API-এর একটি ইন্টারফেস প্রদান করে যা প্রাকৃতিক ভাষায় জটিল প্রশ্নের উত্তর দিতে এবং মাল্টিমোডাল ডেটা (টেক্সট, ছবি, ভিডিও, অডিও) সমর্থন করতে সক্ষম। এই ক্ষেত্রে প্রম্পটে এজেন্টের বিবরণ, সরঞ্জামগুলির একটি সেট (বেশিরভাগ কিছু অন্যান্য সংকীর্ণ কেস নিউরাল নেটওয়ার্ক), কিছু উদাহরণ এবং একটি টাস্ক অন্তর্ভুক্ত থাকে। এজেন্টরা নন-ইঞ্জিনিয়ারদের জন্য মডেল ব্যবহার সহজতর করবে কিন্তু এলএলএম-এর উপরে আরও জটিল সিস্টেম তৈরি করার জন্য এটি একটি ভাল সূচনা। এবং, যাইহোক, এখানে ন্যাচারাল ল্যাঙ্গুয়েজ এপিআই, আপনি যা জানেন তার থেকে ভিন্ন ধরনের ইন্টারনেট।
বিটিডব্লিউ, টুইটার আজকাল এআই-এর চারপাশে সত্যিই পাগল হয়ে যাচ্ছে, প্রত্যেকে এলএলএম মডেলের উপরে কিছু তৈরি করছে এবং এটি বিশ্বকে দেখাচ্ছে — আমি শিল্পে এতটা উত্সাহ দেখিনি। আপনি কি হচ্ছে তা তদন্ত করতে চাইলে — আমি অ্যান্ড্রু কারপাথির সাম্প্রতিক টুইটের সাথে সেই খরগোশের গর্ত ডাইভ শুরু করার সুপারিশ করব।
কোডেক্স , গিথুব কপিলটকে পাওয়ার করার জন্য কিছুক্ষণ ধরে চলছে, এবং কয়েকদিন আগে একটি Colab Pro গ্রাহক হিসাবে আমি Google থেকে একটি চিঠি পেয়েছি, যেটি জুন মাসে তারা (চিঠিটি উদ্ধৃত করে)
ধীরে ধীরে Colab-এ AI প্রোগ্রামিং ফিচার যোগ করা শুরু করুন যা প্রথম দেখা যাবে:
- কোড সমাপ্তির জন্য একক এবং বহু-লাইন ইঙ্গিত;
- ন্যাচারাল ল্যাঙ্গুয়েজ কোড জেনারেশন, যা আপনাকে Google মডেলে কোড জেনারেশন রিকোয়েস্ট পাঠাতে এবং একটি নোটবুকে পেস্ট করতে দেয়।
যাইহোক, গত সপ্তাহে Google PaLM 2 মডেলের পরিবার ঘোষণা করেছে, যার মধ্যে কোডি রয়েছে, কোডিং এবং ডিবাগিংয়ের জন্য গুগলের বিশেষ মডেল, যা সম্ভবত এই ঘোষিত বৈশিষ্ট্যগুলিকে শক্তিশালী করবে।
এই বিভাগটি শেষ করার জন্য, আমি বলতে চাই যে 2016 সালের দিকে CV-এর উপর NLP-এর আমার ব্যক্তিগত পছন্দ এই কারণে করা হয়েছিল যে ভাষা হল সর্বজনীন এবং চূড়ান্ত উপায় মানুষ তথ্য স্থানান্তর করে । আমরা এমনকি আমাদের ভাষা থেকে ধারণা নিয়ে চিন্তা করি, তাই সিস্টেমটি নিজেদের এবং আমাদের চারপাশের বিশ্বকে সংজ্ঞায়িত করার জন্য যথেষ্ট জটিল। এবং এটি যুক্তির ক্ষমতা এবং চেতনা সহ একটি ভাষা-চালিত সিস্টেম তৈরি করার সম্ভাবনা নিয়ে আসে যা মানবসদৃশ বা এমনকি সেই স্তরকে ছাড়িয়ে যায়। আমরা প্রায় অর্ধেক বছর আগে সেই সত্য যুক্তির পৃষ্ঠটি স্ক্র্যাচ করেছি। কল্পনা করুন আমরা কোথায় আছি এবং কী অনুসরণ করব ।
যদি কোনো কারণে আপনি Tim Urban, waitbutwwy ব্লগের লেখকের সাথে অপরিচিত হন, 2015 তারিখের AGI-তে তার পোস্টটি পড়ুন — দেখুন এটি অতীত থেকে কেমন ছিল, ঠিক 7 বছর আগে, যখন আশেপাশে কোনও LLM ছিল না এবং কোনও ট্রান্সফর্মার ছিল না মডেল হয়। আমি এখানে তার পোস্টের কয়েকটি লাইন উদ্ধৃত করব, আপনাকে মনে করিয়ে দেওয়ার জন্য যে আমরা 7 বছর আগে কোথায় ছিলাম।
দাবাতে যে কোনো মানুষকে হারাতে পারে এমন AI তৈরি করুন? সম্পন্ন. এমন একটি তৈরি করুন যা ছয় বছর বয়সী ছবির বই থেকে একটি অনুচ্ছেদ পড়তে পারে এবং কেবল শব্দগুলি চিনতে পারে না তবে তাদের অর্থ বুঝতে পারে? গুগল বর্তমানে এটি করার জন্য কোটি কোটি ডলার ব্যয় করছে।
কিন্তু আমরা AGI অর্জন করার পরে, জিনিসগুলি আরও দ্রুত গতিতে চলতে শুরু করবে, তিনি প্রতিশ্রুতি দেন। এটি রে কার্জউইল দ্বারা প্রণীত ত্বরিত রিটার্নের আইনের কারণে:
Ray Kurzweil মানব ইতিহাসের ত্বরান্বিত প্রত্যাবর্তনের আইন বলে। এটি ঘটে কারণ আরও উন্নত সমাজের কম উন্নত সমাজের তুলনায় দ্রুত গতিতে উন্নতি করার ক্ষমতা রয়েছে - কারণ তারা আরও উন্নত।
বর্তমান এলএলএমগুলিতে এই আইনটি প্রয়োগ করা আরও সহজ এবং বলা সহজ যে ইন্টারনেটে সংরক্ষিত সমস্ত ডেটার উপর শেখার এবং যুক্তি করার ক্ষমতা এই অতিমানবীয় স্মৃতিকে মানব-স্তরের যুক্তিতে নিয়ে আসবে এবং শীঘ্রই আশেপাশের সবচেয়ে বুদ্ধিমান মানুষগুলিকে ছাড়িয়ে যাবে। 1997 সালে দাবা চ্যাম্পিয়ন কাসপারভকে ডিপ ব্লু কম্পিউটার দ্বারা পরাজিত করার মতোই মেশিন।
এটি আমাদের আর্টিফিশিয়াল সুপার ইন্টেলিজেন্সে (ASI) নিয়ে আসবে কিন্তু আমরা এখনও জানি না এটি কেমন দেখাচ্ছে। হতে পারে আমাদের এটিকে প্রশিক্ষণের জন্য অন্য একটি প্রতিক্রিয়া লুপের প্রয়োজন হবে কারণ GPT-4 মানব প্রতিক্রিয়া শিক্ষা মানব-স্তরের যুক্তি প্রদান করে। এটা খুবই সম্ভব যে ভালো মডেল দুর্বলদের শেখাবে এবং এটি একটি পুনরাবৃত্তিমূলক প্রক্রিয়া হবে।**শুধু অনুমান করা — আমরা দেখব।
AGI-তে তার পোস্টের দ্বিতীয় অংশে টিম যে জিনিসটি সত্যিই তুলে ধরেছেন তা হল যে ত্বরান্বিত রিটার্নের এই আইনের কারণে, আমাদের সিস্টেমগুলি যখন AGI-কে ছাড়িয়ে যায় তখন আমরা সেই বিন্দুটিও লক্ষ্য করতে পারি না এবং তখন বিষয়গুলি আমাদের বোঝার বাইরে থাকবে।
আপাতত, প্রযুক্তিতে কাজ করা লোকেদের মাত্র অল্প শতাংশই অগ্রগতির আসল গতি বোঝে এবং বিস্ময়কর সম্ভাব্য নির্দেশ-ভিত্তিক LLM টিউনিং নিয়ে আসে। জিওফ্রে হিন্টন তাদের মধ্যে একজন, চাকরির বাজারের চাপ, জাল বিষয়বস্তু তৈরি এবং ক্ষতিকারক ব্যবহারের মতো ঝুঁকির কথা প্রকাশ্যে বলছেন। আমি যা আরও গুরুত্বপূর্ণ মনে করি তা হল তিনি নির্দেশ করেছেন যে জটিল দক্ষতার শূন্য-শট শেখার জন্য সক্ষম বর্তমান সিস্টেমগুলি মানুষের চেয়ে ভাল শেখার অ্যালগরিদম থাকতে পারে ।
আধুনিক LLM-এর সাথে উদ্বেগ এই সত্য থেকে আসে যে যখন তারা অনেক কাজগুলিতে একটি বিশাল সুবিধা প্রদান করে, এই মডেলগুলির সাথে কাজ করার ক্ষমতা — প্রি-ট্রেন, ফাইন-টিউন, অর্থপূর্ণ প্রম্পটিং করা বা ডিজিটাল পণ্যগুলিতে অন্তর্ভুক্ত করা — প্রশিক্ষণ/ব্যবহারের খরচ এবং দক্ষতা উভয় ক্ষেত্রেই সমাজের চারপাশে স্পষ্টতই অসম। টুইটার বা হাগিংফেস সম্প্রদায়ের কিছু লোক যুক্তি দেবে যে ওপেনএআই আধিপত্যের বিকল্প হিসাবে এখন আমাদের কাছে যথেষ্ট সক্ষম ওপেন সোর্স এলএলএম রয়েছে, কিন্তু তবুও, তারা প্রবণতা অনুসরণ করছে এবং কম শক্তিশালী, এছাড়াও তাদের পরিচালনা করার জন্য নির্দিষ্ট দক্ষতার প্রয়োজন। এবং যখন ওপেনএআই মডেলগুলি এমন একটি সাফল্য, মাইক্রোসফ্ট এবং গুগল সেই গবেষণায় আরও বেশি বিনিয়োগ করবে, চেষ্টা করতে এবং থামাতে। ওহ, মেটাও , যদি তারা অবশেষে মেটাভার্সকে যেতে দেয়।
আজকাল সবচেয়ে চাহিদাপূর্ণ দক্ষতাগুলির মধ্যে একটি হল কোড লেখা - সফ্টওয়্যার ইঞ্জিনিয়ারিং গত 20 বছর ধরে প্রযুক্তিগত দৃশ্য এবং বেতনের উপর আধিপত্য বিস্তার করেছে। কোডিং কো-পাইলটদের বর্তমান অবস্থা দেখে মনে হচ্ছে শীঘ্রই বয়লারপ্লেট কোডের একটি ভাল অংশ তৈরি করা হবে বা দক্ষতার সাথে আনা হবে এবং অভিযোজিত হবে, যা ব্যবহারকারীর জন্য একইভাবে দেখাবে, ডেভেলপারদের অনেক সময় সাশ্রয় করবে এবং হতে পারে বাজারের বাইরে চাকরির সুযোগ।
AGI-এর সেই খুব ভাল পোস্টে আরেকটি ধারণা আছে এবং এর বাইরেও AGI স্বায়ত্তশাসিত স্ব-উন্নতি করতে সক্ষম হবে । আপাতত ভ্যানিলা এলএলএমগুলি এখনও স্বায়ত্তশাসিত এজেন্ট নয় এবং কোনওভাবেই কোনও ইচ্ছাশক্তিকে অন্তর্ভুক্ত করে না — দুটি ধারণা যা মানুষকে ভয় দেখায়। শুধু ক্ষেত্রে. মানব প্রতিক্রিয়ার সাথে শক্তিবৃদ্ধি শেখার সাথে জড়িত মডেলের প্রশিক্ষণ প্রক্রিয়াকে বিভ্রান্ত করবেন না, যেখানে ব্যবহৃত RL অ্যালগরিদম হল OpenAI এর প্রক্সিমাল পলিসি অপ্টিমাইজেশান , চূড়ান্ত মডেলটি টোকেন সিকোয়েন্সের পূর্বাভাস দেওয়ার ট্রান্সফরমার থেকে শুধুমাত্র একটি ডিকোডার অংশ।
সম্ভবত আপনি লক্ষ্য করেছেন যে আমি উদ্ধৃত কয়েকটি কাগজপত্র গত সপ্তাহে প্রকাশিত হয়েছিল — আমি নিশ্চিত যে পরবর্তী সপ্তাহগুলি নতুন প্রকাশ এবং ধারণা নিয়ে আসবে যা আমি এই পোস্টে কভার করতে চাই, তবে এটি সময়ের লক্ষণ।
মনে হচ্ছে আমরা দ্রুত সফ্টওয়্যারের নতুন যুগে প্রবেশ করছি এবং সিঙ্গুলারিটি পয়েন্টের দিকে কয়েক ধাপ এগিয়েছি , কারণ মেশিন লার্নিং শিল্পে উদ্ভাবনগুলি ইতিমধ্যেই অভূতপূর্ব গতিতে ঘটছে — যেমন গত বছর আমরা দেখেছি কয়েক মাসের মতো মাত্র কয়েকটি বড় রিলিজ। যাত্রা উপভোগ করুন!
PS পরবর্তী বিস্ফোরণ হবে যখন Musk নিউরালিংকের মাধ্যমে আমাদের LLM-এর সাথে সংযুক্ত করবে।
পিপিএস । এই লেখাটি লেখার জন্য একটিও OpenAI API কল করা হয়নি। আমি বাজি ধরেছি.