3,643 পড়া

ডামিদের জন্য এলএলএম - ওয়াকথ্রু গাইড এবং গ্লোসারি

দ্বারা Renee4m2024/01/26

অতিদীর্ঘ; পড়তে

AI-তে এমন কিছু শব্দ রয়েছে যা আপনি হয়তো জানেন না- এখানে আমি কীভাবে 5 বছর বয়সীকে সেগুলি ব্যাখ্যা করব।

featured image - ডামিদের জন্য এলএলএম - ওয়াকথ্রু গাইড এবং গ্লোসারি

এই তুমি কি 👆? আপনি CompSci করেননি, তাই এখন আপনি আদালতের বিদ্রূপকারী, দ্রুত __ দ্রুততম-চলমান শিল্পে __ বিশ্বে কখনো দেখেছেন জ্ঞানের পরিমাপ করার চেষ্টা করছেন?

শ্বাস নাও. এখানে একটি পোস্টের মূল বিষয়গুলিতে ফিরে যাচ্ছে যেখানে আপনি " সত্যিই বোবা প্রশ্ন" জিজ্ঞাসা করতে পারেন এবং বিচার বোধ করবেন না।

যারা শিখছেন তাদের জন্য এলএলএম শর্তাবলীর একটি ছোট শব্দকোষ

ট্রান্সফরমার — চোখের সাথে মিলিত হওয়ার চেয়েও বেশি... মেশিন লার্নিং-এ ব্যবহৃত এক ধরনের মডেল, বিশেষ করে টেক্সট বা অডিওর মতো ডেটার সিকোয়েন্স পরিচালনার জন্য। এটি বাক্যে প্রসঙ্গটি বোঝার ক্ষেত্রে ভাল এবং ভাষা অনুবাদ করার জন্য, পাঠ্যের সংক্ষিপ্তসার বা চ্যাটবট প্রতিক্রিয়া তৈরি করতে ব্যবহার করা যেতে পারে।

লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) — এটি ভাষা জ্ঞানের একটি বিশাল ডাটাবেসের মতো যা নিবন্ধ লিখতে, প্রশ্নের উত্তর দিতে বা বাস্তবসম্মত সংলাপ তৈরি করতে পারে।

একটি ট্রান্সফরমার হল ভাষা প্রক্রিয়াকরণের জন্য AI-তে ব্যবহৃত একটি কৌশল। একটি এলএলএম ভাষা কাজের জন্য একটি বড় এআই মডেল, প্রায়শই ট্রান্সফরমার কৌশল ব্যবহার করে তৈরি করা হয়।

ইন্টারফেস - একটি কম্পিউটার সিস্টেম বা সফ্টওয়্যারের অংশ যা ব্যবহারকারীদের এটির সাথে যোগাযোগ করতে দেয়। এটিকে একটি প্রোগ্রামের ফ্রন্ট-এন্ড হিসাবে ভাবুন যেখানে আপনি আপনার প্রশ্ন বা কমান্ড টাইপ করেন এবং প্রোগ্রামটি সাড়া দেয়।

অনুমান — AI-তে, এর অর্থ হল ভবিষ্যদ্বাণী বা সিদ্ধান্ত নেওয়ার জন্য একটি প্রশিক্ষিত মডেল ব্যবহার করা। উদাহরণস্বরূপ, একটি মডেলকে ছবিতে বিড়াল চিনতে প্রশিক্ষণ দেওয়ার পরে, অনুমান হল যখন মডেল একটি নতুন ছবি দেখে এবং সিদ্ধান্ত নেয় যে এতে একটি বিড়াল আছে কিনা।🐈‍⬛

তত্ত্বাবধানে শিক্ষা — প্রশিক্ষণ মেশিনের একটি উপায় যেখানে আপনি উত্তর সহ মডেল উদাহরণ দেন। একটি প্রোগ্রাম বিড়ালদের অনেক ছবি দেখানোর মতো এবং এটিকে বলা 'এটি একটি বিড়াল' যাতে এটি বিড়াল দেখতে কেমন তা শিখে।

আনসুপারভাইজড লার্নিং ( heeeyo) — একটি মেশিনকে উত্তর না দিয়ে প্রশিক্ষণ দেওয়া। মডেলটি ডেটা দেখে এবং নিজেই প্যাটার্ন বা গোষ্ঠীগুলি খুঁজে বের করার চেষ্টা করে। উদাহরণস্বরূপ, এটি ঘরানার নাম না বলে বিভিন্ন ধরণের সঙ্গীতকে জেনারে সাজাতে পারে।

রিইনফোর্সমেন্ট লার্নিং - ট্রায়াল এবং ত্রুটির মাধ্যমে মেশিন শেখানো। মেশিনটি একটি পরিস্থিতিতে পছন্দ করে এবং তার পছন্দগুলি ভাল বা খারাপ কিনা তার উপর ভিত্তি করে পুরষ্কার বা জরিমানা পায়, সময়ের সাথে সাথে আরও ভাল সিদ্ধান্ত নিতে শেখে ( বা বিরক্তি এবং গোপনীয় হয়ে ওঠে)

নিউরাল নেটওয়ার্ক — মানুষের মস্তিষ্কের মতো কিছুটা কাজ করার জন্য ডিজাইন করা হয়েছে। এতে অনেক ছোট একক (যেমন মস্তিষ্কের কোষ) থাকে যা তথ্য প্রক্রিয়াকরণ এবং সমস্যা সমাধানের জন্য একসাথে কাজ করে।

একটি এলএলএম তৈরি করা

আপনার ডেটা সংগ্রহ করা হচ্ছে

বিভিন্ন ধরনের টেক্সট ডেটা সংগ্রহ করে শুরু করুন। এর মধ্যে বই, অনলাইন নিবন্ধ বা ডেটাবেস থেকে ডেটা অন্তর্ভুক্ত থাকতে পারে। আপনার ডেটা যত বেশি বৈচিত্র্যময় হবে, আপনার এলএলএম ভাষার বিভিন্ন দিক বোঝার ক্ষেত্রে তত ভাল হবে।

Kaggle ML এবং ডেটা বিজ্ঞান প্রকল্পের জন্য মহান তথ্য আছে. অস্ট্রেলিয়ান স্থানীয় এবং কাগল গ্র্যান্ডমাস্টার জেরেমি হাওয়ার্ড দেখুন।

গিটহাব প্রায়ই গবেষক এবং ডেভেলপারদের দ্বারা প্রকাশিত ডেটাসেট হোস্ট করে। অনুসন্ধানের জন্য ভাল জায়গা।

উল্লেখ করার মতো - কাগজপত্র + gov সাইট সম্পর্কিত ডেটাসেটের জন্য গুগল স্কলার

প্রি-প্রসেসিং ডেটা

এখন, এই ডেটা পরিষ্কার করুন। এই পদক্ষেপটি ত্রুটিগুলি সংশোধন করা, উপযোগী নয় এমন অংশগুলি সরানো এবং সেগুলিকে এমনভাবে সাজানো যাতে আপনার AI কার্যকরভাবে সেগুলি থেকে শিখতে পারে৷

বিবেচনা

আপনি কীভাবে অনুপস্থিত মানগুলি পরিচালনা করবেন, ফর্ম্যাটিং সমস্যাগুলি ঠিক করবেন, ডুপ্লিকেট ডেটা মোকাবেলা করবেন?

একটি মডেল আর্কিটেকচার নির্বাচন করা

মডেল আর্কিটেকচার হল মূলত মডেলের ডিজাইন বা কাঠামো, যে ব্লুপ্রিন্ট হিসেবে কাজ করে নির্দেশিকা কিভাবে এআই তথ্য প্রক্রিয়া করে।

ট্রান্সফরমার আর্কিটেকচারটি বিশেষত পাঠ্যের মতো অনুক্রমিক ডেটা পরিচালনা করার জন্য উপযোগী করা হয়েছে, ডেটার মধ্যে প্রসঙ্গ বোঝার উপর ফোকাস করে এবং আমরা আজকের জন্য এটির সাথেই থাকব।

মডেল প্রশিক্ষণ

আপনার এআই মডেলে প্রস্তুত ডেটা ফিড করুন। এখানেই আপনার AI ভাষার জটিলতা শেখা শুরু করে। প্রশিক্ষণ সময় এবং সম্পদ গ্রহণকারী হতে পারে, বিশেষ করে প্রচুর ডেটা সহ। (এখানেই আমি আনস্লথে আমার বন্ধুদের উল্লেখ করতে চাই, পডকাস্ট শীঘ্রই আসছে)

পরীক্ষা এবং পরিশোধন

প্রশিক্ষণের পরে, আপনার AI কতটা ভালভাবে বোঝে এবং ভাষা তৈরি করে তা মূল্যায়ন করুন। ফলাফলের উপর নির্ভর করে, এর কার্যকারিতা বাড়ানোর জন্য আপনাকে সামঞ্জস্য এবং পুনরায় প্রশিক্ষণের প্রয়োজন হতে পারে।

এলএলএম চালাচ্ছি

এখন, জানোয়ার চালাবেন কিভাবে?

স্ক্র্যাচ থেকে একটি LLM তৈরি করার পরিবর্তে, আপনি ইতিমধ্যেই প্রচুর পরিমাণে ডেটার উপর প্রশিক্ষিত মডেলগুলি অ্যাক্সেস করতে Hugging Face ব্যবহার করতে পারেন৷ আপনি এই মডেলগুলি তাদের ক্লাউড পরিষেবাতে চালাতে পারেন বা আপনার মেশিনে স্থানীয়ভাবে চালানোর জন্য সেগুলি ডাউনলোড করতে পারেন।

আপনার পছন্দ নির্বিশেষে, মূল বিষয় হল একটি প্রশিক্ষিত এলএলএম মডেল এবং এটির সাথে ইন্টারঅ্যাক্ট করার উপায়, ইন্টারনেটের মাধ্যমে বা সরাসরি আপনার কম্পিউটারে।