paint-brush
FlanT5 এবং প্রতিলিপি দিয়ে আপনার নিজের ChatGPT-এর মতো LLM-কে প্রশিক্ষণ দিনদ্বারা@shanglun
7,997 পড়া
7,997 পড়া

FlanT5 এবং প্রতিলিপি দিয়ে আপনার নিজের ChatGPT-এর মতো LLM-কে প্রশিক্ষণ দিন

দ্বারা Shanglun Wang10m2023/09/03
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

উইলিয়াম শেক্সপিয়ার এবং অ্যান্টন চেখভের মধ্যে পার্থক্য করার জন্য আমরা একটি ওপেন সোর্স এলএলএম প্রশিক্ষণ দিই। ChatGPT-এর একটি ছোট, খরচ-দক্ষ কিন্তু শক্তিশালী প্রতিযোগীর উপর ভিত্তি করে প্রাকৃতিক ভাষা শ্রেণীবদ্ধকারীদের ধারণার প্রমাণ।
featured image - FlanT5 এবং প্রতিলিপি দিয়ে আপনার নিজের ChatGPT-এর মতো LLM-কে প্রশিক্ষণ দিন
Shanglun Wang HackerNoon profile picture
0-item
1-item

ChatGPT-এর মতো LLM মডেলের বৃদ্ধির সাথে সাথে, ফার্মগুলি ভাষা-ভিত্তিক গভীর শিক্ষার অ্যাপ্লিকেশনগুলিকে বাণিজ্যিকীকরণের জন্য ভিড় করেছে৷ ডুওলিঙ্গো এবং ব্লিঙ্কিস্টের মতো কোম্পানিগুলি শিক্ষামূলক চ্যাট অ্যাপ্লিকেশন তৈরি করছে, Cocounsel-এর মতো সংস্থাগুলি নথি বিশ্লেষণের মডেল তৈরি করছে, এবং কিছু, MedGPT-এর মতো, এমনকি বিশেষজ্ঞ মডেল তৈরি করছে যা চিকিৎসা নির্ণয়ের মতো জিনিসগুলি করতে পারে। পূর্ববর্তী একটি নিবন্ধে, আমি লিখেছিলাম যে কীভাবে কেউ একটি পাওয়ার ডকুমেন্ট বিশ্লেষক তৈরি করতে ChatGPT এবং প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করতে পারে।


আরও শক্তিশালী এবং ডোমেন-নির্দিষ্ট এলএলএম অ্যাপ্লিকেশনগুলিকে সমর্থন করার জন্য, প্রযুক্তি প্রদানকারীরা অনেকগুলি ক্লাউড সমাধান উপলব্ধ করেছে। OpenAI, ChatGPT-এর পিছনের কোম্পানি, উদাহরণস্বরূপ, ব্যবহারকারীদের জন্য একটি সহজ কিন্তু শক্তিশালী ফাইন-টিউনিং API উপলব্ধ করেছে, যা ব্যবহারকারীদের GPT3 প্রযুক্তির উপর ভিত্তি করে তাদের নিজস্ব ভাষা মডেল তৈরি করতে দেয়। গুগল তাদের বাইসন-টেক্সট মডেল তৈরি করেছে, যা ব্যাপকভাবে GPT 3 এবং GPT 3.5-এর একটি সক্ষম প্রতিযোগী হিসেবে বিবেচিত হয়েছে, যা Google ক্লাউড প্ল্যাটফর্মের মাধ্যমে ফাইন-টিউনিংয়ের জন্য উপলব্ধ। পূর্ববর্তী একটি নিবন্ধে, আমি একটি ডোমেন বিশেষজ্ঞ এলএলএম তৈরি করতে ফাইন-টিউনিং API ব্যবহার করার বিষয়ে লিখেছিলাম।


এই পরিষেবাগুলি যতটা শক্তিশালী হতে পারে, এলএলএম প্রযুক্তিতে একটি গুরুতর বিনিয়োগ বিবেচনা করে এমন একটি কোম্পানি ওপেন সোর্স প্রযুক্তি থেকে তাদের নিজস্ব মডেলগুলিকে প্রশিক্ষণ দিতে শিখতে চাইবে। এই বিক্রেতা-প্রদত্ত এন্ডপয়েন্টগুলি ব্যবহার করার তুলনায়, আপনার নিজস্ব মডেল প্রশিক্ষণ নিম্নলিখিত সুবিধাগুলি দেয় :


  • আপনি আপনার স্থাপনার পরিকাঠামো চয়ন এবং পরিবর্তন করার নমনীয়তা অর্জন করেন। এটি খরচ সঞ্চয়, ঘনিষ্ঠ সংহতকরণ এবং সম্ভবত সবচেয়ে গুরুত্বপূর্ণভাবে চিকিৎসা ও আর্থিক অ্যাপ্লিকেশনে, আরও গোপনীয়তার দিকে পরিচালিত করতে পারে।
  • আপনি অন্তর্নিহিত প্রযুক্তির উপর আরও নিয়ন্ত্রণ পান, আপনাকে ব্যবহার করার জন্য ওপেন-সোর্স মডেলগুলির একটি পছন্দ প্রদান করে। বিভিন্ন ওপেন সোর্স মডেল বিভিন্ন ব্যবহারের ক্ষেত্রে মাথায় রেখে তৈরি করা হয় এবং আপনি কাজের জন্য সেরা টুলটি বেছে নিতে পারেন।
  • আপনার অ্যাপ্লিকেশন আরো ভবিষ্যত প্রমাণ হয়ে. ওপেন সোর্স প্রযুক্তি ব্যবহার করে, আপনি নিজের বিকাশের গতি নির্ধারণ করতে পারেন। আপনি অত্যাধুনিক প্রযুক্তি ব্যবহার করতে পারেন, এবং আপনাকে বিক্রেতার অবমূল্যায়ন এবং পরিষেবা বিভ্রাটের বিষয়ে চিন্তা করতে হবে না।


এই নিবন্ধে, আমরা একটি জনপ্রিয় এবং সক্ষম ওপেন-সোর্স এলএলএম মডেল নেব, এটিকে আমাদের নিজস্ব ডেটাতে প্রশিক্ষণ দেব যা আমরা পূর্ববর্তী নিবন্ধে করেছি এবং ফলাফলগুলিকে যাচাই করব। যদিও আমরা যে উদাহরণটি মোকাবেলা করছি তা অ-বাণিজ্যিক এবং জনসাধারণের তথ্যের উপর ভিত্তি করে, কৌশলগুলি সহজেই বাণিজ্যিক প্রচেষ্টায় ক্রস-প্রয়োগ করা যেতে পারে। "বিশেষজ্ঞ LLM মডেল" বিভাগে এই কৌশলটি ব্যবহার করে কী বাণিজ্যিক অ্যাপ্লিকেশনগুলি তৈরি করা যেতে পারে সে সম্পর্কে আমরা নির্দিষ্ট পরামর্শগুলি অনুসন্ধান করব যেখানে আমরা এই নিবন্ধে যে সমস্যার সমাধান করব তা সংজ্ঞায়িত করব।

অন্তর্নিহিত প্রযুক্তি

Flan-T5

আজকের পরীক্ষার জন্য, আমরা Flan-T5 Large-এর উপর নির্ভর করব, যা Google দ্বারা প্রকাশিত একটি বৃহৎ ভাষার মডেল। যদিও এটি এমন প্রযুক্তি নয় যা বার্ডের অন্তর্গত, এই মডেলটিকে ব্যাপকভাবে GPT-ভিত্তিক প্রযুক্তির সাথে প্রতিযোগিতামূলক বলে মনে করা হয়। Flan T5 মডেলগুলি সম্পর্কে চিত্তাকর্ষক বিষয় হল, তারা GPT ভিত্তিক মডেলগুলির তুলনায় অনেক কম প্যারামিটার ব্যবহার করে সন্তোষজনক ফলাফল অর্জন করে। এমনকি মডেলের XL সংস্করণে, উদাহরণস্বরূপ, GPT3 এর তুলনায় মাত্র 3 বিলিয়ন প্যারামিটার রয়েছে, যার 175 বিলিয়ন রয়েছে।


এই কম্প্যাক্টনেসের ফলে, ক্লাউড কম্পিউটিং সম্পদগুলিতে এই মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং সংরক্ষণ করা তুলনামূলকভাবে সস্তা। উপরন্তু, মডেলের Flan-T5 ফ্যামিলি Apache লাইসেন্সের সাথে প্রকাশ করা হয়, যা বাণিজ্যিক ব্যবহারের জন্য অনুমতি দেয়, সম্ভাব্য লাইসেন্সের মাথাব্যথা হ্রাস করে যা অন্যান্য ওপেন সোর্স LLM-এর সাথে থাকে। Facebook-এর LLaMa, উদাহরণস্বরূপ, এখনও শুধুমাত্র গবেষণা এবং অ-বাণিজ্যিক উদ্দেশ্যে উপলব্ধ।


এই নিবন্ধটি লেখার জন্য, আমি প্রযুক্তির কার্যকারিতা পরীক্ষা করার জন্য কয়েকটি ভিন্ন শ্রেণীর কাজের সাথে পরীক্ষা করেছি। সাধারণত, Flan-T5, বিশেষ করে XL ভেরিয়েন্ট, বাজারে কিছু GPT মডেলের মতোই প্রাকৃতিক ভাষা বোঝার ক্ষমতা আছে বলে মনে হয়। যাইহোক, বিমূর্ত সংযোগগুলি আঁকার সময় মডেলটি কিছুটা ছোট হয়ে যায় এবং দীর্ঘ আউটপুট তৈরি করতে কিছুটা সমস্যা হয়। অতএব, একজনকে সঠিক কাজের জন্য সঠিক মডেল নির্বাচন করার যত্ন নেওয়া উচিত।

প্রতিলিপি

রেপ্লিকেট হল একটি প্ল্যাটফর্ম-এ-সার্ভিস কোম্পানি যা লোকেদেরকে সাশ্রয়ী মূল্যে প্রশিক্ষণ এবং বড় AI মডেল চালানোর জন্য GPU ভাড়া নিতে দেয় । তাদের এআই মডেল ম্যানেজমেন্ট টুলের স্যুট ব্যবহারকারীদের সার্ভার সংস্থান পরিচালনার পরিবর্তে ডেটা নিয়ে কাজ করার উপর ফোকাস করতে দেয়।


এই নিবন্ধটি লেখার জন্য, আমি AWS SageMaker, Google Colab এবং PaperSpace গ্রেডিয়েন্ট সহ বেশ কয়েকটি AI প্রশিক্ষণ PaaS অফার করার চেষ্টা করেছি। প্রতিলিপিটি শুরু করার জন্য এখন পর্যন্ত সবচেয়ে সহজ প্ল্যাটফর্ম ছিল এবং উল্লিখিত অন্যান্য পরিষেবার তুলনায় অত্যন্ত প্রতিযোগিতামূলক মূল্যের প্রস্তাব দেওয়া হয়েছিল।

পাইথন

পাইথন হল ডেটা ইঞ্জিনিয়ারিং এর ভাষা। বিস্তৃত ইকোসিস্টেম প্রোগ্রামারদের দ্রুত ডেটা গ্রহণ, বিশ্লেষণ এবং প্রক্রিয়া করার অনুমতি দেয়। বেশিরভাগ প্রধান এআই প্রশিক্ষণ প্ল্যাটফর্মে পাইথনের জন্য প্রথম-শ্রেণীর সমর্থন রয়েছে, যা আমাদের কাজকে অনেক সহজ করে তোলে। রেপ্লিকেটের চমৎকার ইন্টিগ্রেশনের কারণে, আমরা আজ আমাদের সমস্ত কোড পাইথনে লিখব।

বিশেষজ্ঞ এলএলএম মডেল

নাট্যকার ক্লাসিফায়ার

যেহেতু মডেলের Flan-T5 পরিবার পাঠ্য তৈরি করার চেয়ে পাঠ্য বোঝার ক্ষেত্রে অনেক ভাল, আমরা এমন একটি কাজ বেছে নিতে চাই যা ইনপুটে ভারী কিন্তু আউটপুটে হালকা। প্রাকৃতিক ভাষার শ্রেণীবিভাগ এই ধরনের দৃশ্যের জন্য একটি নিখুঁত ব্যবহার-কেস, তাই আজ আমরা একটি নাট্যকার শনাক্তকারী তৈরি করব। বিশেষত, আমরা উইলিয়াম শেক্সপিয়ার বা আন্তন চেখভের মডেল প্যাসেজগুলি দেব, এবং আমরা লেখার শৈলী এবং শব্দ চয়নের উপর ভিত্তি করে নাট্যকারকে সনাক্ত করতে মডেলকে শেখাতে পারি কিনা তা দেখব।


অবশ্যই, যেহেতু এটি একটি পাবলিক টিউটোরিয়াল, আমরা ইচ্ছাকৃতভাবে সর্বজনীন এবং সহজে অ্যাক্সেসযোগ্য ডেটা সহ একটি মডেল নির্বাচন করছি৷ যাইহোক, এটি সহজেই একটি বাণিজ্যিক প্রেক্ষাপটে অভিযোজিত হতে পারে । এখানে কিছু উদাহরণ রয়েছে যেখানে প্রাকৃতিক ভাষার শ্রেণীবিভাগ উপযোগী হতে পারে:


  • শিপিং সমস্যা, পণ্যের গুণমান, গ্রাহক পরিষেবা ইত্যাদির মতো বিভিন্ন বিভাগে গ্রাহকের পর্যালোচনা এবং অভিযোগ বাছাই করা।
  • একটি সেলস কল ট্রান্সক্রিপ্টে সেন্টিমেন্ট অ্যানালাইসিস করা হচ্ছে কলের সময় সম্ভাবনার মেজাজে কোনো পরিবর্তন হয়েছে কিনা তা দেখতে।
  • সিইওরা সাধারণত বুলিশ বা বেয়ারিশ কিনা তা নির্ধারণ করতে বিপুল সংখ্যক উপার্জন বিশ্লেষণ করে প্রতিলিপি কল করে।

প্রশিক্ষণ তথ্য নির্মাণ

প্রশিক্ষণের ডেটা তৈরি করতে, আমরা প্রজেক্ট গুটেনবার্গ থেকে আন্তন চেখভ এবং উইলিয়াম শেক্সপিয়ারের কিছু নাটক ডাউনলোড করতে পারি। ডেটা ইনজেশন সেট আপ করতে, আমরা নিম্নলিখিত পাইথন স্ক্রিপ্টটি চালাতে পারি।


 import requests import openai import replicate import os import pandas as pd import random texts = { 'chekhov': 'https://www.gutenberg.org/files/7986/7986-0.txt', 'chekhov_2': 'https://www.gutenberg.org/cache/epub/1755/pg1755.txt', 'shakespeare_midsummer': 'https://www.gutenberg.org/cache/epub/1514/pg1514.txt', 'shakespeare_romeo_juliet': 'https://www.gutenberg.org/cache/epub/1112/pg1112.txt', 'shakespeare_macbeth': 'https://www.gutenberg.org/cache/epub/2264/pg2264.txt', 'shakespeare_hamlet': 'https://www.gutenberg.org/cache/epub/2265/pg2265.txt', }


এখন আমরা প্রশিক্ষণ ডেটা ফোল্ডার তৈরি করি এবং পাঠ্যগুলি ডাউনলোড করি:


 if not os.path.exists('training_text'): os.mkdir('training_text') for name, url in texts.items(): print(name) res = requests.get(url) with open(os.path.join('training_text', '%s.txt' % name), 'w') as fp_write: fp_write.write(res.text)


এটি সফল হয়েছে তা দেখানোর জন্য আপনার কিছু আউটপুট দেখতে হবে:


 chekhov chekhov_2 shakespeare_midsummer shakespeare_romeo_juliet shakespeare_macbeth Shakespeare_hamlet


ফাইলগুলি সঠিকভাবে ডাউনলোড করা হয়েছে তা দেখতে আপনি training_text ফোল্ডারটিও পরীক্ষা করতে পারেন।


এখন আমরা এই ফাইলগুলিকে মেমরিতে আবার পড়তে চাই এবং সেগুলিকে লাইনের তালিকায় বিভক্ত করতে চাই। আমরা এটিতে থাকাকালীন, আমরা প্রতিটি ফাইলে লাইনের সংখ্যা গণনা করব।


 lines_by_file = {} for fn in os.listdir('training_text'): if not fn.endswith('.txt'): continue with open(os.path.join('training_text', fn)) as fp_file: lines_by_file[fn.split('.')[0]] = '\n'.join(fp_file.readlines()) print(fn, len(lines_by_file[fn.split('.')[0]]))


আপনি নীচের মত আউটপুট দেখতে হবে:


 shakespeare_midsummer.txt 120198 shakespeare_romeo_juliet.txt 179726 shakespeare_macbeth.txt 140022 shakespeare_hamlet.txt 204169 chekhov.txt 419063 chekhov_2.txt 148324


এখন আসছে মজার ব্যাপারটি। আমরা লাইনগুলিকে বাস্তব প্রশিক্ষণের ডেটাতে বিভক্ত করতে চাই। এটি করার জন্য, আমরা প্রথমে প্রথম এবং শেষ 1000 লাইনগুলি সরিয়ে ফেলি, যা ভূমিকা, শিরোনাম এবং পাদচরণ সামগ্রী দ্বারা নেওয়া হয়। তারপর, আমরা একসাথে 50 লাইন বাকি পাঠ্য ধরব। তারপরে আমরা 50টি লাইনকে একটি প্রম্পট-এবং-সম্পূর্ণ জোড়ায় পরিণত করব।


 train_data = [] for k in lines_by_file: is_chekhov = 'chekhov' in k useful_lines = lines_by_file[k].split('\n')[1000:-1000] prompt_fmt = "Which playwright wrote the following passage? \n ==== \n %s \n ====" for i in range(0, len(useful_lines), 50): training_set = useful_lines[i: i+50] train_data.append({ 'prompt': prompt_fmt % '\n'.join(training_set), 'completion': 'Anton Chekhov' if is_chekhov else 'William Shakespeare' })


তাই এখন আমরা স্পষ্টভাবে সমস্যাটিকে সংজ্ঞায়িত করেছি - একটি নাটক থেকে 50 লাইনের পাঠ্য দেওয়া হয়েছে, নাট্যকার আন্তন চেকভ বা উইলিয়াম শেক্সপিয়ার কিনা তা নির্ধারণ করুন। আমরা এখনও সম্পন্ন করছি না. প্রশিক্ষণের জন্য আমাদের jsonl (JSON লাইন) ফর্ম্যাটে ডেটা লিখতে হবে এবং আমরা পরীক্ষার উদ্দেশ্যে কয়েকটি নমুনা সংরক্ষণ করতে চাই। নিম্নলিখিত কোডটি এভাবে চালান:


 df = pd.DataFrame(train_data) df_chekhov = df[df['completion'] == 'Anton Chekhov'] df_shakespeare = df[df['completion'] == 'William Shakespeare'] chekhov_test_indices = random.sample(df_chekhov.index.tolist(), 15) shakespeare_test_indices = random.sample(df_shakespeare.index.tolist(), 15) df_chekhov_test = df_chekhov.loc[chekhov_test_indices] df_shakespeare_test = df_shakespeare.loc[shakespeare_test_indices] df_chekhov_train = df_chekhov.loc[[i for i in df_chekhov.index if i not in chekhov_test_indices]] df_shakespeare_train = df_shakespeare.loc[[i for i in df_shakespeare.index if i not in shakespeare_test_indices]] pd.concat([df_chekhov_train, df_shakespeare_train]).to_json('chekhov_shakespeare_train.jsonl', orient='records', lines=True) pd.concat([df_chekhov_test, df_shakespeare_test]).to_json('chekhov_shakespeare_test.jsonl', orient='records', lines=True)


অবশ্যই, আপনি যদি প্রশিক্ষণের জন্য সম্পূর্ণ কর্পাস ব্যবহার করতে চান তবে আপনি কেবল চালাতে পারেন


pd.DataFrame(train_data).to_json('output.jsonl', orient='records', lines=True)

প্রতিলিপি সহ প্রশিক্ষণ

আমরা প্রশিক্ষণ শুরু করার আগে আমাদের দুটি জিনিস করতে হবে - প্রথমত, আমাদের প্রশিক্ষণের ডেটা প্রতিলিপি দ্বারা অ্যাক্সেসযোগ্য কোথাও আপলোড করতে হবে। এটি করার একটি খুব সহজ উপায় হল একটি গুগল ক্লাউড বালতিতে ফাইলটি আপলোড করা, বালতি এবং ফাইলটিকে সর্বজনীন করা এবং https://storage.googleapis.com/<bucket_name>/<file_name> ফর্ম্যাটে ইউআরএল সরবরাহ করা। https://storage.googleapis.com/<bucket_name>/<file_name>


পরবর্তী, আমাদের একটি গন্তব্য তৈরি করতে হবে। এটি করার জন্য, কেবল প্রতিলিপিতে লগ ইন করুন (যা আপনি Github OAuth এর মাধ্যমে করতে পারেন), এবং একটি নতুন মডেল তৈরি করুন। একবার মডেলটি তৈরি এবং নাম দেওয়া হলে, আপনি আপনার মডেলটিকে এই স্পেসে ঠেলে দিতে সক্ষম হবেন।


একবার সবকিছু সেট আপ হয়ে গেলে, আপনি এইভাবে প্রশিক্ষণ শুরু করতে পারেন:


 training = replicate.trainings.create( version="[flant5-large location]", input={ "train_data": "[Data Location]", }, destination="[Destination]" ) print(training)


আপনি কিছু আউটপুট দেখতে পাবেন যা আপনাকে বলে যে প্রশিক্ষণ শুরু হচ্ছে। কয়েক মিনিট অপেক্ষা করুন এবং নিম্নলিখিত কোডটি চালিয়ে প্রশিক্ষণের সাথে আবার চেক করুন:


 training.reload() print(training)


আপনি প্রতিলিপি ওয়েবসাইটে প্রশিক্ষণের অগ্রগতি নিরীক্ষণ করতে পারেন। প্রশিক্ষণ শেষ হয়ে গেলে, আপনি আউটপুট নাম পেতে প্রশিক্ষণ বস্তুটি পুনরায় লোড করতে পারেন এবং পরবর্তী ধাপে যেতে পারেন।


সতর্ক থাকুন যে এমন সময়কাল রয়েছে যখন GPU সংস্থানগুলি খুব কম থাকে এবং আপনি একটি "প্রশিক্ষণ ব্যর্থ" ত্রুটি পেতে পারেন৷ যদি আপনার সাথে এটি ঘটে থাকে তবে কয়েক ঘন্টা অপেক্ষা করুন এবং আবার চেষ্টা করুন। একটি GPU ঘাটতি আছে, এবং PaaS প্রদানকারীরা অনাক্রম্য নয়!


মডেল পরীক্ষা


ঠিক আছে! এখন যেহেতু আমাদের সূক্ষ্ম-টিউনড মডেল আছে, আমাদের এটি পরীক্ষা করতে হবে। মনে রাখবেন যে আমরা পরীক্ষার জন্য চেখভ এবং শেক্সপিয়ারের 15টি প্যাসেজ সংরক্ষিত করেছি। আমরা সেগুলি এখানে এভাবে ব্যবহার করতে পারি:


 for _, row in df_chekhov_test.iterrows(): output = replicate.run( training.output["version"], input={"prompt": row['prompt']} ) for s in output: print(s, end="", flush=True) print('')


একটি সংক্ষিপ্ত স্টার্ট-আপ সময়ের পরে, আপনি কনসোলে আউটপুট মুদ্রিত হচ্ছে দেখতে হবে। মডেলটি অত্যন্ত নির্ভুল হতে হবে এবং প্রতিবার "অ্যান্টন চেখভ" ফেরত দিতে হবে। আসুন শেক্সপিয়ারের সাথে এটি চেষ্টা করি:


 for _, row in df_shakespeare_test.iterrows(): output = replicate.run( training.output["version"], input={"prompt": row['prompt']} ) for s in output: print(s, end="", flush=True) print('')


চেখভের উদাহরণের মতো, আপনার দেখতে হবে যে মডেলটি প্রতিবার শেক্সপিয়রকে সনাক্ত করতে সক্ষম।


ভাল পরিমাপের জন্য, বেস মডেল শেক্সপিয়ার বা চেখভ সনাক্ত করতে সক্ষম কিনা তা দেখা যাক:


 for _, row in df_shakespeare_test.iterrows(): output = replicate.run( "[base flant5-large location]", input={"prompt": row['prompt']} ) for s in output: print(s, end="", flush=True) print('') for _, row in df_chekhov_test.iterrows(): output = replicate.run( "[base flant5-large location]", input={"prompt": row['prompt']} ) for s in output: print(s, end="", flush=True) print('')


আপনার দেখা উচিত যে বেস মডেলটি একই প্যাসেজের জন্য নাট্যকারকে নির্ভরযোগ্যভাবে সনাক্ত করতে অক্ষম । এটি দেখায় যে আমাদের সূক্ষ্ম টিউনিং নির্ভরযোগ্যভাবে মডেলটিকে নতুন তথ্য দিয়েছে, এবং আমরা নিজেদেরকে একটি প্রাকৃতিক ভাষার নাট্যকার শ্রেণিবিন্যাসকারী তৈরি করেছি!


উপসংহার

আজকের নিবন্ধে, আমরা Google দ্বারা প্রদত্ত একটি বৃহৎ ভাষার মডেল, Flan-T5-এর উপর ভিত্তি করে একটি সাধারণ প্রাকৃতিক ভাষার শ্রেণিবিন্যাসকারীকে প্রশিক্ষণ দিয়েছি। এর কমপ্যাক্ট আকার এবং অনুমতিমূলক লাইসেন্সের কারণে, Flan-T5 ব্যক্তিগত পরিকাঠামোতে প্রশিক্ষিত এবং স্থাপন করা যেতে পারে, যা এটিকে বাজারের অন্যান্য জনপ্রিয় মডেল যেমন ChatGPT থেকে আলাদা করে।


যদিও আজকের উদাহরণটি জনসাধারণের ডেটার উপর ভিত্তি করে ছিল এবং সিদ্ধান্তগতভাবে অ-বাণিজ্যিক ছিল, ধারণার এই প্রমাণটি উপরে বর্ণিত হিসাবে অন্যান্য অনেক বাণিজ্যিক অ্যাপ্লিকেশনের সাথে সহজেই অভিযোজিত হতে পারে। LLM নিয়ে আপনার যদি কোনো ধারণা থাকে যা আপনি বাস্তবে পরিণত দেখতে চান, তাহলে নির্দ্বিধায় আমার GitHub বা LinkedIn পৃষ্ঠায় গিয়ে একটি কথোপকথন শুরু করুন। এছাড়াও, ChatGPT ব্যবহার করে একটি ডকুমেন্ট বিশ্লেষক তৈরি করা এবং OpenAI এর ফাইন টিউনিং API ব্যবহার করে একটি ডোমেন বিশেষজ্ঞ LLM তৈরি করা সহ আমার আগের LLM নিবন্ধগুলি নির্দ্বিধায় পড়ুন৷


হ্যাপি হ্যাকিং!