লেখক:
(1) প্রেরক গান্ধী, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, [email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(2) বিশাল প্রামানিক, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, vishalpramanik,[email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(3) পুষ্পক ভট্টাচার্য, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই।
আমরা আমাদের পর্যবেক্ষণ এবং মূল্যায়ন উপস্থাপন. আমাদের কাজের প্রকৃতি মানুষের মূল্যায়নকে স্বয়ংক্রিয় মূল্যায়নের চেয়ে অগ্রাধিকার দেয় (এটি স্বয়ংক্রিয় মুভি স্ক্রিপ্ট প্রজন্মের জন্য, সর্বোপরি!) আমাদের তৈরি করা প্লট এবং দৃশ্যগুলির গুণগত বিশ্লেষণ আমাদের শিল্প অংশীদার, সুপরিচিত মিডিয়া প্ল্যাটফর্মের 5 পেশাদার স্ক্রিপ্টরাইটারের প্রতিক্রিয়ার উপর ভিত্তি করে।
সারণি 1 একাধিক GPT-3 প্লট জেনারেশন মডেলের জন্য স্বয়ংক্রিয় মূল্যায়ন স্কোর দেখায়।
আমরা হলিউড টীকাযুক্ত সংক্ষিপ্ত ইনপুট মডেলের উপর মানব মূল্যায়ন করেছি। প্রতিটি গ্রুপের সাথে 3 জনের পাঁচটি গ্রুপ দ্বারা মূল্যায়ন করা হয়েছিল
10টি অনন্য প্লট বরাদ্দ করা হয়েছে। 5টি বৈশিষ্ট্যের জন্য প্রদত্ত রেটিং চিত্র 5-এ রয়েছে। সাবলীলতা, সৃজনশীলতা, পছন্দ, সুসংগততা এবং প্রাসঙ্গিকতার গড় স্কোর যথাক্রমে 3.98, 3.29, 2.97, 2.65 এবং 2.55 । প্রায় 4 এর সাবলীলতা একটি ভাষা মডেল হিসাবে GPT-3 এর শক্তির একটি সূচক। সৃজনশীলতা এবং পছন্দযোগ্যতা প্রায় 3.0 এর মূল্যে সম্মানজনক। কম BLEU স্কোর গড় সৃজনশীলতা স্কোর সমর্থন করে (সারণী 1)। চিত্র 5 নির্দেশ করে যে সুসংগততা এবং প্রাসঙ্গিকতার এখনও উন্নতির জন্য বড় জায়গা রয়েছে।
MAUVE (Pillutla et al., 2021) মান নিউরাল টেক্সট এবং মানুষের টেক্সটের মধ্যে ব্যবধান পরিমাপ করে। আমরা আলাদাভাবে 20টি প্লট এবং 50টি প্লটের জন্য MAUVE স্কোর গণনা করেছি। দুটি পরীক্ষার জন্য MAUVE স্কোরের ওজনযুক্ত গড় হল 0.48 যা যুক্তিসঙ্গতভাবে ভাল।
আমাদের শিল্প অংশীদার থেকে পেশাদার স্ক্রিপ্টরাইটাররা নিম্নলিখিত পর্যবেক্ষণগুলি দিয়েছেন:
অ-টীকাযুক্ত হলিউড প্লট
• বিল্ড আপ সৃজনশীল এবং আকর্ষণীয়, কিন্তু সমাপ্তি বেমানান হয়ে যায়।
• কিছু অক্ষর যা শুরুতে প্রবর্তিত হয় তা আর কখনও উল্লেখ করা হয় না।
• আউটপুট মূল পয়েন্ট বা ইনপুট উল্লিখিত থিম চিত্রিত করা হয় না.
টীকাযুক্ত হলিউড প্লট
• প্লটগুলি অনেক বেশি সুসংগত, এবং শেষগুলি যৌক্তিক৷
• এখনও হ্যালুসিনেশন আছে (সমস্ত মডেলের একটি সাধারণ বৈশিষ্ট্য)।
• দীর্ঘ ইনপুটগুলি প্লটগুলিকে মূল পয়েন্টগুলিতে আরও মনোযোগী করে তুলেছে।
টীকাযুক্ত হলিউড প্লট সহ জেনারস অন্তর্ভুক্ত
• উপরের পয়েন্টগুলির পাশাপাশি, এখন তৈরি করা প্লটগুলি লেখক যে সিনেমা তৈরি করতে চান তার জেনার বা ঘরানার দিকে আরও ঝুঁকছে।
• জেনার সংযোজন মডেল দ্বারা উত্পন্ন প্লট ধরনের উপর কিছু নিয়ন্ত্রণ দেয়।
টীকাযুক্ত বলিউড প্লট
• আউটপুটগুলি শেষ দুটি অনুচ্ছেদে অসামঞ্জস্য দেখায় এবং প্লট জুড়ে একই অক্ষরের পুনরাবৃত্তি।
• প্লটের প্রবাহ যথেষ্ট দ্রুত নয়, অর্থাৎ প্লটটি বেশি এগিয়ে যায় না।
• অনেক আউটপুট তাদের চারপাশে একটি 1990 এর থিম আছে, যেখানে অক্ষরগুলি আলাদা করা হয় এবং তারপর একে অপরকে পরে খুঁজে পায়। এটি কম আধুনিক প্লট সহ একটি তির্যক ডেটাসেটের কারণে।
আমরা আমাদের ডেটাসেট দিয়ে দৃশ্য তৈরির জন্য GPT-3 ফাইন-টিউন করেছি। আমরা 5.1-এ উল্লিখিত মডেলগুলি ব্যবহার করে দশটি দৃশ্য তৈরি করেছি। পরিশিষ্টে চিত্র 7। একটি সম্পূর্ণ উত্পন্ন দৃশ্যের উদাহরণ দেখায়।
আমরা উপরের মডেল দ্বারা উত্পন্ন 10 টি দৃশ্যের উপর একটি মানব মূল্যায়ন পরিচালনা করেছি। 5 জন লোক লিকার্ট স্কেল ব্যবহার করে দৃশ্যের মূল্যায়ন করেছেন। পাঁচটি বৈশিষ্ট্যের রেটিং চিত্র 5-এ দেখা যেতে পারে। সাবলীলতা, সৃজনশীলতা, পছন্দ, সুসংগততা এবং প্রাসঙ্গিকতার গড় স্কোর যথাক্রমে 4.48, 3.9, 3.48, 3.46 এবং 3.86 । সমস্ত মান নিরপেক্ষ চিহ্নের উপরে এবং বোঝায় যে উত্পন্ন দৃশ্যগুলি মানব-লিখিত দৃশ্যের কাছাকাছি।
এই বিভাগে, আমরা GPT-3 মডেল দ্বারা উত্পন্ন দৃশ্যের গুণমান বিশ্লেষণ করি। এই বিশ্লেষণটি পূর্বে উল্লেখিত মিডিয়া কোম্পানির পেশাদার স্ক্রিপ্টরাইটারদের দ্বারা করা হয়েছে।
• মডেলটি একটি সুগঠিত দৃশ্য তৈরি করে।
• এটি নতুন অক্ষর তৈরি করতে পারে এবং কথোপকথন তৈরি করতে পারে এমনকি যখন সেগুলি গুরুত্বহীন হয়।
• ইনপুট থেকে মূল পয়েন্টগুলি আউটপুটে পাওয়া যাবে।
• কিছু লাইন আছে যেগুলো পুনরাবৃত্তিমূলক।
• আউটপুট সম্পূর্ণরূপে সুসংগত নয়।
এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।