লেখক:
(1) প্রেরক গান্ধী, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, [email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(2) বিশাল প্রামানিক, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, vishalpramanik,[email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(3) পুষ্পক ভট্টাচার্য, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই।
সিনেমার প্লট জেনারেশনের জন্য, আমরা উইকিপিডিয়া থেকে প্লটগুলো নিয়েছি। এই কাজের জন্য অনুরোধগুলি IMDb থেকে নেওয়া হয়েছে। IMDb-এ, এই প্রম্পট দুই ধরনের হতে পারে। প্রথমটি হল মুভিটির একটি সংক্ষিপ্ত বিবরণ (15-40 শব্দ), যখন দ্বিতীয়টি একটি দীর্ঘ গল্পরেখা, যা 30-200 শব্দের মধ্যে পরিবর্তিত হয় এবং মুভির বিভিন্ন চরিত্র এবং ঘটনা সম্পর্কে আরও অনেক বিশদ রয়েছে। আমরা আইএমডিবি থেকে প্রতিটি ছবির জেনারও সংগ্রহ করেছি। তারপরে আমরা একটি 4-অ্যাক্ট কাঠামো ব্যবহার করে প্লটগুলিকে ভাগ করি। দৃশ্য তৈরির জন্য, আমরা IMSDb থেকে স্ক্রিপ্টগুলি নিয়ে থাকি এবং একটি দৃশ্যের মূল উপাদানগুলির সাথে তাদের টীকা করি।
আমরা পাইথনে উইকিপিডিয়া মডিউল ব্যবহার করে উইকিপিডিয়া থেকে নেওয়া বলিউড এবং হলিউড উভয় প্লটের সমন্বয়ে 1000টি প্লটের একটি ডেটাসেট তৈরি করেছি। সংগৃহীত প্লটগুলি গড়ে প্রায় 700 শব্দ দীর্ঘ।
আমরা পরিশিষ্ট A.5-এ বর্ণিত 4-অ্যাক্ট কাঠামো ব্যবহার করে প্লটগুলিকে ম্যানুয়ালি 4 ভাগে ভাগ করে টীকা করি। আমরা প্রতিটি কাজের শেষে একটি একক ট্যাগ রাখি: 〈এক〉 (অ্যাক্ট 1), 〈টু-এ〉 (অ্যাক্ট 2 পার্ট এ), 〈টু-বি〉 (অ্যাক্ট 2 পার্ট বি) এবং 〈তিন〉 (অ্যাক্ট 3) ) সীমাবদ্ধকারী হিসাবে। প্লট টীকা জন্য একটি উদাহরণ পরিশিষ্ট (চিত্র 6) দেওয়া হয়েছে.
মডেল দ্বারা উত্পন্ন প্লটগুলিতে কিছুটা নিয়ন্ত্রণযোগ্যতা আনতে, আমরা গল্পের সাথে ডেটাসেটে চলচ্চিত্রের জেনারগুলি চালু করেছি। আমরা গল্পের শুরুতে জেনারগুলিকে একত্রিত করি। চিত্র 2 ডেটাসেটে জেনারগুলির বিতরণ দেখায়।
সিনেমার স্ক্রিপ্ট অনেক লম্বা। একটি 2 ঘন্টার চলচ্চিত্র প্রায় 30,000 শব্দের সাথে মিলে যায়। সৃজনশীল টেক্সট তৈরির জন্য ব্যবহৃত ভাষা মডেল, যেমন GPT-2 এবং GPT-3, যথাক্রমে 1024 এবং 2048-এর টোকেন সীমা রয়েছে, যা একযোগে একটি সম্পূর্ণ স্ক্রিপ্ট পরিচালনা করা অসম্ভব করে তোলে। তাই, আমরা স্ক্রিপ্টগুলিকে দৃশ্যে ভাগ করেছি এবং ম্যানুয়ালি তাদের সংক্ষিপ্ত বিবরণ তৈরি করেছি। এটি পূর্ববর্তী দৃশ্যের উপর নির্ভর না করে স্বাধীনভাবে দৃশ্যগুলিকে প্রশিক্ষণের অনুমতি দেয়।
সিনেমার স্ক্রিপ্টগুলি পরিশিষ্ট A.4-তে বর্ণিত একাধিক উপাদান নিয়ে গঠিত। বিভিন্ন উপাদান প্রতিটি উপাদানকে আলাদা করতে শেখার ক্ষেত্রে মডেলদের অসুবিধা বাড়ায়। এই বাধা অতিক্রম করার জন্য, আমরা স্ক্রিপ্ট জুড়ে চারটি প্রধান উপাদান ট্যাগ করি — স্লগলাইন, অ্যাকশন লাইন, সংলাপ এবং চরিত্রের নাম।
আমরা প্রতিটি স্ক্রিপ্টে উপস্থিত চারটি প্রধান উপাদান রাখি — স্লগলাইন, অ্যাকশন লাইন, চরিত্রের নাম এবং সংলাপগুলি — এবং পৃষ্ঠা নম্বর, রূপান্তর বা দৃশ্যের তারিখের মতো অন্য যেকোন তথ্য সরিয়ে ফেলি। চারটি প্রধান উপাদানের ট্যাগিং শুরু এবং শেষ ট্যাগগুলি ব্যবহার করে করা হয় যা উপাদানগুলির চারপাশে মোড়ানো হয়, যেমনটি নীচে দেখানো হয়েছে:
• স্লগলাইন: 〈bsl〉...〈esl〉
• অ্যাকশন লাইন: 〈bal〉...〈eal〉
• চরিত্রের নাম: 〈bcn〉...〈ecn〉
• সংলাপ: 〈bd〉...〈ed〉
একটি টীকাযুক্ত দৃশ্যের একটি উদাহরণ চিত্র 3 এ দেখা যায়।
এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।