লেখক:
(1) প্রেরক গান্ধী, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, [email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(2) বিশাল প্রামানিক, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই, vishalpramanik,[email protected], এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন;
(3) পুষ্পক ভট্টাচার্য, কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং বিভাগ, ইন্ডিয়ান ইনস্টিটিউট অফ টেকনোলজি বোম্বে, মুম্বাই।
আমরা IMDB এবং IMSDb ডাটাবেস থেকে সমস্ত স্ক্রিপ্ট নিয়েছি। ওয়েবসাইটের গবেষণার জন্য স্ক্রিপ্ট ব্যবহার করার বিষয়ে একটি দাবিত্যাগ রয়েছে, যা https://imsdb.com/ disclaimer.html এই লিঙ্কে পাওয়া যাবে। আমরা স্ক্রিপ্টগুলি যথাযথভাবে এবং কপিরাইট লঙ্ঘন ছাড়াই ব্যবহার করেছি।
আমাদের দুটি ক্ষেত্রে বাহ্যিক টীকাকারদের সাহায্যের প্রয়োজন ছিল: (i) ম্যানুয়ালি স্ক্রিপ্টগুলি টীকা করা এবং (ii) দৃশ্যগুলি তৈরি করা এবং স্ক্রিপ্টগুলি থেকে তাদের বর্ণনা৷ প্রথম কাজের জন্য, আমরা 10 টি টীকাকারের সাহায্য নিয়েছিলাম। তাদের বয়স 21-28 এর মধ্যে এবং সকলেই এশিয়ান। তাদের টীকা দেওয়ার জন্য উদাহরণ সহ বিস্তারিত নির্দেশিকা দেওয়া হয়েছিল। তাদের বোঝাপড়া নিশ্চিত করতে এবং তাদের সন্দেহ ও ভুল সমাধানের জন্য পর্যায়ক্রমিক সেশনও ছিল। দ্বিতীয় কাজের জন্য, আমরা দুজন টীকাকারের সাহায্য নিয়েছিলাম। তারা দুজনেই 21-23 বছর বয়সী এশিয়ান মহিলা৷ তাদের দুজনকেই দৃশ্য-লেখার কাজের জন্য বিশদ নির্দেশিকা দেওয়া হয়েছিল। কিছু ডেটা পয়েন্ট এলোমেলোভাবে বাছাই করা হয়েছিল এবং ধারণাগত ভুলগুলি খুঁজে বের করতে এবং সংশোধন করতে পরীক্ষা করা হয়েছিল। টীকাকারীদের স্টেম এবং আর্টসে স্নাতক এবং স্নাতকোত্তর ডিগ্রি ছিল।
মূল্যায়ন মেট্রিক্স নীচে বর্ণিত হয়েছে:
বিভ্রান্তি (পিপিএল): বিভ্রান্তি ভাষা মডেল মূল্যায়নের জন্য সবচেয়ে সাধারণ মেট্রিকগুলির মধ্যে একটি। এগুলিকে এনট্রপির সূচক হিসাবে গণনা করা হয়। PPL-এর মান যত কম হবে, জেনারেট করা পাঠ্যের সাবলীলতা তত বেশি হবে।
• BLEU: B i L ingual E valuation U nderstudy হল অনেক NLP কাজের একটি সাধারণ মেট্রিক, বিশেষ করে মেশিন অনুবাদের ক্ষেত্রে। এটি উৎপন্ন আউটপুট এবং গোল্ড স্ট্যান্ডার্ড ডেটার মধ্যে ওভারল্যাপ পরিমাপ করে। যদিও এই মেট্রিকটি মডেলের সৃজনশীলতা বিবেচনা করে না, আমরা BLEU ব্যবহার করে প্রার্থীর পাঠ্য এবং রেফারেন্স পাঠ্যের মধ্যে পার্থক্য নির্ণয় করতে পারি। BLEU পরিমাপ যত বেশি হবে, তত ভাল।
• ROUGE: G isting E মূল্যায়নের জন্য R ecall- O riented U nderstudy সাধারণত স্বয়ংক্রিয় সংক্ষিপ্তকরণের মূল্যায়নের জন্য ব্যবহৃত হয়। আমাদের ক্ষেত্রে, এটি উৎপন্ন এবং মূল প্লটের মধ্যে দীর্ঘতম ওভারল্যাপিং ক্রম পরিমাপ করে। ROUGE পরিমাপ যত বেশি, তত ভাল।
• এন-গ্রাম: আমরা পুনরাবৃত্তি এবং পার্থক্য এন-গ্রাম স্কোর গণনা করে সিনেমার প্লটের অপ্রয়োজনীয়তা এবং বৈচিত্র্য পরিমাপ করি।
একটি সিনেমার চিত্রনাট্য বা চিত্রনাট্যের গল্পের চেয়ে আলাদা বিন্যাস থাকে। একটি স্ক্রিপ্ট হল দৃশ্যের একটি গ্রুপ। এই দৃশ্যগুলির প্রতিটিতে কয়েকটি প্রধান উপাদান রয়েছে, যা নীচে আলোচনা করা হয়েছে:
দৃশ্যের শিরোনাম/স্লগলাইন- এই উপাদানটি কখন এবং কোথায় দৃশ্যটি বর্ণনা করে। এটিকে ক্যামেরা একটি নতুন দৃশ্যের প্রথম শট হিসাবে ভাবা যেতে পারে। উদাহরণস্বরূপ, INT. - রেস্তোরাঁ - রাত নির্দেশ করে যে দৃশ্যটি রাতে একটি রেস্টুরেন্টের ভিতরে শুরু হয়। স্লগলাইনগুলি সাধারণত বড় অক্ষরে লেখা হয় এবং বাম-সারিবদ্ধ করা হয়।
অক্ষরের নাম - যখনই একটি চরিত্র একটি সংলাপ উচ্চারণ করতে যাচ্ছে তখন তাদের উল্লেখ করা হয়। প্রতিটি অক্ষরের নাম বড় হাতের অক্ষরে উল্লেখ করা হয়েছে এবং কেন্দ্র সারিবদ্ধ।
সংলাপ - সংলাপগুলি চরিত্রগুলি যে লাইনগুলি বলে। এগুলি একটি স্ক্রিপ্টে অক্ষরের নামের ঠিক পরে প্রদর্শিত হয় এবং কেন্দ্রীয়ভাবে সারিবদ্ধ হয়।
অ্যাকশন লাইন - অ্যাকশন লাইন একটি দৃশ্য সম্পর্কে প্রায় সবকিছু বর্ণনা করে। এগুলিকে প্রতিটি স্ক্রিপ্টের বর্ণনা হিসাবে বর্ণনা করা যেতে পারে। কথোপকথন বা স্লগলাইনগুলির পরে অ্যাকশন লাইন উপস্থিত থাকতে পারে এবং বাম-সারিবদ্ধ।
ট্রানজিশন - একটি ট্রানজিশন এক দৃশ্য থেকে অন্য দৃশ্যে পরিবর্তনকে চিহ্নিত করে। কীভাবে একটি দৃশ্যের সমাপ্তি হয় তাও তারা চিত্রিত করে। উদাহরণস্বরূপ, DISSOLVE, FADE, এবং CUT হল বিভিন্ন কীওয়ার্ড যা একটি রূপান্তর নির্দেশ করতে ব্যবহৃত হয়। এগুলি সাধারণত বড় ক্ষেত্রে থাকে এবং ডান-সারিবদ্ধ থাকে।
চিত্র 8 চিত্রনাট্য উপাদানগুলির একটি উদাহরণ দেখায়।
সময়ের সাথে সাথে বিভিন্ন টেমপ্লেট তৈরি করা হয়েছে যা গল্প তৈরি করতে সাহায্য করে। সবচেয়ে বিখ্যাত টেমপ্লেটগুলির মধ্যে একটি হল 3-অ্যাক্ট কাঠামো (ক্ষেত্র, 1979)। এই কাঠামো একটি গল্পকে সেটআপ, দ্বন্দ্ব এবং রেজোলিউশনে ভাগ করে। এই কাজে, আমরা 4-অ্যাক্ট কাঠামো ব্যবহার করেছি যা আমরা এখন বিস্তারিতভাবে বর্ণনা করি।
আইন 1 - এটি হল উদ্বোধন/পরিচয় আইন। এটি নায়কের চরিত্র বর্ণনা করে এবং মুভির থিম সংক্ষেপে পরিচয় করিয়ে দেয়। অভিনয়টি নায়কের জন্য একটি নতুন যাত্রা শুরুর সাথে শেষ হয়।
আইন 2A - আইন 2 এর বিস্তীর্ণ সময়ের কারণে, এটি দুটি আইনে বিভক্ত করা যেতে পারে। এই কাজটি সাধারণত একটি প্রেমের গল্পের সূচনা ধারণ করে। এটি দর্শকদের বিনোদনও দেয় কারণ নায়ক তাদের নতুন যাত্রার সাথে মানিয়ে নেওয়ার চেষ্টা করে। অভিনয়টি চলচ্চিত্রের মধ্যবিন্দু হিসাবে শেষ হয়, এটি চলচ্চিত্রের সমালোচনামূলক মুহূর্তগুলির মধ্যে একটি, হয় একটি খুব ইতিবাচক বা নেতিবাচক দৃশ্যের সাথে।
আইন 2B - এই আইনে সাধারণত নায়কের পতন থাকে। ভিলেন বা প্রতিপক্ষ একটি সুবিধা পেতে শুরু করে এবং নায়ক কিছু বা উল্লেখযোগ্য কাউকে হারায়। শিলার নীচে পৌঁছানোর পরে নায়ক তাদের নতুন মিশন উপলব্ধি করার সাথে অভিনয়টি শেষ হয়।
অ্যাক্ট 3 — নায়ক তাদের মধ্যে প্রয়োজনীয় পরিবর্তন উপলব্ধি করেছে এবং একটি রোমাঞ্চকর সমাপ্তিতে প্রতিপক্ষকে পরাস্ত করার জন্য প্রস্তুত হয়েছে। মুভিটি তখন নায়কের মধ্যে একটি স্বাগত পরিবর্তন প্রদর্শন করে শেষ হয় যা শুরুতে অভাব ছিল।
GPT-3 গত বছর OpenAI (Brown et al., 2020) দ্বারা সর্বজনীনভাবে উপলব্ধ বলে মনে করা হয়েছিল। এর সেরা মডেলটিতে 175B প্যারামিটার রয়েছে, যা GPT2 এর 2.9B প্যারামিটারের চেয়ে অনেক বেশি। আমরা একটি দৃশ্য জেনারেশন মডেলের সাথে GPT-3 সহ একাধিক প্লট জেনারেশন মডেলগুলিকে সূক্ষ্মভাবে তৈরি করেছি। প্লট জেনারেশন মডেলের একাধিক সংমিশ্রণ হল ছোট বা দীর্ঘ প্রম্পট এবং জেনার সহ বা ছাড়া। উপরের সব কম্বিনেশনের জন্য GPT-3 মডেল এবং হাইপারপ্যারামিটার একই থাকে। আমরা চারটি যুগের জন্য GPT-3 Curie মডেলটি সূক্ষ্মভাবে তৈরি করেছি। টেক্সট তৈরি করার জন্য, GPT-3 টিউন করতে এবং আমাদের কাঙ্ক্ষিত ফলাফলের কাছাকাছি যাওয়ার জন্য বিভিন্ন হাইপারপ্যারামিটার অফার করে। পরীক্ষার জন্য, আমরা নিম্নরূপ অন্যান্য হাইপারপ্যারামিটার সেট করি: তাপমাত্রা 0.7 হিসাবে, শীর্ষ-p হিসাবে 1, ফ্রিকোয়েন্সি পেনাল্টি 0.1 হিসাবে, উপস্থিতি শাস্তি 0.1 হিসাবে এবং সর্বাধিক টোকেন 900 হিসাবে।
এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।