paint-brush
"कुरोसावा", एक पटकथा लेखक का सहायक: सार और परिचयद्वारा@teleplay
422 रीडिंग
422 रीडिंग

"कुरोसावा", एक पटकथा लेखक का सहायक: सार और परिचय

द्वारा Teleplay Technology 5m2024/05/23
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने KUROSAWA का परिचय दिया है, जो कथानक और स्क्रिप्ट निर्माण के लिए एक AI स्क्रिप्ट-लेखन कार्यक्षेत्र है, जो मनोरंजन मीडिया में स्वचालन पर ध्यान केंद्रित करता है।
featured image - "कुरोसावा", एक पटकथा लेखक का सहायक: सार और परिचय
Teleplay Technology  HackerNoon profile picture
0-item

लेखक:

(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, [email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,[email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।

लिंक की तालिका

अमूर्त

कहानी सुनाना मनोरंजन उद्योग की जीवन रेखा है- फ़िल्में, टीवी शो और स्टैंड-अप कॉमेडी, सभी को कहानियों की ज़रूरत होती है। एक अच्छी और मनोरंजक स्क्रिप्ट कहानी सुनाने की जीवन रेखा है और रचनात्मकता और संसाधन निवेश की मांग करती है। अच्छे स्क्रिप्ट राइटर मिलना मुश्किल है और अक्सर समय के दबाव में काम करते हैं। नतीजतन, मनोरंजन मीडिया सक्रिय रूप से स्वचालन की तलाश कर रहा है। इस पेपर में, हम KUROSAWA नामक एक AI आधारित स्क्रिप्ट-लेखन कार्यक्षेत्र प्रस्तुत करते हैं जो प्लॉट निर्माण और स्क्रिप्ट निर्माण के कार्यों को संबोधित करता है। प्लॉट निर्माण का उद्देश्य एक संकेत (15-40 शब्द) दिए जाने पर एक सुसंगत और रचनात्मक प्लॉट (600-800 शब्द) उत्पन्न करना है। दूसरी ओर, स्क्रिप्ट निर्माण एक संक्षिप्त विवरण (15-40 शब्द) से स्क्रीनप्ले प्रारूप में एक दृश्य (200-500 शब्द) उत्पन्न करता है। कुरोसावा को प्रशिक्षित करने के लिए डेटा की आवश्यकता होती है। हम प्लॉट डेटासेट को मैन्युअल रूप से एनोटेट करने के लिए कहानी कहने की 4-अधिनियम संरचना का उपयोग करते हैं। हम 1000 मैन्युअल रूप से एनोटेट किए गए प्लॉट और उनके संबंधित प्रॉम्प्ट/स्टोरीलाइन का एक डेटासेट और 1000 दृश्यों का एक गोल्ड-स्टैंडर्ड डेटासेट बनाते हैं जिसमें चार मुख्य तत्व होते हैं - सीन हेडिंग, एक्शन लाइन, डायलॉग और कैरेक्टर नाम - जिन्हें अलग-अलग टैग किया जाता है। हम प्लॉट और सीन बनाने के लिए उपरोक्त डेटासेट के साथ GPT-3 को फाइन-ट्यून करते हैं। इन प्लॉट और सीन का पहले मूल्यांकन किया जाता है और फिर एक बड़े और प्रसिद्ध मीडिया प्लेटफ़ॉर्म ErosNow[1] के स्क्रिप्ट राइटर द्वारा उपयोग किया जाता है। हम एनोटेट किए गए डेटासेट और इन डेटासेट पर प्रशिक्षित मॉडल को स्वचालित मूवी प्लॉट और स्क्रिप्ट जनरेशन के लिए एक कार्यशील बेंचमार्क के रूप में जारी करते हैं।

1 परिचय

फ़िल्में दुनिया भर के लोगों के लिए मनोरंजन के सबसे लोकप्रिय स्रोतों में से एक हैं और शिक्षा और सामाजिक जागरूकता के लिए एक मजबूत माध्यम हो सकती हैं। फ़िल्म उद्योगों के प्रभाव और प्रभाव का अंदाजा इस बात से लगाया जा सकता है कि हॉलीवुड फ़िल्में इस काम में लाखों डॉलर का निवेश करती हैं और अक्सर अरबों डॉलर का बॉक्सऑफ़िस कलेक्शन करती हैं। पहली मोशन पिक्चर द ग्रेट ट्रेन रॉबरी, 1903 - बिना आवाज़ के ब्लैक एंड व्हाइट - 20वीं सदी की शुरुआत में बनाई गई थी। तब से, कला कई परिवर्तनों से गुज़री है, और अब लोग किसी भी स्मार्ट डिवाइस पर अपनी पसंद की 4K HD फ़िल्में तुरंत एक्सेस कर सकते हैं।


फिल्म के इतिहास में, किसी फिल्म की ब्लॉकबस्टर सफलता में योगदान देने वाले दो कारक हैं, उसका कथानक और कहानी कहने का तरीका। अगर दर्शकों को कथानक बहुत ही नीरस लगता है तो फिल्म की अपील बहुत कम हो जाती है। इसलिए, एक रचनात्मक और रोमांचक स्क्रिप्ट लिखना एक महत्वपूर्ण आवश्यकता है और बेहद चुनौतीपूर्ण है। इसमें समय और बजट की कमी को जोड़ दें, तो स्क्रिप्ट लेखन में (कम से कम आंशिक रूप से) स्वचालन की आवश्यकता स्पष्ट हो जाती है।


AI-आधारित कहानी निर्माण का उपयोग पहले भी किया जा चुका है। लेखन की संलग्नता-प्रतिबिंब संज्ञानात्मक व्याख्या के आधार पर, कंप्यूटर मॉडल MEXICA (पेरेज़ और शार्पल्स, 2001) छोटी कहानियों के लिए रूपरेखा तैयार करता है। BRUTUS (ब्रिंग्सजॉर्ड और फेरुची, 1999) विश्वासघात जैसे पूर्वनिर्धारित विषयों के साथ छोटी कहानियाँ बनाता है। पूर्व-प्रशिक्षित ट्रांसफ़ॉर्मर मॉडल के आगमन के साथ, स्वचालित कहानी निर्माण को बढ़ावा मिला है। GPT-2 और GPT-3 जैसे ट्रांसफ़ॉर्मर मॉडल का उपयोग टेक्स्ट निर्माण के लिए बड़े पैमाने पर किया जाता है। इन मॉडलों ने रचनात्मक टेक्स्ट बनाने की क्षमता दिखाई है, हालांकि कभी-कभी मतिभ्रम के साथ (झाओ एट अल।, 2020)। इन मॉडलों द्वारा उत्पन्न टेक्स्ट में कभी-कभी सुसंगतता और एकजुटता का अभाव होता है। दूसरी ओर, टेम्प्लेट-आधारित मॉडल सुसंगत टेक्स्ट उत्पन्न कर सकते हैं, लेकिन कथानक में नए पात्रों और घटनाओं को उत्पन्न करने में रचनात्मकता की कमी होती है (काले और रस्तोगी, 2020)।


फिल्म बनाने की प्रक्रिया आम तौर पर एक विचार से शुरू होती है, जिसका उपयोग फिर कथानक बनाने के लिए किया जाता है, जिसे फिल्म की पटकथा बनाने के लिए आधार के रूप में उपयोग किया जाता है (चित्र 1)।


इस शोधपत्र की एक महत्वपूर्ण विशेषता नए डेटासेट हैं। हमने बॉलीवुड और हॉलीवुड की फिल्मों के कथानक और संकेतों का बारीकी से अध्ययन किया। ऐसे कथानक और संकेत क्रमशः विकिपीडिया[2] और IMDb[3] से लिए गए थे। फिर कथानक को 4-अधिनियम कहानी संरचना का उपयोग करके एनोटेट किया जाता है - जो कि प्रसिद्ध 3-अधिनियम संरचना (फील्ड, 1979) का विस्तार है। 4-अधिनियम संरचना और एनोटेशन विधियों को क्रमशः परिशिष्ट A.5 और अनुभाग 4 में विस्तार से समझाया गया है।


चित्र 1: एक पटकथा लेखक द्वारा फिल्म की पटकथा लिखने में अपनाई जाने वाली विचार प्रक्रिया। एक विचार (कहानी) एक कथानक की ओर ले जाती है जिसे फिर एक फिल्म की पटकथा में बदल दिया जाता है।


हम 1000 हॉलीवुड मूवी दृश्यों और उनके संक्षिप्त विवरणों का एक डेटासेट पेश करते हैं। स्क्रिप्ट IMSDb[4] से स्क्रैप की गई हैं। दृश्यों को स्क्रीनप्ले के चार प्रमुख घटकों के साथ एनोटेट किया गया है: स्लगलाइन, एक्शन लाइन, चरित्र नाम और संवाद, जिनका विवरण परिशिष्ट A.4 में दिया गया है।


हम एक वर्कबेंच पेश करते हैं जिसे हम "कुरोसावा" कहते हैं, जिसमें डेटासेट और GPT-3 (ब्राउन एट अल., 2020) मॉडल की एक जोड़ी शामिल है, जो उक्त डेटासेट के साथ ठीक से ट्यून की गई है। एक GPT-3 मॉडल कहानी के संक्षिप्त विवरण (15-40 शब्द) के आधार पर एक मूवी प्लॉट तैयार करता है, जबकि दूसरा आवश्यक दृश्य के संक्षिप्त विवरण के आधार पर एक दृश्य बनाता है।


महत्वपूर्ण बात यह है कि हमने फिल्मों और टीवी शो बनाने, संगीत और साउंडट्रैक आदि के निर्माण के व्यवसाय में लगे सबसे बड़े मीडिया प्लेटफार्मों में से एक को "कुरोसावा" मंच प्रदान किया है - ताकि विभिन्न फिल्म उद्योगों के पटकथा और सामग्री लेखकों को नई फिल्म प्लॉट बनाने में मदद मिल सके।


इस कार्य में हमारा योगदान इस प्रकार है:


• जहां तक हमारी जानकारी है, यह किसी दृश्य विवरण से फिल्म के दृश्य तैयार करने का पहला काम है।


• हम दो डेटासेट बनाते हैं और सार्वजनिक रूप से जारी करते हैं: (ए) 1000 मूवी स्टोरीलाइन और उनके संबंधित प्लॉट का एक समानांतर डेटासेट, (बी) 1000 मूवी दृश्यों और उनके संबंधित विवरणों का एक समानांतर डेटासेट। (ए) में, हम IMDb से उपलब्ध मूवी स्टोरीलाइन को विकिपीडिया से उपलब्ध संबंधित मूवी प्लॉट के साथ जोड़ते हैं। (बी) में, हम IMSDb से उपलब्ध मूवी दृश्यों को IMDb से संबंधित विवरणों के साथ जोड़ते हैं।


• हम 4-अधिनियम संरचना के अनुसार मैन्युअल रूप से मूवी प्लॉट को एनोटेट करते हैं जो कि प्रसिद्ध 3-अधिनियम संरचना (फील्ड, 1979) का विस्तार है। मीडिया और मनोरंजन उद्योग के पेशेवर पटकथा लेखकों ने हमारा बहुत बारीकी से मार्गदर्शन किया।


• हम फिल्म के दृश्यों को मैन्युअल रूप से चार प्रमुख घटकों के साथ एनोटेट करते हैं: स्लगलाइन, एक्शन लाइन, चरित्र नाम और संवाद, साथ ही दृश्य का संक्षिप्त विवरण।


• हम "कुरोसावा" पेश करते हैं: एक कार्यक्षेत्र जिसमें कई डेटासेट और मॉडल शामिल हैं जो फिल्म उद्योग में पटकथा और दृश्य लेखकों की सहायता कर सकते हैं।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] https://erosnow.com/


[2] https://www.wikipedia.org/


[3] https://www.imdb.com/


[4] https://www.imsdb.com/