paint-brush
"कुरोसावा": एक पटकथा लेखक का सहायक: परिणाम और विश्लेषणद्वारा@teleplay

"कुरोसावा": एक पटकथा लेखक का सहायक: परिणाम और विश्लेषण

द्वारा Teleplay Technology 4m2024/05/23
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने KUROSAWA का परिचय दिया है, जो कथानक और स्क्रिप्ट निर्माण के लिए एक AI स्क्रिप्ट-लेखन कार्यक्षेत्र है, जो मनोरंजन मीडिया में स्वचालन पर ध्यान केंद्रित करता है।
featured image - "कुरोसावा": एक पटकथा लेखक का सहायक: परिणाम और विश्लेषण
Teleplay Technology  HackerNoon profile picture
0-item

लेखक:

(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, [email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,[email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।

लिंक की तालिका

6. परिणाम और विश्लेषण

हम अपने अवलोकन और मूल्यांकन प्रस्तुत करते हैं। हमारे कार्य की प्रकृति के कारण मानवीय मूल्यांकन स्वचालित मूल्यांकन से अधिक महत्वपूर्ण है (आखिरकार यह स्वचालित मूवी स्क्रिप्ट निर्माण के लिए है!)। हमारे द्वारा तैयार किए गए कथानक और दृश्यों का गुणात्मक विश्लेषण हमारे उद्योग भागीदार, प्रसिद्ध मीडिया प्लेटफ़ॉर्म के 5 पेशेवर स्क्रिप्ट लेखकों से प्राप्त फीडबैक पर आधारित है।

6.1. प्लॉट निर्माण

6.1.1. स्वचालित मूल्यांकन

तालिका 1 में बहु GPT-3 प्लॉट निर्माण मॉडलों के लिए स्वतः-मूल्यांकन स्कोर दर्शाया गया है।


चित्र 4: उपरोक्त पैराग्राफ मॉडल द्वारा उत्पन्न मूवी प्लॉट का आंशिक उदाहरण है, जिसे लघु कथा के रूप में इनपुट और 4-अंक संरचना के साथ एनोटेट प्लॉट के रूप में आउटपुट के साथ परिष्कृत किया गया है।

6.1.2. मानव रेटिंग

हमने हॉलीवुड एनोटेटेड शॉर्ट इनपुट मॉडल पर मानव मूल्यांकन किया। मूल्यांकन 3 लोगों के पांच समूहों द्वारा किया गया था, प्रत्येक समूह के साथ


तालिका 1: GPT-3 पर O, AS, ASG, AL, ALG (5.1) के रूप में फाइन-ट्यून किए गए 5 हॉलीवुड प्लॉट जनरेशन मॉडल के लिए सामान्य मूल्यांकन मेट्रिक्स से स्कोर


10 अद्वितीय प्लॉट दिए गए हैं। 5 विशेषताओं के लिए दी गई रेटिंग चित्र 5 में हैं। प्रवाह, रचनात्मकता, पसंद, सुसंगति और प्रासंगिकता के औसत अंक क्रमशः 3.98, 3.29, 2.97, 2.65 और 2.55 हैं। लगभग 4 की प्रवाहशीलता एक भाषा मॉडल के रूप में GPT-3 की शक्ति का सूचक है। रचनात्मकता और पसंद लगभग 3.0 के मूल्य पर सम्मानजनक हैं। कम BLEU स्कोर औसत रचनात्मकता स्कोर (तालिका 1) का समर्थन करते हैं। चित्र 5 इंगित करता है कि सुसंगति और प्रासंगिकता में अभी भी सुधार की बहुत गुंजाइश है।


MAUVE (Pillutla et al., 2021) मान तंत्रिका पाठ और मानव पाठ के बीच के अंतर को मापता है। हमने 20 प्लॉट और 50 प्लॉट के लिए MAUVE स्कोर की अलग-अलग गणना की है। दोनों प्रयोगों के लिए MAUVE स्कोर का भारित औसत 0.48 है जो काफी अच्छा है।

6.1.3. गुणात्मक अवलोकन

हमारे उद्योग साझेदार के पेशेवर पटकथा लेखकों ने निम्नलिखित टिप्पणियां दी हैं:


गैर-एनोटेटेड हॉलीवुड प्लॉट


• कथानक रचनात्मक और रोचक है, लेकिन अंत असंगत हो जाता है।


• कुछ पात्र जिनका परिचय शुरुआत में दिया गया है, उनका दोबारा उल्लेख नहीं किया गया।


• आउटपुट इनपुट में उल्लिखित मुख्य बिंदुओं या विषय को चित्रित नहीं कर रहा है।


हॉलीवुड के एनोटेटेड प्लॉट


• कथानक अधिक सुसंगत है, तथा अंत तार्किक है।


• अभी भी मतिभ्रम मौजूद है (सभी मॉडलों की एक सामान्य विशेषता)।


• लंबे इनपुट ने प्लॉट को मुख्य बिंदुओं के प्रति अधिक सजग बना दिया।


हॉलीवुड के कथानकों की व्याख्या, शैलियों सहित


• उपरोक्त बिंदुओं के साथ-साथ, अब उत्पन्न कथानक उस फिल्म की शैली या शैलियों की ओर अधिक झुका हुआ है जिसे लेखक बनाना चाहता है।


• शैली जोड़ने से मॉडल द्वारा उत्पन्न कथानक के प्रकार पर कुछ नियंत्रण मिलता है।


एनोटेट बॉलीवुड प्लॉट


• आउटपुट में अंतिम दो पैराग्राफों में असंगति और पूरे कथानक में समान पात्रों की पुनरावृत्ति दिखाई देती है।


• कथानक का प्रवाह पर्याप्त तेज़ नहीं है, यानि कथानक अधिक आगे नहीं बढ़ता।


• कई आउटपुट में 1990 के दशक की थीम है, जहाँ किरदार अलग हो जाते हैं और बाद में एक दूसरे को ढूंढ लेते हैं। ऐसा कम आधुनिक प्लॉट वाले विषम डेटासेट के कारण होता है।

6.2. दृश्य निर्माण

हमने अपने डेटासेट के साथ दृश्य निर्माण के लिए GPT-3 को ठीक किया। हमने 5.1 में उल्लिखित मॉडल का उपयोग करके दस दृश्य तैयार किए। परिशिष्ट में चित्र 7. पूरी तरह से तैयार किए गए दृश्य का एक उदाहरण दिखाता है।

6.2.1. मानव रेटिंग

हमने उपरोक्त मॉडल द्वारा उत्पन्न 10 दृश्यों पर मानवीय मूल्यांकन किया। 5 लोगों ने लिकर्ट स्केल का उपयोग करके दृश्यों का मूल्यांकन किया। पाँच विशेषताओं के लिए रेटिंग चित्र 5 में देखी जा सकती है। प्रवाह, रचनात्मकता, पसंद, सुसंगतता और प्रासंगिकता के औसत अंक क्रमशः 4.48, 3.9, 3.48, 3.46 और 3.86 हैं। सभी मान तटस्थ चिह्न से ऊपर हैं और इसका मतलब है कि उत्पन्न दृश्य मानव-लिखित दृश्यों के करीब हैं।


चित्र 5: प्लॉट और दृश्य निर्माण मॉडल के मानव मूल्यांकन के लिए बॉक्सप्लॉट ग्राफ़।

6.2.2. गुणात्मक अवलोकन

इस खंड में, हम GPT-3 मॉडल द्वारा उत्पन्न दृश्यों की गुणवत्ता का विश्लेषण करते हैं। यह विश्लेषण पहले उल्लेखित मीडिया कंपनी के पेशेवर स्क्रिप्ट लेखकों द्वारा किया गया है।


• मॉडल एक अच्छी तरह से संरचित दृश्य उत्पन्न करता है।


• यह नये पात्रों का निर्माण कर सकता है और संवादों की रचना कर सकता है, भले ही वे महत्वहीन हों।


• इनपुट के मुख्य बिंदु आउटपुट में पाए जा सकते हैं।


• कुछ पंक्तियाँ ऐसी हैं जो दोहराई गई हैं।


• आउटपुट पूरी तरह से सुसंगत नहीं है.


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।