लेखक:
(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, [email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,[email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।
हम अपने अवलोकन और मूल्यांकन प्रस्तुत करते हैं। हमारे कार्य की प्रकृति के कारण मानवीय मूल्यांकन स्वचालित मूल्यांकन से अधिक महत्वपूर्ण है (आखिरकार यह स्वचालित मूवी स्क्रिप्ट निर्माण के लिए है!)। हमारे द्वारा तैयार किए गए कथानक और दृश्यों का गुणात्मक विश्लेषण हमारे उद्योग भागीदार, प्रसिद्ध मीडिया प्लेटफ़ॉर्म के 5 पेशेवर स्क्रिप्ट लेखकों से प्राप्त फीडबैक पर आधारित है।
तालिका 1 में बहु GPT-3 प्लॉट निर्माण मॉडलों के लिए स्वतः-मूल्यांकन स्कोर दर्शाया गया है।
हमने हॉलीवुड एनोटेटेड शॉर्ट इनपुट मॉडल पर मानव मूल्यांकन किया। मूल्यांकन 3 लोगों के पांच समूहों द्वारा किया गया था, प्रत्येक समूह के साथ
10 अद्वितीय प्लॉट दिए गए हैं। 5 विशेषताओं के लिए दी गई रेटिंग चित्र 5 में हैं। प्रवाह, रचनात्मकता, पसंद, सुसंगति और प्रासंगिकता के औसत अंक क्रमशः 3.98, 3.29, 2.97, 2.65 और 2.55 हैं। लगभग 4 की प्रवाहशीलता एक भाषा मॉडल के रूप में GPT-3 की शक्ति का सूचक है। रचनात्मकता और पसंद लगभग 3.0 के मूल्य पर सम्मानजनक हैं। कम BLEU स्कोर औसत रचनात्मकता स्कोर (तालिका 1) का समर्थन करते हैं। चित्र 5 इंगित करता है कि सुसंगति और प्रासंगिकता में अभी भी सुधार की बहुत गुंजाइश है।
MAUVE (Pillutla et al., 2021) मान तंत्रिका पाठ और मानव पाठ के बीच के अंतर को मापता है। हमने 20 प्लॉट और 50 प्लॉट के लिए MAUVE स्कोर की अलग-अलग गणना की है। दोनों प्रयोगों के लिए MAUVE स्कोर का भारित औसत 0.48 है जो काफी अच्छा है।
हमारे उद्योग साझेदार के पेशेवर पटकथा लेखकों ने निम्नलिखित टिप्पणियां दी हैं:
गैर-एनोटेटेड हॉलीवुड प्लॉट
• कथानक रचनात्मक और रोचक है, लेकिन अंत असंगत हो जाता है।
• कुछ पात्र जिनका परिचय शुरुआत में दिया गया है, उनका दोबारा उल्लेख नहीं किया गया।
• आउटपुट इनपुट में उल्लिखित मुख्य बिंदुओं या विषय को चित्रित नहीं कर रहा है।
हॉलीवुड के एनोटेटेड प्लॉट
• कथानक अधिक सुसंगत है, तथा अंत तार्किक है।
• अभी भी मतिभ्रम मौजूद है (सभी मॉडलों की एक सामान्य विशेषता)।
• लंबे इनपुट ने प्लॉट को मुख्य बिंदुओं के प्रति अधिक सजग बना दिया।
हॉलीवुड के कथानकों की व्याख्या, शैलियों सहित
• उपरोक्त बिंदुओं के साथ-साथ, अब उत्पन्न कथानक उस फिल्म की शैली या शैलियों की ओर अधिक झुका हुआ है जिसे लेखक बनाना चाहता है।
• शैली जोड़ने से मॉडल द्वारा उत्पन्न कथानक के प्रकार पर कुछ नियंत्रण मिलता है।
एनोटेट बॉलीवुड प्लॉट
• आउटपुट में अंतिम दो पैराग्राफों में असंगति और पूरे कथानक में समान पात्रों की पुनरावृत्ति दिखाई देती है।
• कथानक का प्रवाह पर्याप्त तेज़ नहीं है, यानि कथानक अधिक आगे नहीं बढ़ता।
• कई आउटपुट में 1990 के दशक की थीम है, जहाँ किरदार अलग हो जाते हैं और बाद में एक दूसरे को ढूंढ लेते हैं। ऐसा कम आधुनिक प्लॉट वाले विषम डेटासेट के कारण होता है।
हमने अपने डेटासेट के साथ दृश्य निर्माण के लिए GPT-3 को ठीक किया। हमने 5.1 में उल्लिखित मॉडल का उपयोग करके दस दृश्य तैयार किए। परिशिष्ट में चित्र 7. पूरी तरह से तैयार किए गए दृश्य का एक उदाहरण दिखाता है।
हमने उपरोक्त मॉडल द्वारा उत्पन्न 10 दृश्यों पर मानवीय मूल्यांकन किया। 5 लोगों ने लिकर्ट स्केल का उपयोग करके दृश्यों का मूल्यांकन किया। पाँच विशेषताओं के लिए रेटिंग चित्र 5 में देखी जा सकती है। प्रवाह, रचनात्मकता, पसंद, सुसंगतता और प्रासंगिकता के औसत अंक क्रमशः 4.48, 3.9, 3.48, 3.46 और 3.86 हैं। सभी मान तटस्थ चिह्न से ऊपर हैं और इसका मतलब है कि उत्पन्न दृश्य मानव-लिखित दृश्यों के करीब हैं।
इस खंड में, हम GPT-3 मॉडल द्वारा उत्पन्न दृश्यों की गुणवत्ता का विश्लेषण करते हैं। यह विश्लेषण पहले उल्लेखित मीडिया कंपनी के पेशेवर स्क्रिप्ट लेखकों द्वारा किया गया है।
• मॉडल एक अच्छी तरह से संरचित दृश्य उत्पन्न करता है।
• यह नये पात्रों का निर्माण कर सकता है और संवादों की रचना कर सकता है, भले ही वे महत्वहीन हों।
• इनपुट के मुख्य बिंदु आउटपुट में पाए जा सकते हैं।
• कुछ पंक्तियाँ ऐसी हैं जो दोहराई गई हैं।
• आउटपुट पूरी तरह से सुसंगत नहीं है.
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।