paint-brush
टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: कार्यान्वयन विवरणद्वारा@kinetograph

टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: कार्यान्वयन विवरण

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने ट्रेलर बनाने के लिए फिल्मों को ग्राफ के रूप में मॉडल किया है, कथात्मक संरचना की पहचान की है और भावनाओं का पूर्वानुमान लगाया है, जो पर्यवेक्षित विधियों से बेहतर है।
featured image - टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: कार्यान्वयन विवरण
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।

लिंक की तालिका

बी. कार्यान्वयन विवरण

मूल्यांकन मेट्रिक्स पिछला कार्य [४१] तीन मेट्रिक्स के संदर्भ में टीपी पहचान मॉडल के प्रदर्शन का मूल्यांकन करता है: कुल सहमति (टीए), यानी, सही ढंग से पहचाने गए टीपी दृश्यों का प्रतिशत, आंशिक सहमति (पीए), यानी, टीपी घटनाओं का प्रतिशत जिसके लिए कम से कम एक स्वर्ण-मानक दृश्य की पहचान की जाती है, और दूरी (डी), यानी, किसी दिए गए टीपी के लिए दृश्यों के पूर्वानुमानित और स्वर्ण-मानक सेट के बीच दृश्यों की संख्या में न्यूनतम दूरी, पटकथा की लंबाई से सामान्यीकृत। हम आंशिक सहमति मीट्रिक के साथ परिणामों की रिपोर्ट करते हैं। हम अब कुल सहमति का उपयोग नहीं कर सकते हैं, क्योंकि हम शॉट्स (दृश्यों के बजाय) के लिए सिल्वर मानक (स्वर्ण के बजाय) लेबल के खिलाफ मूल्यांकन करते हैं और परिणामस्वरूप एक दृश्य के भीतर सभी शॉट्स को समान रूप से महत्वपूर्ण मानते हैं। हम दूरी मीट्रिक का उपयोग नहीं करते हैं क्योंकि यह बहुत समान परिणाम देता है


हाइपरपैरामीटर पिछले कार्य [42] के अनुसार, हम सभी प्रकार की सुविधाओं (यानी, पाठ्य, दृश्य और श्रव्य) को 128 के समान निचले आयाम पर प्रोजेक्ट करते हैं। हम पाते हैं कि बड़े आयाम मापदंडों की संख्या में काफी वृद्धि करते हैं और संभवतः छोटे डेटासेट आकार के कारण निम्न परिणाम देते हैं।


हम ट्रांसफॉर्मर एनकोडर का उपयोग करके दृश्यों (पटकथा के संबंध में) और शॉट्स (वीडियो के संबंध में) को संदर्भ देते हैं। हमने एनकोडर में 2, 3, 4, 5 और 6 परतों के साथ प्रयोग किया और 3 परतों के साथ सर्वोत्तम परिणाम प्राप्त किए। फीड फॉरवर्ड (FF) आयाम के लिए, हमने 2,048 के मानक आकार और 1,024 के छोटे आकार दोनों के साथ प्रयोग किया और पाया कि पहला आकार बेहतर काम करता है। हम इनपुट वाक्य अभ्यावेदन के अनुक्रम से एक दृश्य के प्रतिनिधित्व की गणना करने के लिए एक अन्य ट्रांसफॉर्मर एनकोडर का उपयोग करते हैं। इस एनकोडर में 4 परतें और 1,024 FF आयाम हैं। दोनों एनकोडर, 8 अटेंशन हेड और 0.3 ड्रॉपआउट का उपयोग करते हैं।


ग्राफ स्पर्सिफिकेशन (यानी, टॉप-के पड़ोसियों का चयन) के दौरान, हम दृश्य- और शॉट-आधारित नेटवर्क के लिए अलग-अलग ग्रैन्युलैरिटी और आकार के कारण अलग-अलग पड़ोस विकल्पों पर विचार करते हैं। [42] के बाद, हम दृश्य नेटवर्क के लिए [1-6] पड़ोसियों पर विचार करते हैं और हम शॉट नेटवर्क के लिए पड़ोस के आकार को [6-12] तक बढ़ाते हैं।



चित्र 4. टीपी द्वारा निर्धारित एक फिल्म (विकास सेट) के विभिन्न खंडों के अनुरूप ट्रेलर शॉट्स का वितरण। ट्रेलर शॉट्स फिल्म के सभी भागों से आते हैं, यहां तक कि अंत से भी, हालांकि अधिकांश शुरुआत और मध्य से हैं।


तालिका 7. ट्रेलरों का प्रतिशत (%) जिसमें विकास सेट पर एक विशिष्ट प्रकार के टीपी के रूप में लेबल किया गया कम से कम एक शॉट शामिल है। पहले दो टीपी (जो कहानी का परिचय प्रस्तुत करते हैं) ट्रेलरों में अधिक बार दिखाई देते हैं, खासकर अंतिम दो की तुलना में, जिनमें अक्सर प्रमुख स्पॉइलर होते हैं।


तालिका 8. प्रति ट्रेलर अनुभाग औसत निरपेक्ष भावना तीव्रता, जब हम ट्रेलरों को तीन सम भागों (विकास सेट) में विभाजित करते हैं।



यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।