लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
मूवी को समझने के पिछले तरीकों ने मुख्य रूप से अलग-अलग वीडियो क्लिप और मूवी दृश्यों और पुस्तक अध्यायों के बीच संरेखण जैसे कार्यों पर ध्यान केंद्रित किया है [49], प्रश्न उत्तर [50], मूवी शॉट्स के लिए वीडियो कैप्शनिंग [44], और टेक्स्ट-टू-वीडियो पुनर्प्राप्ति [5]। हाल के काम [40-42] उच्च-स्तरीय कथा संरचना की पहचान करने और पूरे टीवी एपिसोड और फिल्मों को सारांशित करने का प्रयास करते हैं, जो विशेष रूप से पाठ्य तौर-तरीकों (यानी, पटकथा) पर ध्यान केंद्रित करते हैं।
ट्रेलर निर्माण के मौजूदा तरीके सतही दृश्य-श्रव्य विशेषताओं का फायदा उठाते हैं, जैसे कि पृष्ठभूमि संगीत या अनुक्रमिक शॉट्स के बीच दृश्य परिवर्तन [24, 46]। अन्य कार्य शॉट चयन के लिए ग्राफ-आधारित मॉडल के साथ “आकर्षक” ट्रेलर बनाते हैं [57] या ऑडियोविज़ुअल सेंटीमेंट विश्लेषण [47] के माध्यम से हॉरर फिल्मों पर प्रशिक्षित मॉडल के साथ संयोजन में लूप में एक मानव का उपयोग करते हैं। ट्रेलर मोमेंट डिटेक्शन डेटासेट [53] में आधिकारिक ट्रेलर और महत्वपूर्ण क्षणों के लिए एनोटेशन के साथ जोड़ी गई पूर्ण-लंबाई वाली फिल्में शामिल हैं, लेकिन यह सार्वजनिक रूप से उपलब्ध नहीं है और इसमें स्क्रीनप्ले शामिल नहीं हैं।
ज्ञान आसवन [3, 23] मूल रूप से एक बड़े शिक्षक मॉडल से एक छोटे छात्र मॉडल तक जानकारी को आसवित करने के लिए प्रस्तावित किया गया था। सामान्यीकृत आसवन [30] विशेषाधिकार प्राप्त जानकारी का उपयोग करने के लिए एक रूपरेखा प्रदान करता है, अर्थात, वह जानकारी जो केवल प्रशिक्षण के समय उपलब्ध होती है। हमारे काम से सबसे अधिक संबंधित एक ही सामग्री के विभिन्न तौर-तरीकों या दृश्यों का उपयोग है [33, 34], उदाहरण के लिए, निर्देशात्मक वीडियो में दृश्य प्रतिनिधित्व सीखने के लिए लिखित कथन। हम विशेषाधिकार प्राप्त जानकारी के स्रोत के रूप में पटकथाओं का लाभ उठाते हैं और फिल्म में घटनाओं, पात्रों और दृश्यों के बारे में ज्ञान को आसवित करते हैं, जिसका उपयोग हम बाद में वीडियो में ट्रेलर योग्य शॉट्स की पहचान करने के लिए करते हैं।
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।