लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
मूल्यांकन मेट्रिक्स पिछला कार्य [४१] तीन मेट्रिक्स के संदर्भ में टीपी पहचान मॉडल के प्रदर्शन का मूल्यांकन करता है: कुल सहमति (टीए), यानी, सही ढंग से पहचाने गए टीपी दृश्यों का प्रतिशत, आंशिक सहमति (पीए), यानी, टीपी घटनाओं का प्रतिशत जिसके लिए कम से कम एक स्वर्ण-मानक दृश्य की पहचान की जाती है, और दूरी (डी), यानी, किसी दिए गए टीपी के लिए दृश्यों के पूर्वानुमानित और स्वर्ण-मानक सेट के बीच दृश्यों की संख्या में न्यूनतम दूरी, पटकथा की लंबाई से सामान्यीकृत। हम आंशिक सहमति मीट्रिक के साथ परिणामों की रिपोर्ट करते हैं। हम अब कुल सहमति का उपयोग नहीं कर सकते हैं, क्योंकि हम शॉट्स (दृश्यों के बजाय) के लिए सिल्वर मानक (स्वर्ण के बजाय) लेबल के खिलाफ मूल्यांकन करते हैं और परिणामस्वरूप एक दृश्य के भीतर सभी शॉट्स को समान रूप से महत्वपूर्ण मानते हैं। हम दूरी मीट्रिक का उपयोग नहीं करते हैं क्योंकि यह बहुत समान परिणाम देता है
हाइपरपैरामीटर पिछले कार्य [42] के अनुसार, हम सभी प्रकार की सुविधाओं (यानी, पाठ्य, दृश्य और श्रव्य) को 128 के समान निचले आयाम पर प्रोजेक्ट करते हैं। हम पाते हैं कि बड़े आयाम मापदंडों की संख्या में काफी वृद्धि करते हैं और संभवतः छोटे डेटासेट आकार के कारण निम्न परिणाम देते हैं।
हम ट्रांसफॉर्मर एनकोडर का उपयोग करके दृश्यों (पटकथा के संबंध में) और शॉट्स (वीडियो के संबंध में) को संदर्भ देते हैं। हमने एनकोडर में 2, 3, 4, 5 और 6 परतों के साथ प्रयोग किया और 3 परतों के साथ सर्वोत्तम परिणाम प्राप्त किए। फीड फॉरवर्ड (FF) आयाम के लिए, हमने 2,048 के मानक आकार और 1,024 के छोटे आकार दोनों के साथ प्रयोग किया और पाया कि पहला आकार बेहतर काम करता है। हम इनपुट वाक्य अभ्यावेदन के अनुक्रम से एक दृश्य के प्रतिनिधित्व की गणना करने के लिए एक अन्य ट्रांसफॉर्मर एनकोडर का उपयोग करते हैं। इस एनकोडर में 4 परतें और 1,024 FF आयाम हैं। दोनों एनकोडर, 8 अटेंशन हेड और 0.3 ड्रॉपआउट का उपयोग करते हैं।
ग्राफ स्पर्सिफिकेशन (यानी, टॉप-के पड़ोसियों का चयन) के दौरान, हम दृश्य- और शॉट-आधारित नेटवर्क के लिए अलग-अलग ग्रैन्युलैरिटी और आकार के कारण अलग-अलग पड़ोस विकल्पों पर विचार करते हैं। [42] के बाद, हम दृश्य नेटवर्क के लिए [1-6] पड़ोसियों पर विचार करते हैं और हम शॉट नेटवर्क के लिए पड़ोस के आकार को [6-12] तक बढ़ाते हैं।
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।