लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
इस कार्य में, हमने एक ट्रेलर निर्माण दृष्टिकोण प्रस्तावित किया है जो फिल्मों के ग्राफ-आधारित प्रतिनिधित्व को अपनाता है और शॉट्स के चयन के लिए व्याख्यात्मक मानदंडों का उपयोग करता है। हम यह भी दिखाते हैं कि स्क्रीनप्ले से विशेषाधिकार प्राप्त जानकारी को विपरीत सीखने के माध्यम से कैसे लाभ उठाया जा सकता है, जिसके परिणामस्वरूप एक मॉडल बनता है जिसका उपयोग मोड़ की पहचान और ट्रेलर निर्माण के लिए किया जा सकता है। हमारे मॉडल द्वारा बनाए गए ट्रेलरों को उनकी सामग्री और आकर्षण के संदर्भ में अनुकूल रूप से आंका गया।
भविष्य में हम फिल्मों में सूक्ष्म भावनाओं (जैसे, दुख, घृणा, आतंक, खुशी) की भविष्यवाणी करने के तरीकों पर ध्यान केंद्रित करना चाहेंगे। इस काम में, हम सकारात्मक/नकारात्मक भावना को भावनाओं के लिए एक स्टैंड-इन के रूप में मानते हैं, क्योंकि इन-डोमेन लेबल वाले डेटासेट की अनुपस्थिति है। पिछले प्रयासों ने ट्वीट [1], यूट्यूब ओपिनियन वीडियो [4], टॉक शो [20] और मानवीय अंतःक्रियाओं की रिकॉर्डिंग [8] पर ध्यान केंद्रित किया है। प्रारंभिक प्रयोगों से पता चला है कि अन्य डोमेन से हमारे डोमेन में सूक्ष्म भावना ज्ञान को स्थानांतरित करने से भावना की तुलना में अविश्वसनीय भविष्यवाणियां होती हैं जो अधिक स्थिर होती हैं और ट्रेलर निर्माण प्रदर्शन में सुधार करती हैं। भविष्य के काम के लिए रास्ते में फिल्मों के लिए नए भावना डेटासेट, साथ ही पाठ्य और दृश्य-श्रव्य संकेतों के आधार पर भावना पहचान मॉडल शामिल हैं।
[1] मुहम्मद अब्दुल-मगीद और लाइल उंगर। इमोनेट: गेटेड रिकरेंट न्यूरल नेटवर्क के साथ बारीक भावना का पता लगाना। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स की 55वीं वार्षिक बैठक की कार्यवाही में (वॉल्यूम 1: लॉन्ग पेपर्स), पृष्ठ 718-728, वैंकूवर, कनाडा, जुलाई 2017। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स। 8
[2] उरी अलोन और एरन याहव। ग्राफ न्यूरल नेटवर्क की अड़चन और इसके व्यावहारिक निहितार्थों पर। लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन, 2020 में। 12
[3] जिमी बा और रिच कारुआना। क्या डीप नेट को वाकई डीप होना चाहिए? न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम में एडवांस की कार्यवाही में, पृष्ठ 2654-2662, मॉन्ट्रियल, क्यूबेक, कनाडा, 2014. 2, 4
[4] अमीर अली बाघेर ज़ादेह, पॉल पु लियांग, सौजन्या पोरिया, एरिक कैम्ब्रिया और लुइस-फिलिप मोरेंसी। वाइल्ड में मल्टीमॉडल भाषा विश्लेषण: CMU-MOSEI डेटासेट और व्याख्या योग्य डायनेमिक फ़्यूज़न ग्राफ़। एसोसिएशन फ़ॉर कम्प्यूटेशनल लिंग्विस्टिक्स की 56वीं वार्षिक बैठक की कार्यवाही में (वॉल्यूम 1: लॉन्ग पेपर्स), पृष्ठ 2236-2246, मेलबर्न, ऑस्ट्रेलिया, जुलाई 2018। एसोसिएशन फ़ॉर कम्प्यूटेशनल लिंग्विस्टिक्स। 8
[5] मैक्स बैन, अर्शा नागरानी, एंड्रयू ब्राउन और एंड्रयू ज़िसरमैन। कंडेंस्ड मूवीज़: कॉन्टेक्स्टुअल एम्बेडिंग के साथ स्टोरी बेस्ड रिट्रीवल। एशियन कॉन्फ्रेंस ऑन कंप्यूटर विज़न, 2020 की कार्यवाही में। 2
[6] पाब्लो बार्सेलो, ईगोर वी कोस्टाइलव, मिकेल मोनेट, जॉर्ज पी ´ एरेज़, ´ जुआन रेउटर, और जुआन पाब्लो सिल्वा। ग्राफ न्यूरल नेटवर्क की तार्किक अभिव्यक्ति। लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन, 2019 में। 12
[7] योशुआ बेंगियो, निकोलस लियोनार्ड, और आरोन कोर्टविले। सशर्त संगणना के लिए स्टोकेस्टिक न्यूरॉन्स के माध्यम से ग्रेडिएंट का अनुमान लगाना या उसका प्रसार करना। arXiv प्रीप्रिंट arXiv:1308.3432, 2013. 11
[8] संजय बिलाखिया, स्टावरोस पेट्रिडिस, एंटोन निजहोल्ट और माजा पेंटिक। MAHNOB मिमिक्री डेटाबेस: प्राकृतिक मानवीय अंतःक्रियाओं का डेटाबेस। पैटर्न रिकॉग्निशन लेटर्स, 66:52–61, 2015. ह्यूमन कंप्यूटर इंटरेक्शन में पैटर्न रिकॉग्निशन। 8
[9] कार्लोस बुस्सो, मुर्तजा बुलट, ची-चुन ली, अबे काज़ेमज़ादेह, एमिली मोवर, सैमुअल किम, जीननेट एन चांग, सुंगबोक ली और श्रीकांत एस नारायणन। इमोकैप: इंटरेक्टिव इमोशनल डायडिक मोशन कैप्चर डेटाबेस। भाषा संसाधन और मूल्यांकन, 42(4):335, 2008. 6
[10] जोआओ कैरेरा और एंड्रयू ज़िसरमैन। क्वो वादीस, एक्शन रिकग्निशन? एक नया मॉडल और काइनेटिक्स डेटासेट। 2017 IEEE कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन (CVPR) में, पृष्ठ 4724-4733। IEEE कंप्यूटर सोसाइटी, 2017. 6
[11] पाओला कैस्केंट-बोनिला, कल्पति सीतारमन, मेंगजिया लुओ और विसेंट ऑर्डोनेज़। मूवीस्कोप: कई तौर-तरीकों का उपयोग करके फिल्मों का बड़े पैमाने पर विश्लेषण। arXiv प्रीप्रिंट arXiv:1908.03180, 2019. 5
[12] डैनियल सेर, यिनफ़ेई यांग, शेंग-यी कोंग, नान हुआ, निकोल लिमटियाको, रोम्नी सेंट जॉन, नोआ कॉन्स्टेंट, मारियो गुआजार्डोसेस्पेडेस, स्टीव युआन, क्रिस टार, आदि। यूनिवर्सल सेंटेंस एनकोडर। arXiv प्रीप्रिंट arXiv:1803.11175, 2018. 6
[13] जेम्स ई कटिंग। नैरेटिव थ्योरी और लोकप्रिय फिल्मों की गतिशीलता। साइकोनोमिक बुलेटिन और समीक्षा, 23(6):1713–1743, 2016. 1 [14] जिया डेंग, वेई डोंग, रिचर्ड सोचर, ली-जिया ली, काई ली और ली फी-फी। इमेजनेट: एक बड़े पैमाने पर पदानुक्रमित छवि डेटाबेस। 2009 में कंप्यूटर विज़न और पैटर्न पहचान पर IEEE सम्मेलन में, पृष्ठ 248–255। Ieee, 2009. 6
[15] डेविड के डुवेनॉड, डगल मैकलॉरिन, जॉर्ज इपरागुइरे, राफेल बॉम्बरेल, टिमोथी हिरज़ेल, एलन असपुरु-गुज़िक और रयान पी एडम्स। आणविक फ़िंगरप्रिंट सीखने के लिए ग्राफ़ पर कन्वोल्यूशनल नेटवर्क। एडवांस इन न्यूरल इंफ़ॉर्मेशन प्रोसेसिंग सिस्टम, 28:2224–2232, 2015. 3
[16] जोर्ट एफ गेम्मेके, डैनियल पीडब्लू एलिस, डायलन फ्रीडमैन, एरेन जेनसन, वेड लॉरेंस, आर चैनिंग मूर, मनोज प्लाकल और मार्विन रिटर। ऑडियो सेट: ऑडियो इवेंट के लिए एक ऑन्टोलॉजी और ह्यूमनलेबल डेटासेट। 2017 IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (ICASSP) में, पृष्ठ 776-780। IEEE, 2017. 6
[17] दीपनवे घोषाल, नवोनिल मजूमदार, अलेक्जेंडर गेलबुख, राडा मिहालसिया और सौजन्या पोरिया। कॉस्मिक: बातचीत में भावना की पहचान के लिए सामान्य ज्ञान। नेचुरल लैंग्वेज प्रोसेसिंग में अनुभवजन्य विधियों पर 2020 सम्मेलन की कार्यवाही में: निष्कर्ष, पृष्ठ 2470-2481, 2020। 6 [18] रॉस गिरशिक। फास्ट आर-सीएनएन। कंप्यूटर विज़न पर IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 1440-1448, 2015। 6
[19] फिलिप जॉन गोरिंस्की और मिरेला लापाटा। ग्राफ-आधारित दृश्य निष्कर्षण के रूप में मूवी स्क्रिप्ट सारांश। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स के उत्तरी अमेरिकी अध्याय के 2015 सम्मेलन की कार्यवाही में: मानव भाषा प्रौद्योगिकी, पृष्ठ 1066-1076, डेनवर, कोलोराडो, मई-जून 2015। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स। 5, 12
[20] माइकल ग्रिम, क्रिस्टियन क्रोशेल और श्रीकांत नारायणन। वेरा एम मिट्टाग जर्मन ऑडियो-विजुअल इमोशनल स्पीच डेटाबेस। ICME में, पृष्ठ 865-868। IEEE, 2008. 8
[21] माइकल गुटमैन और आपो हाइवरिनन। शोर-विपरीत ¨ अनुमान: असामान्य सांख्यिकीय मॉडल के लिए एक नया अनुमान सिद्धांत। आर्टिफिशियल इंटेलिजेंस और सांख्यिकी पर तेरहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 297-304, 2010। 4
[22] माइकल हाउगे। कहानी सुनाना आसान बना दिया गया: अपने दर्शकों, खरीदारों और ग्राहकों को राजी करें और उन्हें बदल दें – सरलता से, जल्दी से और लाभप्रद रूप से। इंडी बुक्स इंटरनेशनल, 2017. 1, 3, 13
[23] जेफ्री हिंटन, ओरिओल विनाल्स और जेफ डीन। न्यूरल नेटवर्क में ज्ञान को आसवित करना। arXiv प्रीप्रिंट arXiv:1503.02531, 2015. 2, 4
[24] गो इरी, ताकाशी सातो, अकीरा कोजिमा, तोशीहिको यामासाकी, और कियोहारू आइजावा। स्वचालित ट्रेलर जनरेशन। मल्टीमीडिया पर 18वें ACM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 839-842, 2010. 1, 2
[25] एरिक जंग, शिज़ियांग गु, और बेन पूल। गम्बल-सॉफ्टमैक्स के साथ श्रेणीबद्ध पुनर्मूल्यांकन। इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन (ICLR 2017), 2017 में। 11
[26] स्टीवन किर्नेस, केविन मैकक्लोस्की, मार्क बर्नडल, विजय पांडे और पैट्रिक रिले। आणविक ग्राफ कनवल्शन: फिंगरप्रिंट से आगे बढ़ना। जर्नल ऑफ कंप्यूटर एडेड मॉलिक्यूलर डिज़ाइन, 30(8):595–608, 2016. 3
[27] ह्युंगहुन किम, ज़िनेंग टैंग और मोहित बंसल। वीडियोक्यूए में टेम्पोरल लोकलाइज़ेशन के लिए डेंसकैप्शन मैचिंग और फ्रेम-सिलेक्शन गेटिंग। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स की 58वीं वार्षिक बैठक की कार्यवाही में, पृष्ठ 4812-4822, 2020। 3
[28] थॉमस एन. किपफ और मैक्स वेलिंग। ग्राफ कन्वोल्यूशनल नेटवर्क के साथ अर्ध-पर्यवेक्षित वर्गीकरण। इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन (आईसीएलआर), 2017 में। 3
[29] यानरान ली, हुई सु, शियाओयू शेन, वेन्जी ली, ज़िकियांग काओ, और शुज़ी निउ। डेलीडायलॉग: मैन्युअल रूप से लेबल किया गया मल्टी-टर्न डायलॉग डेटासेट। नेचुरल लैंग्वेज प्रोसेसिंग पर आठवें अंतर्राष्ट्रीय संयुक्त सम्मेलन की कार्यवाही में (खंड 1: लंबे पेपर), पृष्ठ 986-995, 2017। 6
[30] डेविड लोपेज़-पाज़, लियोन बोटू, बर्नहार्ड स्कोल्कोफ़, और व्लादिमीर वापनिक। एकीकृत आसवन और विशेषाधिकार प्राप्त जानकारी। arXiv प्रीप्रिंट arXiv:1511.03643, 2015. 2
[31] जॉर्डन लौविएर, टीएन फ्लिन, और एएजे मार्ले। सर्वश्रेष्ठ-सबसे खराब स्केलिंग: सिद्धांत, विधियाँ और अनुप्रयोग। 01 2015. 8
[32] क्रिस जे. मैडिसन, एंड्री मनिह, और यी व्हाई तेह। कंक्रीट वितरण: असतत यादृच्छिक चर का निरंतर विश्राम। लर्निंग रिप्रेजेंटेशन पर 5वें अंतर्राष्ट्रीय सम्मेलन में, आईसीएलआर 2017, टूलॉन, फ्रांस, 24-26 अप्रैल, 2017, कॉन्फ्रेंस ट्रैक कार्यवाही, 2017। 11
[33] एंटोनी मीच, जीन-बैप्टिस्ट अलायराक, लुकास स्माइरा, इवान लैप्टेव, जोसेफ सिविक और एंड्रयू ज़िसरमैन। अनक्यूरेटेड इंस्ट्रक्शनल वीडियो से विज़ुअल रिप्रेजेंटेशन की एंड-टू-एंड लर्निंग। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE/CVF कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 9879- 9889, 2020। 2
[34] एंटोनी मीच, दिमित्री ज़ुकोव, जीन-बैप्टिस्ट अलायराक, मकरंद तपस्वी, इवान लैपटेव और जोसेफ सिविक। हाउटू100एम: सौ मिलियन नैरेटेड वीडियो क्लिप देखकर टेक्स्ट-वीडियो एम्बेडिंग सीखना। IEEE/CVF इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, पृष्ठ 2630-2640, 2019। 2
[35] राडा मिहाल्सिया और पॉल तराउ। टेक्स्टरैंक: टेक्स्ट में व्यवस्था लाना। प्राकृतिक भाषा प्रसंस्करण में अनुभवजन्य विधियों पर 2004 के सम्मेलन की कार्यवाही में, पृष्ठ 404-411, 2004। 7
[36] कोरी एस मायर्स और लॉरेंस आर राबिनर। कनेक्टेड-वर्ड रिकग्निशन के लिए कई डायनेमिक टाइम-वॉर्पिंग एल्गोरिदम का तुलनात्मक अध्ययन। बेल सिस्टम टेक्निकल जर्नल, 60(7):1389–1409, 1981. 5
[37] केंटा ओनो और ताइजी सुजुकी। ग्राफ न्यूरल नेटवर्क नोड वर्गीकरण के लिए अभिव्यंजक शक्ति को तेजी से खो देते हैं। लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन, 2019 में। 12
[38] आरोन वैन डेन ओर्ड, याज़े ली, और ओरियोल विनाल्स। कंट्रास्टिव प्रेडिक्टिव कोडिंग के साथ प्रतिनिधित्व सीखना। arXiv प्रीप्रिंट arXiv:1807.03748, 2018. 4, 5, 11
[39] बॉक्सियाओ पैन, हाओये कै, डे-एन हुआंग, कुआन-हुई ली, एड्रियन गाइडन, एहसान एडेली और जुआन कार्लोस नीबल्स। ज्ञान आसवन के साथ वीडियो कैप्शनिंग के लिए स्थानिक-लौकिक ग्राफ़। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE/CVF सम्मेलन की कार्यवाही में, पृष्ठ 10870- 10879, 2020। 4
[40] पिनेलोपी पापालाम्पिडी, फ्रैंक केलर, ली फ़्रेरमैन और मिरेला लापाटा। लेटेंट नैरेटिव स्ट्रक्चर का उपयोग करके स्क्रीनप्ले सारांश। कम्प्यूटेशनल लिंग्विस्टिक्स एसोसिएशन की 58वीं वार्षिक बैठक की कार्यवाही में, पृष्ठ 1920-1933, 2020। 2
[41] पिनेलोपी पापालाम्पिडी, फ्रैंक केलर और मिरेला लापाटा। टर्निंग पॉइंट आइडेंटिफिकेशन के माध्यम से मूवी प्लॉट विश्लेषण। 2019 कॉन्फ्रेंस ऑन एम्पिरिकल मेथड्स इन नेचुरल लैंग्वेज प्रोसेसिंग और 9वें इंटरनेशनल जॉइंट कॉन्फ्रेंस ऑन नेचुरल लैंग्वेज प्रोसेसिंग (EMNLPIJCNLP) की कार्यवाही में, पृष्ठ 1707-1717, 2019। 2, 3, 5, 6, 11, 12
[42] पिनेलोपी पापालाम्पिडी, फ्रैंक केलर और मिरेला लापाटा। विरल ग्राफ निर्माण के माध्यम से मूवी सारांश। आर्टिफिशियल इंटेलिजेंस पर 35वें AAAI सम्मेलन में, 2021। 2, 3, 5, 6, 12
[43] सौजन्य पोरिया, देवमन्यु हजारिका, नवोनिल मजूमदार, गौतम नाइक, एरिक कैम्ब्रिया और राडा मिहालसिया। मेल्ड: बातचीत में भावना पहचान के लिए एक मल्टीमॉडल मल्टी-पार्टी डेटासेट। कम्प्यूटेशनल भाषाविज्ञान संघ की 57वीं वार्षिक बैठक की कार्यवाही में, पृष्ठ 527-536, 2019। 6
[44] अन्ना रोहरबैक, मार्कस रोहरबैक, निकेट टंडन और बर्न्ट शिएले। मूवी विवरण के लिए डेटासेट। कंप्यूटर विज़न और पैटर्न रिकग्निशन पर IEEE कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 3202-3212, 2015। 2
[45] मिंजून सेओ, अनिरुद्ध केम्भवी, अली फरहादी और हन्नानेह हाजीशिरजी। मशीन समझ के लिए द्विदिशात्मक ध्यान प्रवाह। लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन, 2017 में। 3
[46] एलन एफ स्मीटन, बार्ट लेहेन, नोएल ई ओ'कॉनर, कॉनर ब्रैडी और गैरी क्रेग। एक्शन मूवी ट्रेलरों के लिए शॉट्स का स्वचालित रूप से चयन करना। मल्टीमीडिया सूचना पुनर्प्राप्ति पर 8वीं एसीएम अंतर्राष्ट्रीय कार्यशाला की कार्यवाही में, पृष्ठ 231-238, 2006। 1, 2
[47] जॉन आर स्मिथ, धीरज जोशी, बेनोइट ह्यूट, विंस्टन हसू और जोज़ेफ़ कोटा। रचनात्मकता को बढ़ाने के लिए एआई का उपयोग: मूवी ट्रेलर निर्माण में अनुप्रयोग। मल्टीमीडिया पर 25वें एसीएम अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 1799-1808, 2017। 2, 7
[48] सिकी सन, झे गण, युवेई फेंग, यू चेंग, शुओहांग वांग और जिंगजिंग लियू। भाषा मॉडल संपीड़न के लिए मध्यवर्ती अभ्यावेदन पर विपरीत आसवन। प्राकृतिक भाषा प्रसंस्करण (ईएमएनएलपी) में अनुभवजन्य विधियों पर 2020 सम्मेलन की कार्यवाही में, पृष्ठ 498-508, 2020। 4
[49] मकरंद तपस्वी, मार्टिन बॉमल और रेनर स्टीफेलहेगन। बुक2मूवी: वीडियो दृश्यों को पुस्तक अध्यायों के साथ संरेखित करना। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE सम्मेलन की कार्यवाही में, पृष्ठ 1827-1835, 2015। 2
[50] मकरंद तपस्वी, युकुन झू, रेनर स्टीफेलहेगन, एंटोनियो टोराल्बा, राकेल उर्टसुन और संजा फिडलर। मूवीका: प्रश्नोत्तर के माध्यम से फिल्मों में कहानियों को समझना। कंप्यूटर विज़न और पैटर्न पहचान पर IEEE सम्मेलन की कार्यवाही में, पृष्ठ 4631-4640, 2016। 2
[51] क्रिस्टिन थॉम्पसन। नए हॉलीवुड में कहानी सुनाना: शास्त्रीय कथा तकनीक को समझना। हार्वर्ड यूनिवर्सिटी प्रेस, 1999। 1
[52] आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन गोमेज़, लुकाज़ कैसर और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। एडवांस इन न्यूरल इन्फ़ॉर्मेशन प्रोसेसिंग सिस्टम्स, पेज 5998–6008, 2017 में। 3
[53] लेज़ी वांग, डोंग लियू, रोहित पुरी और दिमित्रिस एन मेटाक्सस। कोकंट्रास्टिव अटेंशन के साथ फुल-लेंथ मूवीज़ में ट्रेलर के पलों को सीखना। कंप्यूटर विज़न पर यूरोपीय सम्मेलन में, पृष्ठ 300-316। स्प्रिंगर, 2020. 1, 2, 7
[54] युक्सिन वू, अलेक्जेंडर किरिलोव, फ्रांसिस्को मस्सा, वान-येन लो, और रॉस गिरशिक। डिटेक्टरॉन 2. https://github.com/facebookresearch/detectron2, 2019. 6
[55] झिरोंग वू, युआनजुन ज़ियोनग, स्टेला एक्स यू, और दाहुआ लिन। गैर-पैरामीट्रिक इंस्टेंस भेदभाव के माध्यम से अनसुपरवाइज्ड फ़ीचर लर्निंग। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 3733- 3742, 2018। 4
[56] सैनिंग ज़ी, रॉस गिरशिक, पिओटर डॉलर, झूओवेन तु, और कैमिंग हे। डीप न्यूरल नेटवर्क के लिए एग्रीगेटेड रेसिडुअल ट्रांसफ़ॉर्मेशन। कंप्यूटर विज़न और पैटर्न रिकग्निशन पर IEEE कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 1492-1500, 2017। 6
[57] होंगटेंग जू, यी जेन और होंगयुआन झा। एक बिंदु प्रक्रिया-आधारित दृश्य आकर्षण मॉडल के माध्यम से ट्रेलर निर्माण। आर्टिफिशियल इंटेलिजेंस पर 24वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 2198-2204, 2015। 2, 7
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।