paint-brush
Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Sonuçlar ve Referanslarile@kinetograph

Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Sonuçlar ve Referanslar

Çok uzun; Okumak

Bu makalede araştırmacılar, denetlenen yöntemlerin ötesine geçerek, anlatı yapısını belirleyerek ve duyguyu tahmin ederek fragmanlar oluşturmak için filmleri grafikler olarak modelliyor.
featured image - Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Sonuçlar ve Referanslar
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.

Bağlantı Tablosu

6. Sonuçlar

Bu çalışmada, filmlerin grafik tabanlı temsilini benimseyen ve çekimlerin seçiminde yorumlanabilir kriterleri kullanan bir fragman oluşturma yaklaşımı önerdik. Ayrıca senaryolardaki ayrıcalıklı bilgilerden karşılaştırmalı öğrenme yoluyla nasıl yararlanılabileceğini ve bunun dönüm noktası belirleme ve fragman oluşturma için kullanılabilecek bir modelle sonuçlanabileceğini gösteriyoruz. Modelimiz tarafından oluşturulan fragmanlar içerik ve çekicilik açısından olumlu değerlendirildi.


Gelecekte filmlerdeki ince taneli duyguları (örneğin, keder, nefret, dehşet, sevinç) tahmin etmeye yönelik yöntemlere odaklanmak istiyoruz. Bu çalışmada, alan içi etiketli veri kümelerinin bulunmaması nedeniyle olumlu/olumsuz duyguyu duyguların yerine geçecek bir araç olarak görüyoruz. Önceki çabalar tweet'lere [1], Youtube fikir videolarına [4], talk-show'lara [20] ve insan etkileşimlerinin kayıtlarına [8] odaklanmıştı. Ön deneyler, ince taneli duygu bilgisini diğer alanlardan bizimkine aktarmanın, daha istikrarlı olan ve fragman oluşturma performansını artıran duyguya kıyasla güvenilmez tahminlere yol açtığını ortaya çıkardı. Gelecekteki çalışmaların yolları arasında filmler için yeni duygu veri kümelerinin yanı sıra metinsel ve görsel-işitsel ipuçlarına dayalı duygu algılama modelleri de yer alıyor.

Referanslar

[1] Muhammed Abdul-Mageed ve Lyle Ungar. EmoNet: Geçitli tekrarlayan sinir ağları ile ayrıntılı duygu tespiti. Hesaplamalı Dilbilim Derneği'nin 55. Yıllık Toplantısı Bildirileri (Cilt 1: Uzun Yazılar), sayfa 718–728, Vancouver, Kanada, Temmuz 2017. Hesaplamalı Dilbilim Derneği. 8


[2] Uri Alon ve Eran Yahav. Grafik sinir ağlarının darboğazı ve pratik sonuçları. Uluslararası Öğrenme Temsilleri Konferansında, 2020. 12


[3] Jimmy Ba ve Zengin Caruana. Derin ağların gerçekten derin olması gerekiyor mu? Nöral Bilgi İşleme Sistemlerindeki Gelişmeler Bildirilerinde, sayfalar 2654–2662, Montreal, Quebec, Kanada, 2014. 2, 4


[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria ve Louis-Philippe Morency. Vahşi ortamda çok modlu dil analizi: CMU-MOSEI veri kümesi ve yorumlanabilir dinamik füzyon grafiği. Hesaplamalı Dilbilim Derneği'nin 56. Yıllık Toplantısı Bildirileri (Cilt 1: Uzun Yazılar), sayfa 2236–2246, Melbourne, Avustralya, Temmuz 2018. Hesaplamalı Dilbilim Derneği. 8


[5] Max Bain, Arsha Nagrani, Andrew Brown ve Andrew Zisserman. Yoğunlaştırılmış filmler: Bağlamsal yerleştirmelerle hikayeye dayalı erişim. Asya Bilgisayarlı Görü Konferansı Bildirileri, 2020. 2


[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge P'erez, ' Juan Reutter ve Juan Pablo Silva. Grafik sinir ağlarının mantıksal ifadesi. Uluslararası Öğrenme Temsilleri Konferansında, 2019. 12


[7] Yoshua Bengio, Nicholas Leonard ve Aaron Courville. ' Koşullu hesaplama için stokastik nöronlar aracılığıyla gradyanları tahmin etmek veya yaymak. arXiv önbaskı arXiv:1308.3432, 2013. 11


[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt ve Maja Pantic. MAHNOB taklit veri tabanı: Doğal insan etkileşimlerinin veri tabanı. Örüntü Tanıma Mektupları, 66:52–61, 2015. İnsan Bilgisayar Etkileşiminde Örüntü Tanıma. 8


[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee ve Shrikanth S Narayanan. Iemocap: Etkileşimli duygusal ikili hareket yakalama veritabanı. Dil kaynakları ve değerlendirme, 42(4):335, 2008. 6


[10] Joao Carreira ve Andrew Zisserman. Quo vadis, eylem tanıma? yeni bir model ve kinetik veri seti. 2017 IEEE Bilgisayarlı Görme ve Örüntü Tanıma Konferansı (CVPR), sayfa 4724–4733. IEEE Bilgisayar Topluluğu, 2017. 6


[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo ve Vicente Ordonez. Moviescope: Çoklu modaliteler kullanılarak filmlerin geniş ölçekli analizi. arXiv ön baskı arXiv:1908.03180, 2019. 5


[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario GuajardoCespedes, Steve Yuan, Chris Tar, ve diğerleri. Evrensel cümle kodlayıcı. arXiv ön baskı arXiv:1803.11175, 2018. 6


[13] James E Kesme. Anlatı teorisi ve popüler filmlerin dinamikleri. Psikonomik Bülten ve inceleme, 23(6):1713– 1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li ve Li Fei-Fei. Imagenet: Büyük ölçekli hiyerarşik bir görüntü veritabanı. 2009'da bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansı, sayfa 248-255. Ieee, 2009. 6


[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik ve Ryan P Adams. Moleküler parmak izlerini öğrenmek için grafiklerdeki evrişimli ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler, 28:2224–2232, 2015. 3


[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal ve Marvin Ritter. Ses seti: Ses olayları için bir ontoloji ve insan etiketli veri seti. 2017'de IEEE Uluslararası Akustik, Konuşma ve Sinyal İşleme Konferansı (ICASSP), sayfa 776–780. IEEE, 2017.6


[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea ve Soujanya Poria. Kozmik: Konuşmalarda duygu tanımlamaya yönelik sağduyu bilgisi. Doğal Dil İşlemede Ampirik Yöntemler 2020 Konferansı Bildirileri: Bulgular, sayfa 2470–2481, 2020. 6 [18] Ross Girshick. Hızlı r-cnn. IEEE uluslararası bilgisayarlı görme konferansı Bildirileri, sayfa 1440–1448, 2015. 6


[19] Philip John Gorinski ve Mirella Lapata. Grafik tabanlı sahne çıkarma olarak film senaryosu özetleme. Hesaplamalı Dilbilim Derneği'nin Kuzey Amerika Bölümü 2015 Konferansı Bildirileri: İnsan Dili Teknolojileri, sayfalar 1066–1076, Denver, Colorado, Mayıs–Haziran 2015. Hesaplamalı Dilbilim Derneği. 5, 12


[20] Michael Grimm, Kristian Kroschel ve Shrikanth Narayanan. Vera am Mittag Almanca görsel-işitsel duygusal konuşma veritabanı. ICME'de, sayfalar 865–868. IEEE, 2008.8


[21] Michael Gutmann ve Aapo Hyvarinen. Gürültü karşılaştırmalı ¨ tahmini: Normalleştirilmemiş istatistiksel modeller için yeni bir tahmin ilkesi. On Üçüncü Uluslararası Yapay Zeka ve İstatistik Konferansı Bildirileri, sayfa 297–304, 2010. 4


[22] Michael Hauge. Hikaye Anlatmak Artık Kolay: Hedef Kitlelerinizi, Alıcılarınızı ve Müşterilerinizi Basit, Hızlı ve Kârlı Bir Şekilde İkna Edin ve Dönüştürün. Indie Books International, 2017. 1, 3, 13


[23] Geoffrey Hinton, Oriol Vinyals ve Jeff Dean. Bilginin sinir ağında damıtılması. arXiv ön baskı arXiv:1503.02531, 2015. 2, 4


[24] Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki ve Kiyoharu Aizawa. Otomatik römork üretimi. 18. ACM uluslararası Multimedya konferansı Bildirileri, sayfa 839–842, 2010. 1, 2


[25] Eric Jang, Shixiang Gu ve Ben Poole. Gumble-softmax ile kategorik yeniden parametrelendirme. Uluslararası Öğrenme Temsilleri Konferansında (ICLR 2017), 2017. 11


[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande ve Patrick Riley. Moleküler grafik kıvrımları: parmak izlerinin ötesine geçmek. Bilgisayar destekli moleküler tasarım dergisi, 30(8):595–608, 2016. 3


[27] Hyounghun Kim, Zineng Tang ve Mohit Bansal. Videoqa'da zamansal yerelleştirme için yoğun başlık eşleştirme ve çerçeve seçimi geçişi. Hesaplamalı Dilbilim Derneği'nin 58. Yıllık Toplantısı Bildirileri, sayfa 4812–4822, 2020. 3


[28] Thomas N. Kipf ve Max Welling. Grafik evrişimli ağlarla yarı denetimli sınıflandırma. Uluslararası Öğrenme Temsilleri Konferansında (ICLR), 2017. 3


[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao ve Shuzi Niu. Dailydialog: Manuel olarak etiketlenmiş çok turlu diyalog veri kümesi. Sekizinci Uluslararası Doğal Dil İşleme Ortak Konferansı Bildirileri (Cilt 1: Uzun Makaleler), sayfa 986–995, 2017. 6


[30] David Lopez-Paz, Leon Bottou, Bernhard Sch'olkopf ve ¨ Vladimir Vapnik. Damıtma ve ayrıcalıklı bilgileri birleştiriyor. arXiv ön baskı arXiv:1511.03643, 2015. 2


[31] Jordan Louviere, TN Flynn ve AAJ Marley. En iyi-en kötü ölçeklendirme: Teori, yöntemler ve uygulamalar. 01 2015.8


[32] Chris J. Maddison, Andriy Mnih ve Yee Whye Teh. Somut dağılım: Ayrık rastgele değişkenlerin sürekli gevşemesi. 5. Uluslararası Öğrenme Temsilleri Konferansı, ICLR 2017, Toulon, Fransa, 24-26 Nisan 2017, Konferans İzleme Bildirileri, 2017. 11


[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic ve Andrew Zisserman. Düzenlenmemiş eğitici videolardan görsel temsillerin uçtan uca öğrenilmesi. Bilgisayarlı Görme ve Örüntü Tanıma üzerine IEEE/CVF Konferansı Bildirileri, sayfalar 9879– 9889, 2020. 2


[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev ve Josef Sivic. Howto100m: Yüz milyon anlatımlı video klibi izleyerek metin-video yerleştirmeyi öğrenme. IEEE/CVF Uluslararası Bilgisayarlı Görme Konferansı Bildirileri, sayfa 2630–2640, 2019. 2


[35] Rada Mihalcea ve Paul Tarau. Textrank: Metne düzen getirme. Doğal dil işlemede ampirik yöntemler üzerine 2004 konferansının Bildirileri, sayfa 404–411, 2004. 7


[36] Cory S. Myers ve Lawrence R. Rabiner. Bağlantılı kelime tanıma için çeşitli dinamik zaman bükme algoritmalarının karşılaştırmalı bir çalışması. Bell Sistemi Teknik Dergisi, 60(7):1389–1409, 1981. 5


[37] Kenta Oono ve Taiji Suzuki. Grafik sinir ağları, düğüm sınıflandırması için ifade gücünü katlanarak kaybeder. Uluslararası Öğrenme Temsilleri Konferansında, 2019. 12


[38] Aaron van den Oord, Yazhe Li ve Oriol Vinyals. Karşılaştırmalı tahmine dayalı kodlamayla temsil öğrenimi. arXiv ön baskı arXiv:1807.03748, 2018. 4, 5, 11


[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli ve Juan Carlos Niebles. Bilgi damıtmayla video altyazısı oluşturmak için uzay-zamansal grafik. IEEE/CVF Bilgisayarlı Görme ve Örüntü Tanıma Konferansı Bildirileri, sayfa 10870– 10879, 2020. 4


[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann ve Mirella Lapata. Gizli anlatı yapısını kullanarak senaryo özetleme. Hesaplamalı Dilbilim Derneği'nin 58. Yıllık Toplantısı Bildirileri, sayfa 1920–1933, 2020. 2


[41] Pinelopi Papalampidi, Frank Keller ve Mirella Lapata. Dönüm noktası tanımlama yoluyla film olay örgüsü analizi. Doğal Dil İşlemede Ampirik Yöntemler 2019 Konferansı ve 9. Uluslararası Doğal Dil İşleme Ortak Konferansı (EMNLPIJCNLP) Bildirileri, sayfa 1707–1717, 2019. 2, 3, 5, 6, 11, 12


[42] Pinelopi Papalampidi, Frank Keller ve Mirella Lapata. Seyrek grafik oluşturma yoluyla film özetleme. Otuz Beşinci AAAI Yapay Zeka Konferansında, 2021. 2, 3, 5, 6, 12


[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria ve Rada Mihalcea. Meld: Konuşmalarda duygu tanımaya yönelik çok modlu, çok partili bir veri kümesi. Hesaplamalı Dilbilim Derneği'nin 57. Yıllık Toplantısı Bildirileri, sayfa 527– 536, 2019. 6


[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon ve Bernt Schiele. Film açıklaması için bir veri kümesi. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, sayfa 3202–3212, 2015. 2


[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi ve Hannaneh Hajishirzi. Makinenin kavraması için çift yönlü dikkat akışı. Uluslararası Öğrenme Temsilleri Konferansında, 2017. 3


[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady ve Gary Craig. Aksiyon filmi fragmanları için çekimlerin otomatik olarak seçilmesi. Multimedya bilgi erişimine ilişkin 8. ACM uluslararası çalıştayının Bildirileri, sayfa 231–238, 2006. 1, 2


[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu ve Jozef Cota. Yaratıcılığı artırmak için yapay zekadan yararlanma: Film fragmanı oluşturmaya yönelik uygulama. 25. ACM uluslararası Multimedya konferansı Bildirileri, sayfa 1799– 1808, 2017. 2, 7


[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang ve Jingjing Liu. Dil modeli sıkıştırması için ara temsillerde karşılaştırmalı damıtma. Doğal Dil İşlemede Ampirik Yöntemler (EMNLP) 2020 Konferansı Bildirileri, sayfa 498–508, 2020. 4


[49] Makarand Tapaswi, Martin Bauml ve Rainer Stiefelhagen. Book2movie: Video sahnelerini kitap bölümleriyle hizalama. IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri, sayfalar 1827–1835, 2015. 2


[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun ve Sanja Fidler. Movieqa: Soru cevaplama yoluyla filmlerdeki hikayeleri anlama. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, sayfa 4631–4640, 2016. 2


[51] Kristin Thompson. Yeni Hollywood'da Hikaye Anlatımı: Klasik Anlatı Tekniğinin Anlaşılması. Harvard University Press, 1999. 1


[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser ve Illia Polosukhin. İhtiyacınız olan tek şey dikkat. Nöral bilgi işleme sistemlerindeki gelişmeler, sayfa 5998–6008, 2017. 3


[53] Lezi Wang, Dong Liu, Rohit Puri ve Dimitris N Metaxas. Uzun metrajlı filmlerdeki fragman anlarını karşılaştırmalı dikkatle öğrenme. Avrupa Bilgisayarlı Görme Konferansı, sayfa 300-316. Springer, 2020. 1, 2, 7


[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo ve Ross Girshick. Dedektör2. https://github. com/facebookresearch/detectron2, 2019. 6


[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu ve Dahua Lin. Parametrik olmayan örnek ayrımcılığı yoluyla denetimsiz özellik öğrenimi. IEEE Bilgisayarlı Görme ve Örüntü Tanıma Konferansı Bildirileri, sayfa 3733– 3742, 2018. 4


[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu ve ' Kaiming He. Derin sinir ağları için toplu artık dönüşümler. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, sayfa 1492–1500, 2017. 6


[57] Hongteng Xu, Yi Zhen ve Hongyuan Zha. Noktasal süreç bazlı görsel çekicilik modeli aracılığıyla treyler üretimi. 24. Uluslararası Yapay Zeka Konferansı Bildirileri, sayfa 2198–2204, 2015. 2, 7