paint-brush
작업 분해를 통한 영화 예고편 생성: 결론 및 참고 자료~에 의해@kinetograph

작업 분해를 통한 영화 예고편 생성: 결론 및 참고 자료

너무 오래; 읽다

본 논문에서 연구자들은 영화를 그래프로 모델링하여 예고편을 생성하고 내러티브 구조를 식별하고 감정을 예측하여 지도 방법을 능가합니다.
featured image - 작업 분해를 통한 영화 예고편 생성: 결론 및 참고 자료
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

저자:

(1) 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소의 Pinelopi Papalampidi;

(2) 프랭크 켈러(Frank Keller), 에든버러 대학교 정보학부 언어, 인지 및 계산 연구소;

(3) 미렐라 라파타(Mirella Lapata), 에딘버러 대학교 정보학부 언어, 인지 및 계산 연구소.

링크 표

6. 결론

본 연구에서 우리는 그래프 기반 영화 표현을 채택하고 장면 선택에 해석 가능한 기준을 사용하는 예고편 생성 접근 방식을 제안했습니다. 또한 대조 학습을 통해 각본의 특권 정보를 활용하여 전환점 식별 및 예고편 생성에 사용할 수 있는 모델을 만드는 방법도 보여줍니다. 우리 모델로 생성된 예고편은 내용과 매력 측면에서 좋은 평가를 받았습니다.


앞으로 우리는 영화에서 세밀한 감정(예: 슬픔, 혐오, 공포, 기쁨)을 예측하는 방법에 중점을 두고 싶습니다. 이 작업에서는 도메인 내 레이블이 지정된 데이터세트가 없기 때문에 긍정적/부정적 감정을 감정의 대체 요소로 간주합니다. 이전의 노력은 트윗[1], 유튜브 오피니언 비디오[4], 토크쇼[20], 인간 상호 작용 녹음[8]에 중점을 두었습니다. 예비 실험에서는 다른 영역의 세밀한 감정 지식을 우리 영역으로 전송하는 것이 더 안정적이고 예고편 생성 성능을 향상시키는 정서에 비해 신뢰할 수 없는 예측으로 이어지는 것으로 나타났습니다. 향후 작업에는 영화를 위한 새로운 감정 데이터 세트와 텍스트 및 시청각 신호를 기반으로 한 감정 감지 모델이 포함됩니다.

참고자료

[1] Muhammad Abdul-Mageed와 Lyle Ungar. EmoNet: 게이트 순환 신경망을 사용한 세분화된 감정 감지. 전산 언어학 협회 제55차 연례 회의 진행(1권: 긴 논문), 페이지 718-728, 캐나다 밴쿠버, 2017년 7월. 전산 언어학 협회. 8


[2] 유리 알론(Uri Alon)과 에란 야하브(Eran Yahav). 그래프 신경망의 병목 현상과 실제적인 의미. 학습표현에 관한 국제학술대회, 2020. 12


[3] 지미 바(Jimmy Ba)와 리치 카루아나(Rich Caruana). 깊은 그물은 정말 깊어야 할까요? 신경 정보 처리 시스템의 발전에 관한 회보, 2654-2662페이지, 캐나다 퀘벡 주 몬트리올, 2014. 2, 4


[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria 및 Louis-Philippe Morency. 실제 다중 모드 언어 분석: CMU-MOSEI 데이터 세트 및 해석 가능한 동적 융합 그래프. 컴퓨터 언어학 협회 제56차 연례 회의 진행(1권: 긴 논문), 2236~2246페이지, 호주 멜버른, 2018년 7월. 컴퓨터 언어학 협회. 8


[5] 맥스 베인, 아르샤 나그라니, 앤드류 브라운, 앤드루 지서만. 압축된 영화: 상황에 맞는 임베딩을 사용한 스토리 기반 검색. 아시아컴퓨터비전학회 논문집, 2020. 2


[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge P' erez, 'Juan Reutter 및 Juan Pablo Silva. 그래프 신경망의 논리적 표현력. 학습표현에 관한 국제학술대회, 2019. 12


[7] 요슈아 벤지오, 니콜라스 레너드, 아론 쿠르빌. ' 조건부 계산을 위해 확률론적 뉴런을 통해 기울기를 추정하거나 전파합니다. arXiv 사전 인쇄 arXiv:1308.3432, 2013. 11


[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt 및 Maja Pantic. MAHNOB 모방 데이터베이스: 자연주의적인 인간 상호 작용에 대한 데이터베이스입니다. 패턴 인식 편지, 66:52–61, 2015. 인간 컴퓨터 상호 작용의 패턴 인식. 8


[9] Carlos Busso, Murtaza Bulut, 이치춘, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee 및 Shrikanth S Narayanan. Iemocap: 대화형 감정 이중 모션 캡처 데이터베이스입니다. 언어자원과 평가, 42(4):335, 2008. 6


[10] Joao Carreira와 Andrew Zisserman. 쿼바디스, 행동인식? 새로운 모델과 동역학 데이터세트. 2017년 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR), 4724~4733페이지. IEEE 컴퓨터 학회, 2017. 6


[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo 및 Vicente Ordonez. Moviescope: 다양한 양식을 사용하여 영화를 대규모로 분석합니다. arXiv 사전 인쇄 arXiv:1908.03180, 2019. 5


[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario GuajardoCespedes, Steve Yuan, Chris Tar 등. 범용 문장 인코더. arXiv 사전 인쇄 arXiv:1803.11175, 2018. 6


[13] 제임스 E 커팅. 서사이론과 대중영화의 역동성. Psychonomic Bulletin 및 검토, 23(6):1713–1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li 및 Li Fei-Fei. Imagenet: 대규모 계층적 이미지 데이터베이스입니다. 2009년 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스, 248~255페이지. 이야, 2009. 6


[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik 및 Ryan P Adams. 분자 지문 학습을 위한 그래프의 컨벌루션 네트워크. 신경 정보 처리 시스템의 발전, 28:2224–2232, 2015. 3


[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal 및 Marvin Ritter. 오디오 세트: 오디오 이벤트에 대한 온톨로지 및 사람이 라벨을 붙인 데이터 세트입니다. 2017년 IEEE 국제 음향, 음성 및 신호 처리 회의(ICASSP), 776~780페이지. IEEE, 2017. 6


[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea 및 Soujanya Poria. Cosmic: 대화에서 감정 식별을 위한 상식적 지식입니다. 2020년 자연어 처리의 경험적 방법에 관한 컨퍼런스 진행: 조사 결과, 페이지 2470–2481, 2020. 6 [18] Ross Girshick. 빠른 r-cnn. 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 진행, 페이지 1440–1448, 2015. 6


[19] 필립 존 고린스키(Philip John Gorinski)와 미렐라 라파타(Mirella Lapata). 그래프 기반 장면 추출로 영화 대본을 요약합니다. 2015년 전산 언어학 협회 북미 지부 회의 진행: 인간 언어 기술, 1066~1076페이지, 콜로라도주 덴버, 2015년 5월~6월. 전산 언어학 협회. 5, 12


[20] Michael Grimm, Kristian Kroschel, Shrikanth Narayanan. Vera am Mittag 독일 시청각 감정 음성 데이터베이스. ICME, 865~868페이지. IEEE, 2008. 8


[21] 마이클 구트만(Michael Gutmann)과 아포 히바리넨(Aapo Hyvarinen). 잡음 대비 ¨ 추정: 정규화되지 않은 통계 모델을 위한 새로운 추정 원리입니다. 제13차 인공지능 및 통계에 관한 국제회의 진행, 297~304페이지, 2010년. 4


[22] 마이클 헤이지. 손쉬운 스토리텔링: 간단하고 신속하며 수익성 있는 방식으로 청중, 구매자 및 클라이언트를 설득하고 변화시키십시오. 인디북스인터내셔널, 2017. 1, 3, 13


[23] Geoffrey Hinton, Oriol Vinyals 및 Jeff Dean. 신경망에서 지식을 정제합니다. arXiv 사전 인쇄 arXiv:1503.02531, 2015. 2, 4


[24] 이리에 고, 사토 다카시, 코지마 아키라, 야마사키 토시히코, 아이자와 기요하루. 자동 트레일러 생성. 멀티미디어에 관한 제18차 ACM 국제 컨퍼런스 진행, 페이지 839-842, 2010. 1, 2


[25] 에릭 장, 구시샹, 벤 풀. gumble-softmax를 사용한 범주형 재매개변수화. 학습표현에 관한 국제회의(ICLR 2017), 2017. 11


[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande 및 Patrick Riley. 분자 그래프 컨볼루션: 지문을 뛰어넘는 기술 컴퓨터 지원 분자 설계 저널, 30(8):595–608, 2016. 3


[27] 김형훈, Zineng Tang, Mohit Bansal. videoqa의 시간적 위치 파악을 위한 Densecaption 매칭 및 프레임 선택 게이팅. 전산언어학협회 제58차 연례 회의 진행 중, 페이지 4812-4822, 2020. 3


[28] Thomas N. Kipf와 Max Welling. 그래프 컨벌루션 네트워크를 사용한 준지도 분류. 학습표현에 관한 국제회의(ICLR)에서, 2017. 3


[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao 및 Shuzi Niu. Dailydialog: 수동으로 레이블이 지정된 다중 회전 대화 데이터세트입니다. 자연어 처리에 관한 제8차 국제 합동 회의 진행 중(1권: 긴 논문), 페이지 986-995, 2017. 6


[30] David Lopez-Paz, Leon Bottou, Bernhard Sch ´ olkopf 및 ¨ Vladimir Vapnik. 증류 및 특권 정보를 통합합니다. arXiv 사전 인쇄 arXiv:1511.03643, 2015. 2


[31] Jordan Louviere, TN Flynn 및 AAJ Marley. 최고-최악의 확장성: 이론, 방법 및 적용. 2015. 01. 8


[32] Chris J. Maddison, Andriy Mnih, Yee Whye Teh. 구체적인 분포: 이산 확률 변수의 연속적인 완화입니다. 제5회 학습 표현에 관한 국제 회의, ICLR 2017, 프랑스 툴롱, 2017년 4월 24~26일, Conference Track Proceedings, 2017. 11


[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic 및 Andrew Zisserman. 선별되지 않은 교육용 비디오의 시각적 표현에 대한 엔드투엔드 학습. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행 중, 페이지 9879–9889, 2020. 2


[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev 및 Josef Sivic. Howto100m: 수억 개의 내레이션 비디오 클립을 보면서 텍스트-비디오 임베딩을 학습합니다. 컴퓨터 비전에 관한 IEEE/CVF 국제 컨퍼런스 진행 중, 페이지 2630–2640, 2019. 2


[35] 라다 미할체아(Rada Mihalcea)와 폴 타라우(Paul Tarau). Textrank: 텍스트에 질서를 부여합니다. 자연어 처리의 경험적 방법에 관한 2004년 컨퍼런스 진행, 페이지 404-411, 2004. 7


[36] 코리 S 마이어스(Cory S Myers)와 로렌스 R 라비너(Lawrence R Rabiner). 연결된 단어 인식을 위한 여러 동적 시간 왜곡 알고리즘에 대한 비교 연구. 벨 시스템 기술 저널, 60(7):1389–1409, 1981. 5


[37] 오노 켄타와 스즈키 타이지. 그래프 신경망은 노드 분류에 대한 표현력을 기하급수적으로 잃습니다. 학습표현에 관한 국제학술대회, 2019. 12


[38] Aaron van den Oord, Yazhe Li 및 Oriol Vinyals. 대조 예측 코딩을 사용한 표현 학습. arXiv 사전 인쇄 arXiv:1807.03748, 2018. 4, 5, 11


[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli 및 Juan Carlos Niebles. 지식 증류를 사용한 비디오 캡션에 대한 시공간 그래프. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 10870–10879, 2020. 4


[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann 및 Mirella Lapata. 잠재 내러티브 구조를 활용한 각본 요약. 전산언어학협회 제58차 연차총회 진행, 1920~1933페이지, 2020. 2


[41] Pinelopi Papalampidi, Frank Keller 및 Mirella Lapata. 전환점 식별을 통한 영화 플롯 분석. 2019 자연어 처리의 경험적 방법에 관한 컨퍼런스 및 제9차 자연어 처리에 관한 국제 합동 컨퍼런스(EMNLPIJCNLP) 진행, 페이지 1707–1717, 2019. 2, 3, 5, 6, 11, 12


[42] Pinelopi Papalampidi, Frank Keller 및 Mirella Lapata. 희소 그래프 구성을 통한 영화 요약. 제35차 AAAI 인공지능 컨퍼런스에서, 2021. 2, 3, 5, 6, 12


[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria 및 Rada Mihalcea. Meld: 대화에서 감정 인식을 위한 다중 모드 다자간 데이터세트입니다. 전산언어학협회 제57차 연례 회의 진행 중, 페이지 527-536, 2019. 6


[44] 안나 로르바흐, 마커스 로르바흐, 니케트 탠던, 베른트 실레. 영화 설명을 위한 데이터세트입니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 3202–3212, 2015. 2


[45] 서민준, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi. 기계 이해를 위한 양방향 주의 흐름. 학습표현에 관한 국제회의에서, 2017. 3


[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady 및 Gary Craig. 액션 영화 예고편의 장면을 자동으로 선택합니다. 멀티미디어 정보 검색에 관한 제8차 ACM 국제 워크숍 진행, 페이지 231-238, 2006. 1, 2


[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu 및 Jozef Cota. 창의성 증대를 위한 AI 활용: 영화 예고편 제작에 적용. 멀티미디어에 관한 제25차 ACM 국제 컨퍼런스 진행 중, 페이지 1799–1808, 2017. 2, 7


[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang 및 Jingjing Liu. 언어 모델 압축을 위한 중간 표현에 대한 대조 증류. 2020년 자연어 처리의 경험적 방법에 관한 컨퍼런스 진행(EMNLP), 페이지 498-508, 2020. 4


[49] 마카란드 타파스위(Makarand Tapaswi), 마틴 바움(Martin Bauml), 라이너 스티펠하겐(Rainer Stiefelhagen). Book2movie: 비디오 장면을 책 장과 정렬합니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 1827~1835페이지, 2015. 2


[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun 및 Sanja Fidler. 무비카: 질문답변을 통해 영화 속 스토리를 이해해보세요. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 4631–4640, 2016. 2


[51] 크리스틴 톰슨. 새로운 헐리우드의 스토리텔링: 고전 서사기법의 이해. 하버드 대학 출판부, 1999. 1


[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser 및 Illia Polosukhin. 주의가 필요한 전부입니다. 신경 정보 처리 시스템의 발전, 5998~6008페이지, 2017. 3


[53] Lezi Wang, Dong Liu, Rohit Puri 및 Dimitris N Metaxas. 상호 대조적 관심을 통해 장편 영화의 예고편 순간을 학습합니다. 컴퓨터 비전에 관한 유럽 회의, 300~316페이지. 스프링어, 2020. 1, 2, 7


[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo 및 Ross Girshick. 디텍트론2. https://github. com/facebookresearch/Detectron2, 2019. 6


[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu, Dahua Lin. 비모수적 인스턴스 판별을 통한 비지도 기능 학습. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 3733~3742페이지, 2018. 4


[56] Saning Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu 및 'Kaiming He. 심층 신경망에 대한 집계된 잔차 변환입니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 1492-1500, 2017. 6


[57] Hongteng Xu, Yi Zhen 및 Hongyuan Zha. 포인트 프로세스 기반의 시각적 매력도 모델을 통한 예고편 생성. 제24차 인공지능 국제회의 진행 중, 페이지 2198–2204, 2015. 2, 7


이 문서는 CC BY-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.