tác giả:
(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.
Trong công việc này, chúng tôi đã đề xuất một phương pháp tạo đoạn giới thiệu áp dụng cách trình bày phim dựa trên biểu đồ và sử dụng các tiêu chí có thể hiểu được để chọn cảnh quay. Chúng tôi cũng cho thấy thông tin đặc quyền từ các kịch bản phim có thể được tận dụng như thế nào thông qua học tập đối chiếu, dẫn đến một mô hình có thể được sử dụng để xác định điểm ngoặt và tạo đoạn giới thiệu. Các đoạn giới thiệu do mô hình của chúng tôi tạo ra được đánh giá cao về mặt nội dung và độ hấp dẫn.
Trong tương lai, chúng tôi muốn tập trung vào các phương pháp dự đoán những cảm xúc chi tiết (ví dụ: đau buồn, ghê tởm, kinh hoàng, vui vẻ) trong phim. Trong công việc này, chúng tôi coi tình cảm tích cực/tiêu cực là đại diện cho cảm xúc, do không có bộ dữ liệu được gắn nhãn trong miền. Những nỗ lực trước đây đã tập trung vào các tweet [1], video ý kiến của Youtube [4], các chương trình trò chuyện [20] và ghi lại các tương tác giữa con người với nhau [8]. Các thử nghiệm sơ bộ cho thấy rằng việc chuyển kiến thức cảm xúc chi tiết từ các lĩnh vực khác sang lĩnh vực của chúng ta dẫn đến những dự đoán không đáng tin cậy so với cảm tính ổn định hơn và cải thiện hiệu suất tạo đoạn giới thiệu. Các hướng đi cho công việc trong tương lai bao gồm các bộ dữ liệu cảm xúc mới dành cho phim cũng như các mô hình phát hiện cảm xúc dựa trên các tín hiệu văn bản và nghe nhìn.
[1] Muhammad Abdul-Mageed và Lyle Ungar. EmoNet: Phát hiện cảm xúc tinh tế với mạng lưới thần kinh định kỳ có kiểm soát. Trong Kỷ yếu Hội nghị thường niên lần thứ 55 của Hiệp hội Ngôn ngữ học tính toán (Tập 1: Bài viết dài), trang 718–728, Vancouver, Canada, tháng 7 năm 2017. Hiệp hội Ngôn ngữ học tính toán. số 8
[2] Uri Alon và Eran Yahav. Về nút cổ chai của mạng lưới thần kinh đồ thị và ý nghĩa thực tế của nó. Trong Hội nghị quốc tế về đại diện học tập, 2020. 12
[3] Jimmy Ba và Rich Caruana. Lưới sâu có thực sự cần sâu không? Trong Kỷ yếu về những tiến bộ trong hệ thống xử lý thông tin thần kinh, trang 2654–2662, Montreal, Quebec, Canada, 2014. 2, 4
[4] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria và Louis-Philippe Morency. Phân tích ngôn ngữ đa phương thức trong tự nhiên: Bộ dữ liệu CMU-MOSEI và biểu đồ tổng hợp động có thể giải thích được. Trong Kỷ yếu Hội nghị thường niên lần thứ 56 của Hiệp hội Ngôn ngữ học tính toán (Tập 1: Bài viết dài), trang 2236–2246, Melbourne, Australia, tháng 7 năm 2018. Hiệp hội Ngôn ngữ học tính toán. số 8
[5] Max Bain, Arsha Nagrani, Andrew Brown và Andrew Zisserman. Phim cô đọng: Truy xuất dựa trên câu chuyện có nhúng theo ngữ cảnh. Trong Kỷ yếu của Hội nghị Châu Á về Thị giác Máy tính, 2020. 2
[6] Pablo Barcelo, Egor V Kostylev, Mikael Monet, Jorge P erez, ` Juan Reutter, và Juan Pablo Silva. Tính biểu cảm logic của mạng lưới thần kinh đồ thị. Trong Hội nghị quốc tế về đại diện học tập, 2019. 12
[7] Yoshua Bengio, Nicholas Leonard và Aaron Courville. ` Ước tính hoặc truyền bá gradient thông qua các nơ-ron ngẫu nhiên để tính toán có điều kiện. bản in trước arXiv arXiv:1308.3432, 2013. 11
[8] Sanjay Bilakhia, Stavros Petridis, Anton Nijholt và Maja Pantic. Cơ sở dữ liệu bắt chước MAHNOB: Cơ sở dữ liệu về các tương tác tự nhiên của con người. Thư nhận dạng mẫu, 66:52–61, 2015. Nhận dạng mẫu trong tương tác máy tính của con người. số 8
[9] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee và Shrikanth S Narayanan. Iemocap: Cơ sở dữ liệu ghi lại chuyển động tương tác theo cặp cảm xúc. Nguồn lực và đánh giá ngôn ngữ, 42(4):335, 2008. 6
[10] Joao Carreira và Andrew Zisserman. Quo vadis, nhận dạng hành động? một mô hình mới và tập dữ liệu động học. Trong Hội nghị IEEE 2017 về Thị giác máy tính và Nhận dạng mẫu (CVPR), trang 4724–4733. Hiệp hội máy tính IEEE, 2017. 6
[11] Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo và Vicente Ordonez. Moviescope: Phân tích phim quy mô lớn bằng nhiều phương thức. bản in trước arXiv arXiv:1908.03180, 2019. 5
[12] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario GuajardoCespedes, Steve Yuan, Chris Tar, và những người khác. Bộ mã hóa câu phổ quát. bản in trước arXiv arXiv:1803.11175, 2018. 6
[13] James E Cắt. Lý thuyết tường thuật và động lực của các bộ phim nổi tiếng. Bản tin và đánh giá tâm lý học, 23(6):1713– 1743, 2016. 1 [14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li và Li Fei-Fei. Imagenet: Cơ sở dữ liệu hình ảnh phân cấp quy mô lớn. Trong hội nghị IEEE năm 2009 về thị giác máy tính và nhận dạng mẫu, trang 248–255. eeee, 2009. 6
[15] David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alan Aspuru-Guzik và Ryan P Adams. Mạng tích chập trên đồ thị để học dấu vân tay phân tử. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 28:2224–2232, 2015. 3
[16] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal và Marvin Ritter. Bộ âm thanh: Một tập dữ liệu bản thể luận và được gắn nhãn con người cho các sự kiện âm thanh. Năm 2017 Hội nghị quốc tế của IEEE về Âm học, Xử lý giọng nói và tín hiệu (ICASSP), trang 776–780. IEEE, 2017. 6
[17] Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea và Soujanya Poria. Vũ trụ: Kiến thức thông thường để nhận dạng cảm xúc trong các cuộc trò chuyện. Trong Kỷ yếu của Hội nghị năm 2020 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên: Những phát hiện, trang 2470–2481, 2020. 6 [18] Ross Girshick. Nhanh r-cnn. Trong Kỷ yếu của hội nghị quốc tế IEEE về thị giác máy tính, trang 1440–1448, 2015. 6
[19] Philip John Gorinski và Mirella Lapata. Tóm tắt kịch bản phim dưới dạng trích xuất cảnh dựa trên biểu đồ. Trong Kỷ yếu Hội nghị năm 2015 của Chi hội Bắc Mỹ của Hiệp hội Ngôn ngữ học Tính toán: Công nghệ Ngôn ngữ Con người, trang 1066–1076, Denver, Colorado, tháng 5 đến tháng 6 năm 2015. Hiệp hội Ngôn ngữ học tính toán. 5, 12
[20] Michael Grimm, Kristian Kroschel và Shrikanth Narayanan. Cơ sở dữ liệu lời nói cảm xúc nghe nhìn Vera am Mittag của Đức. Trong ICME, trang 865–868. IEEE, 2008. 8
[21] Michael Gutmann và Aapo Hyvarinen. Ước lượng ¨ tương phản nhiễu: Nguyên tắc ước lượng mới cho các mô hình thống kê không chuẩn hóa. Trong Kỷ yếu của Hội nghị quốc tế lần thứ mười ba về trí tuệ nhân tạo và thống kê, trang 297–304, 2010. 4
[22] Michael Hauge. Kể chuyện dễ dàng: Thuyết phục và biến đổi khán giả, người mua và khách hàng của bạn – Đơn giản, nhanh chóng và có lợi nhuận. Sách Indie Quốc tế, 2017. 1, 3, 13
[23] Geoffrey Hinton, Oriol Vinyals và Jeff Dean. Chắt lọc kiến thức trong mạng lưới thần kinh. bản in trước arXiv arXiv:1503.02531, 2015. 2, 4
[24] Go Irie, Takashi Satou, Akira Kojima, Toshihiko Yamasaki và Kiyoharu Aizawa. Tạo trailer tự động. Trong Kỷ yếu hội nghị quốc tế ACM về Đa phương tiện lần thứ 18, trang 839–842, 2010. 1, 2
[25] Eric Jang, Shixiang Gu và Ben Poole. Tái tham số hóa theo phân loại với gumble-softmax. Trong Hội nghị quốc tế về đại diện học tập (ICLR 2017), 2017. 11
[26] Steven Kearnes, Kevin McCloskey, Marc Berndl, Vijay Pande và Patrick Riley. Tích chập đồ thị phân tử: vượt ra ngoài dấu vân tay. Tạp chí thiết kế phân tử có sự hỗ trợ của máy tính, 30(8):595–608, 2016. 3
[27] Hyounghun Kim, Zineng Tang, và Mohit Bansal. So khớp phụ đề dày đặc và chọn khung để bản địa hóa theo thời gian trong videoqa. Trong Kỷ yếu Hội nghị thường niên lần thứ 58 của Hiệp hội Ngôn ngữ học tính toán, trang 4812–4822, 2020. 3
[28] Thomas N. Kipf và Max Welling. Phân loại bán giám sát với mạng tích chập đồ thị. Trong Hội nghị quốc tế về đại diện học tập (ICLR), 2017. 3
[29] Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao và Shuzi Niu. Dailydialog: Tập dữ liệu hội thoại nhiều lượt được gắn nhãn thủ công. Trong Kỷ yếu của Hội nghị chung quốc tế lần thứ tám về xử lý ngôn ngữ tự nhiên (Tập 1: Bài viết dài), trang 986–995, 2017. 6
[30] David Lopez-Paz, Leon Bottou, Bernhard Sch `olkopf, và ¨ Vladimir Vapnik. Thống nhất chưng cất và thông tin đặc quyền. bản in trước arXiv arXiv:1511.03643, 2015. 2
[31] Jordan Louviere, TN Flynn và AAJ Marley. Tỷ lệ tốt nhất-tệ nhất: Lý thuyết, phương pháp và ứng dụng. 01 2015. 8
[32] Chris J. Maddison, Andriy Mnih và Yee Whye Teh. Sự phân bố cụ thể: Sự nới lỏng liên tục các biến ngẫu nhiên rời rạc. Trong Hội nghị Quốc tế về Trình bày Học tập lần thứ 5, ICLR 2017, Toulon, Pháp, ngày 24-26 tháng 4 năm 2017, Kỷ yếu Hội nghị, 2017. 11
[33] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic và Andrew Zisserman. Học tập từ đầu đến cuối về cách trình bày trực quan từ các video hướng dẫn không được giám sát. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, trang 9879– 9889, 2020. 2
[34] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev và Josef Sivic. Howto100m: Học cách nhúng video văn bản bằng cách xem hàng trăm triệu video clip được tường thuật. Trong Kỷ yếu của Hội nghị Quốc tế IEEE/CVF về Thị giác Máy tính, trang 2630–2640, 2019. 2
[35] Rada Mihalcea và Paul Tarau. Textrank: Đưa trật tự vào văn bản. Trong Kỷ yếu của hội nghị năm 2004 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên, trang 404–411, 2004. 7
[36] Cory S Myers và Lawrence R Rabiner. Một nghiên cứu so sánh một số thuật toán bẻ cong thời gian động để nhận dạng từ được kết nối. Tạp chí Kỹ thuật Hệ thống Bell, 60(7):1389–1409, 1981. 5
[37] Kenta Oono và Taiji Suzuki. Mạng lưới thần kinh đồ thị mất khả năng biểu đạt theo cấp số nhân để phân loại nút. Trong Hội nghị quốc tế về đại diện học tập, 2019. 12
[38] Aaron van den Oord, Yazhe Li, và Oriol Vinyals. Học đại diện với mã hóa dự đoán tương phản. bản in trước arXiv arXiv:1807.03748, 2018. 4, 5, 11
[39] Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli và Juan Carlos Niebles. Biểu đồ không gian-thời gian dành cho chú thích video với sự chắt lọc kiến thức. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, trang 10870– 10879, 2020. 4
[40] Pinelopi Papalampidi, Frank Keller, Lea Frermann và Mirella Lapata. Tóm tắt kịch bản sử dụng cấu trúc tường thuật tiềm ẩn. Trong Kỷ yếu Hội nghị thường niên lần thứ 58 của Hiệp hội Ngôn ngữ học tính toán, trang 1920–1933, 2020. 2
[41] Pinelopi Papalampidi, Frank Keller và Mirella Lapata. Phân tích cốt truyện phim thông qua nhận dạng bước ngoặt. Trong Kỷ yếu của Hội nghị về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên năm 2019 và Hội nghị chung quốc tế lần thứ 9 về xử lý ngôn ngữ tự nhiên (EMNLPIJCNLP), trang 1707–1717, 2019. 2, 3, 5, 6, 11, 12
[42] Pinelopi Papalampidi, Frank Keller và Mirella Lapata. Tóm tắt phim thông qua xây dựng biểu đồ thưa thớt. Trong Hội nghị AAAI lần thứ 35 về Trí tuệ nhân tạo, năm 2021. 2, 3, 5, 6, 12
[43] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria và Rada Mihalcea. Meld: Bộ dữ liệu đa phương thức đa phương để nhận dạng cảm xúc trong các cuộc trò chuyện. Trong Kỷ yếu Hội nghị thường niên lần thứ 57 của Hiệp hội Ngôn ngữ học tính toán, trang 527–536, 2019. 6
[44] Anna Rohrbach, Marcus Rohrbach, Niket Tandon và Bernt Schiele. Một tập dữ liệu cho mô tả phim. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 3202–3212, 2015. 2
[45] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi và Hannaneh Hajishirzi. Luồng chú ý hai chiều để hiểu máy. Trong Hội nghị quốc tế về đại diện học tập, 2017. 3
[46] Alan F Smeaton, Bart Lehane, Noel E O'Connor, Conor Brady và Gary Craig. Tự động chọn cảnh cho trailer phim hành động. Trong Kỷ yếu hội thảo quốc tế ACM lần thứ 8 về truy xuất thông tin đa phương tiện, trang 231–238, 2006. 1, 2
[47] John R Smith, Dhiraj Joshi, Benoit Huet, Winston Hsu và Jozef Cota. Khai thác AI để tăng cường khả năng sáng tạo: Ứng dụng vào việc tạo đoạn giới thiệu phim. Trong Kỷ yếu hội nghị quốc tế ACM về Đa phương tiện lần thứ 25, trang 1799–1808, 2017. 2, 7
[48] Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang và Jingjing Liu. Chắt lọc tương phản trên các biểu diễn trung gian để nén mô hình ngôn ngữ. Trong Kỷ yếu của Hội nghị năm 2020 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên (EMNLP), trang 498–508, 2020. 4
[49] Makarand Tapaswi, Martin Bauml, và Rainer Stiefelhagen. Book2movie: Căn chỉnh các cảnh video với các chương sách. Trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu, trang 1827–1835, 2015. 2
[50] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun và Sanja Fidler. Movieqa: Tìm hiểu câu chuyện trong phim thông qua việc trả lời câu hỏi. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 4631–4640, 2016. 2
[51] Kristin Thompson. Kể chuyện ở Hollywood mới: Tìm hiểu kỹ thuật kể chuyện cổ điển. Nhà xuất bản Đại học Harvard, 1999. 1
[52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser và Illia Polosukhin. Sự chú ý là tất cả những gì bạn cần. Trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh, trang 5998–6008, 2017. 3
[53] Lezi Wang, Dong Liu, Rohit Puri, và Dimitris N Metaxas. Tìm hiểu những khoảnh khắc trong đoạn giới thiệu phim trong các bộ phim dài tập với sự chú ý tương phản. Trong Hội nghị Châu Âu về Thị giác Máy tính, trang 300–316. Springer, 2020. 1, 2, 7
[54] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo và Ross Girshick. Máy dò2. https://github. com/facebookresearch/ detectron2, 2019. 6
[55] Zhirong Wu, Yuanjun Xiong, Stella X Yu và Dahua Lin. Học tính năng không giám sát thông qua phân biệt đối tượng không tham số. Trong Kỷ yếu của Hội nghị IEEE về Thị giác máy tính và Nhận dạng mẫu, trang 3733–3742, 2018. 4
[56] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, và ` Kaiming He. Các phép biến đổi dư tổng hợp cho mạng lưới thần kinh sâu. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 1492–1500, 2017. 6
[57] Hongteng Xu, Yi Zhen, và Hongyuan Zha. Tạo đoạn giới thiệu thông qua mô hình thu hút thị giác dựa trên quy trình điểm. Trong Kỷ yếu Hội nghị Quốc tế về Trí tuệ Nhân tạo lần thứ 24, trang 2198–2204, 2015. 2, 7
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.