Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( https://jiwanchung.github.io/ ).
Çalışmamızın aşağıdakiler de dahil olmak üzere bazı sınırlamaları vardır:
Yalnızca İngilizce altyazılı videolarla denemeler yapıyoruz. Ancak yöntemimiz, güçlü bir çok dilli dil modeli göz önüne alındığında, çok dilli bağlamları içerecek şekilde genişletilebilir.
Yöntemimizin hesaplama ve bellek gereksinimi, büyük dil modeli GPT-3'e büyük ölçüde bağımlı olması nedeniyle önemlidir.
Uzun Hikaye Kısa'yı yalnızca tek bir LLM (GPT-3) örneğiyle değerlendiriyoruz.
Potansiyel risk. Uzun video bağlamını GPT-3 ile özetlemek, dil modelinin açık uçlu doğasıyla ilgili etik riskler taşır. GPT-3 (a) içerikle ilgili sahte gerçekleri halüsinasyona uğratabilir, (b) zehirli ifadeler üretebilir veya (c) özete ve cevap olasılıklarına dolaylı olarak sosyal önyargılar katabilir.
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell ve diğerleri. Dil modelleri az sayıda öğrenendir. Sinirsel bilgi işleme sistemlerindeki ilerlemeler, 33:1877–1901, 2020.
[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee ve Byoung-Tak Zhang. DramaQA: hiyerarşik qa ile karakter merkezli video hikayesi anlayışı. arXiv ön baskı arXiv:2005.03356, 2020.
[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee ve Byoung-Tak Zhang. Dramaqa: Hiyerarşik qa ile karakter merkezli video hikaye anlayışı. AAAI Yapay Zeka Konferansı Bildirileri, cilt 35, sayfalar 1166–1174, 2021.
[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang ve Heng Huang. Video soru cevaplama için heterojen hafızayı geliştiren çok modlu dikkat modeli. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE/CVF konferansının Bildirileri, sayfalar 1999–2007, 2019.
[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang ve Zicheng Liu. Mor: Maskelenmiş görsel belirteç modellemeye sahip uçtan uca video dili dönüştürücüleri. arXiv ön baskı arXiv:2111.12681, 2021.
[6] Jiyang Gao, Runzhou Ge, Kan Chen ve Ram Nevatia. Video soru yanıtlaması için hareket görünümü ortak bellek ağları. IEEE Bilgisayarlı Görme ve Örüntü Tanıma Konferansı Bildirileri, sayfa 6576–6585, 2018.
[7] Philip John Gorinski ve Mirella Lapata. Grafik tabanlı sahne çıkarma olarak film senaryosu özetleme. NAACL'de, 2015.
[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao ve Xuedong Huang. Z-code++: Soyutlayıcı özetleme için optimize edilmiş, önceden eğitilmiş bir dil modeli. ArXiv, abs/2208.09770, 2022.
[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim ve Gunhee Kim. Tgif-qa: Görsel soru cevaplamada uzay-zamansal akıl yürütmeye doğru. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, sayfa 2758–2766, 2017.
[10] Bhavan Jasani, Rohit Girdhar ve Deva Ramanan. Movieqa'da doğru soruları mı soruyoruz? IEEE/CVF Uluslararası Bilgisayarlı Görme Çalıştayları Konferansı Bildirileri, sayfa 0-0, 2019.
[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim ve Chang D Yoo. Film hikayesi sorularının yanıtlanması için aşamalı dikkat hafıza ağı. Bilgisayarlı Görme ve Örüntü Tanıma üzerine IEEE/CVF Konferansı Bildirileri, sayfalar 8337–8346, 2019.
[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim ve Chang D Yoo. Film hikayesi sorularının yanıtlanması için aşamalı dikkat hafıza ağı. Bilgisayarlı Görme ve Örüntü Tanıma üzerine IEEE/CVF Konferansı Bildirileri, sayfalar 8337–8346, 2019.
[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi ve Byoung-Tak Zhang. Deepstory: derin gömülü bellek ağları tarafından hazırlanan video hikayesi. 26. Uluslararası Yapay Zeka Ortak Konferansı Bildirileri, sayfalar 2016–2022, 2017.
[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang ve Nojun Kwak. Çoktan seçmeli video qa için kendi kendini denetleyen ön eğitim ve karşılaştırmalı temsil öğrenimi. AAAI'de, 2021.
[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung ve JongHyeok Lee. Diyalog bilgileriyle artırılmış öğrenme temsilini kullanan transformatör tabanlı senaryo özetleme. NUSE'de, 2021.
[16] Jie Lei, Licheng Yu, Mohit Bansal ve Tamara L Berg. Tvqa: Yerelleştirilmiş, kompozisyona dayalı video soru yanıtlama. EMNLP'de, 2018.
[17] Jie Lei, Licheng Yu, Tamara L Berg ve Mohit Bansal. Tvqa+: Videolu soru yanıtlama için uzay-zamansal temellendirme. Teknik Raporda, arXiv, 2019.
[18] Junnan Li, Dongxu Li, Caiming Xiong ve Steven Hoi. Blip: Birleşik vizyon-dil anlayışı ve üretimi için önyükleme dili görüntüsü ön eğitimi. ICML'de, 2022.
[19] Çene-Yew Lin. ROUGE: Özetlerin otomatik değerlendirilmesi için bir paket. Metin Özetleme Dalları Dışarı, sayfa 74-81, Barselona, İspanya, Temmuz 2004. Hesaplamalı Dilbilim Derneği. URL https://aclanthology.org/W04-1013.
[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen ve Tyng-Luh Liu. A2a: Film sorusunun yanıtlanmasında dikkat mantığına dikkat. Bilgisayarla Görme–ACCV 2018: 14. Asya Bilgisayarla Görme Konferansı, Perth, Avustralya, 2–6 Aralık 2018, Gözden Geçirilmiş Seçilmiş Makaleler, Bölüm VI 14, sayfa 404–419. Springer, 2019.
[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong ve Hanqing Lu. Video hikayesi sorularının yanıtlanması için qa bilinçli dinamik normalleştirmeye sahip ikili hiyerarşik zamansal evrişimli ağ. 28. ACM Uluslararası Multimedya Konferansı Bildirileri, sayfa 4253–4261, 2020.
[22] Seil Na, Sangho Lee, Jisung Kim ve Gunhee Kim. Film hikayesinin anlaşılması için okuma-yazma hafıza ağı. IEEE Uluslararası Bilgisayarlı Görme Konferansı Bildirileri, sayfalar 677–685, 2017.
[23] Pinelopi Papalampidi, Frank Keller ve Mirella Lapata. Dönüm noktası tanımlama yoluyla film olay örgüsü analizi. 2019 Doğal Dil İşlemede Ampirik Yöntemler Konferansı ve 9. Uluslararası Doğal Dil İşleme Ortak Konferansı (EMNLP-IJCNLP) Bildirileri Bildirileri, Kasım 2019.
[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann ve Mirella Lapata. Gizli anlatı yapısını kullanarak senaryo özetleme. Hesaplamalı Dilbilim Derneği'nin 2020 Yıllık Toplantısında.
[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark ve diğerleri. Aktarılabilir görsel modellerin doğal dil denetiminden öğrenilmesi. Uluslararası Makine Öğrenimi Konferansında, sayfalar 8748–8763. PMLR, 2021.
[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville ve Bernt Schiele. Film Açıklaması. IJCV, 2017.
[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun ve Sanja Fidler. Movieqa: Soru cevaplama yoluyla filmlerdeki hikayeleri anlamak. Bilgisayarlı görme ve örüntü tanıma üzerine IEEE konferansının Bildirileri, sayfalar 4631–4640, 2016.
[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum ve Chuang Gan. Yıldız: Gerçek dünya videolarında konumsal akıl yürütmeye yönelik bir referans noktası. Sinir Bilgisi İşleme Sistemleri Veri Kümeleri ve Karşılaştırmalar İzleme Konulu Otuz Beşinci Konferansta (2. Tur), 2021.
[29] Junbin Xiao, Xindi Shang, Angela Yao ve Tat-Seng Chua. Next-qa: Zamansal eylemleri açıklamaya yönelik soru cevaplamanın bir sonraki aşaması. IEEE/CVF Bilgisayarlı Görme ve Örüntü Tanıma Konferansı Bildirileri, sayfalar 9777–9786, 2021.
[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He ve Yueting Zhuang. Görünüm ve harekete kademeli olarak odaklanarak cevaplanan video soru. 25. ACM uluslararası Multimedya konferansı Bildirileri, sayfa 1645–1653, 2017.
[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev ve Cordelia Schmid. Sadece sorun: Milyonlarca anlatılan videodan soruları yanıtlamayı öğrenin. IEEE/CVF Uluslararası Bilgisayarlı Görme Konferansı Bildirileri, sayfalar 1686–1697, 2021.
[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu ve Lijuan Wang. Birkaç atışlık bilgi tabanlı vqa için gpt-3'ün ampirik bir çalışması. arXiv ön baskısı arXiv:2109.05014, 2021.
[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi ve Yejin Choi. Merlot: Çok modlu sinirsel komut dosyası bilgi modelleri. M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang ve J. Wortman Vaughan, editörler, Advances in Neural Information Processing Systems, cilt 34, sayfa 23634–23651'de. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi ve Yejin Choi. Merlot rezervi: Görme, dil ve ses yoluyla sinirsel senaryo bilgisi. Bilgisayarlı Görme ve Örüntü Tanıma (CVPR) üzerine IEEE/CVF Konferansı Bildirileri, 2022.
[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke ve diğerleri. Sokratik modeller: Dil ile sıfır atışlı çok modlu akıl yürütmenin oluşturulması. 2022.
[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles ve Min Sun. Videolu soru cevaplamayı öğrenmek için video açıklamalarından yararlanın. AAAI Yapay Zeka Konferansı Bildirileri, cilt 31, 2017.
[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh ve Peter Liu. Pegasus: Soyutlayıcı özetleme için çıkarılan boşluk cümleleriyle ön eğitim. Uluslararası Makine Öğrenimi Konferansında, sayfalar 11328–11339. PMLR, 2020.
[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He ve Yueting Zhuang. Hiyerarşik çift seviyeli dikkat ağı öğrenimi yoluyla video soru yanıtlama. 25. ACM uluslararası Multimedya konferansı Bildirileri, sayfa 1050–1058, 2017.