著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
本研究では、映画のグラフベースの表現を採用し、ショットを選択するための解釈可能な基準を使用する予告編生成アプローチを提案しました。また、対照学習を介して脚本からの特権情報を活用する方法を示し、ターニングポイントの識別と予告編生成に使用できるモデルを生み出しました。私たちのモデルによって生成された予告編は、その内容と魅力の点で好意的に評価されました。
今後は、映画の中のきめ細かい感情(悲しみ、嫌悪、恐怖、喜びなど)を予測する方法に焦点を当てたいと考えています。この研究では、ドメイン内のラベル付きデータセットがないため、感情の代わりとしてポジティブ/ネガティブな感情を検討します。これまでの取り組みでは、ツイート [1]、Youtube の意見動画 [4]、トークショー [20]、人間のやり取りの録音 [8] に焦点を当ててきました。予備実験では、きめ細かい感情の知識を他のドメインから私たちのドメインに移すと、より安定していて予告編生成のパフォーマンスを向上させる感情と比較して信頼性の低い予測につながることが明らかになりました。今後の取り組みとしては、映画の新しい感情データセットや、テキストや視聴覚の手がかりに基づく感情検出モデルなどがあります。
[1] Muhammad Abdul-Mageed と Lyle Ungar。EmoNet: ゲート付きリカレントニューラルネットワークによるきめ細かな感情検出。計算言語学協会第 55 回年次会議の議事録 (第 1 巻: 長文論文)、718 ~ 728 ページ、バンクーバー、カナダ、2017 年 7 月。計算言語学協会。8
[2] Uri AlonとEran Yahav。グラフニューラルネットワークのボトルネックとその実際的な意味について。国際学習表現会議、2020年。12
[3] ジミー・バとリッチ・カルアナ「ディープネットは本当に深くする必要があるのか?」ニューラル情報処理システムの進歩に関する議事録、2654~2662ページ、モントリオール、ケベック、カナダ、2014年。2、4
[4] AmirAli Bagher Zadeh、Paul Pu Liang、Soujanya Poria、Erik Cambria、Louis-Philippe Morency。「マルチモーダル言語解析の現場:CMU-MOSEIデータセットと解釈可能な動的融合グラフ」。第56回計算言語学会年次会議議事録(第1巻:長文論文)、2236~2246ページ、メルボルン、オーストラリア、2018年7月。計算言語学会。8
[5] マックス・ベイン、アルシャ・ナグラニ、アンドリュー・ブラウン、アンドリュー・ジッサーマン。「凝縮された映画:文脈埋め込みによるストーリーベースの検索」アジアコンピュータビジョン会議論文集、2020年。2
[6] Pablo Barcelo、Egor V Kostylev、Mikael Monet、Jorge P´erez、´Juan Reutter、Juan Pablo Silva。グラフニューラルネットワークの論理的表現力。国際学習表現会議、2019年。12
[7] ヨシュア・ベンジオ、ニコラス・レナード、アーロン・クールヴィル。条件付き計算のための確率ニューロンによる勾配の推定または伝播。arXivプレプリントarXiv:1308.3432、2013年11月
[8] サンジェイ・ビラキア、スタブロス・ペトリディス、アントン・ナイホルト、マヤ・パンティッチ。MAHNOB模倣データベース:自然な人間インタラクションのデータベース。パターン認識レター、66:52–61、2015年。人間とコンピュータのインタラクションにおけるパターン認識。8
[9] Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower、Samuel Kim、Jeannette N Chang、Sungbok Lee、およびShrikanth S Narayanan。Iemocap:インタラクティブな感情的な2人組のモーションキャプチャデータベース。言語リソースと評価、42(4):335、2008年。6
[10] Joao CarreiraとAndrew Zisserman。Quo vadis、行動認識?新しいモデルと運動学データセット。2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、4724~4733ページ。IEEE Computer Society、2017年。6
[11] パオラ・カスカンテ・ボニーリャ、カルパシー・シタラマン、メンジア・ルオ、ビセンテ・オルドネス。「ムービースコープ:複数のモダリティを使用した映画の大規模分析」arXivプレプリントarXiv:1908.03180、2019年5月
[12] Daniel Cer、Yinfei Yang、Sheng-yi Kong、Nan Hua、Nicole Limtiaco、Rhomni St John、Noah Constant、Mario GuajardoCespedes、Steve Yuan、Chris Tar、et al。ユニバーサルセンテンスエンコーダー。arXivプレプリントarXiv:1803.11175、2018年6月
[13] ジェームズ・E・カッティング。ナラティブ理論と人気映画のダイナミクス。Psychonomic Bulletin and review、23(6):1713– 1743、2016年。1 [14] ジア・デン、ウェイ・ドン、リチャード・ソッチャー、リー・ジア・リー、カイ・リー、リー・フェイフェイ。Imagenet:大規模階層画像データベース。2009 IEEEコンピュータービジョンとパターン認識会議、248–255ページ。Ieee、2009年。6
[15] David K Duvenaud、Dougal Maclaurin、Jorge Iparraguirre、Rafael Bombarell、Timothy Hirzel、Alan Aspuru-Guzik、Ryan P Adams。分子指紋を学習するためのグラフ上の畳み込みネットワーク。神経情報処理システムの進歩、28:2224–2232、2015年。3
[16] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen、Wade Lawrence、R Channing Moore、Manoj Plakal、Marvin Ritter。オーディオセット:オーディオイベントのオントロジーとヒューマンラベル付きデータセット。2017 IEEE国際音響・音声・信号処理会議(ICASSP)、776~780ページ。IEEE、2017年。6
[17] Deepanway Ghosal、Navonil Majumder、Alexander Gelbukh、Rada Mihalcea、Soujanya Poria。Cosmic:会話における感情識別のための常識的知識。2020年自然言語処理における経験的手法に関する会議の議事録:調査結果、2470〜2481ページ、2020年。6 [18] Ross Girshick。Fast r-cnn。IEEE国際コンピュータビジョン会議の議事録、1440〜1448ページ、2015年。6
[19] フィリップ・ジョン・ゴリンスキーとミレラ・ラパタ「グラフベースのシーン抽出による映画脚本要約」。2015年北米支部計算言語学会会議論文集「人間の言語技術」、1066~1076ページ、コロラド州デンバー、2015年5~6月。計算言語学会。5、12
[20] マイケル・グリム、クリスティアン・クロシェル、シュリカント・ナラヤナン。ヴェラ・アム・ミッタークドイツ語音声・映像感情音声データベース。ICME、865-868ページ。IEEE、2008年。8
[21] マイケル・グットマンとアーポ・ヒヴァリネン「ノイズ対照推定:非正規化統計モデルのための新しい推定原理」第13回国際人工知能統計会議論文集、297~304ページ、2010年。4
[22] マイケル・ハウゲ。ストーリーテリングを簡単に:聴衆、バイヤー、クライアントを説得し変革する - シンプルに、素早く、そして収益性高く。インディー・ブックス・インターナショナル、2017年。1、3、13
[23] ジェフリー・ヒントン、オリオール・ヴィニャルス、ジェフ・ディーン。ニューラルネットワークにおける知識の抽出。arXivプレプリントarXiv:1503.02531、2015年2、4
[24] 入江剛、佐藤隆、小島明、山崎俊彦、相澤清治。自動予告編生成。第18回ACM国際マルチメディア会議論文集、839-842ページ、2010年。1、2
[25] エリック・ジャン、シシャン・グ、ベン・プール。ガンブル・ソフトマックスによるカテゴリカル再パラメータ化。国際学習表現会議(ICLR 2017)、2017年。11
[26] スティーブン・カーンズ、ケビン・マクロスキー、マーク・ベルンドル、ヴィジェイ・パンデ、パトリック・ライリー。分子グラフ畳み込み:指紋を超えて。コンピュータ支援分子設計ジャーナル、30(8):595–608、2016年。3
[27] キム・ヒョンフン、タン・ジネン、モヒット・バンサル。ビデオQAにおける時間的ローカリゼーションのための高密度キャプションマッチングとフレーム選択ゲーティング。計算言語学会第58回年次大会論文集、4812-4822ページ、2020年。3
[28] Thomas N. KipfとMax Welling。グラフ畳み込みネットワークによる半教師あり分類。国際学習表現会議(ICLR)、2017年。3
[29] Yanran Li、Hui Su、Xiaoyu Shen、Wenjie Li、Ziqiang Cao、Shuzi Niu。「Dailydialog: 手動でラベル付けされたマルチターン対話データセット」第8回国際自然言語処理合同会議論文集(第1巻:長編論文)、986~995ページ、2017年。6
[30] David Lopez-Paz、Leon Bottou、Bernhard Sch ´ olkopf、および¨ Vladimir Vapnik。蒸留と特権情報の統合。arXivプレプリントarXiv:1511.03643、2015年2
[31] Jordan Louviere、T.N. Flynn、AAJ Marley。ベスト・ワースト・スケーリング:理論、方法、応用。2015年1月。8
[32] Chris J. Maddison、Andriy Mnih、Yee Whye Teh。「具体的な分布:離散ランダム変数の連続緩和」第5回国際学習表現会議、ICLR 2017、トゥーロン、フランス、2017年4月24日〜26日、会議トラック議事録、2017年。11
[33] アントワーヌ・ミエシュ、ジャン=バティスト・アレーラック、ルーカス・スマイラ、イヴァン・ラプテフ、ジョセフ・シビック、アンドリュー・ジッサーマン。キュレーションされていない教育ビデオからの視覚表現のエンドツーエンド学習。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、9879〜9889ページ、2020年。2
[34] Antoine Miech、Dimitri Zhukov、Jean-Baptiste Alayrac、Makarand Tapaswi、Ivan Laptev、Josef Sivic。Howto100m:1億本のナレーション付きビデオクリップを視聴してテキストビデオ埋め込みを学習する。IEEE/CVF国際コンピュータビジョン会議の議事録、2630〜2640ページ、2019年。2
[35] ラダ・ミハルセアとポール・タラウ「Textrank: テキストに秩序をもたらす」自然言語処理における実証的手法に関する2004年会議議事録、404~411ページ、2004年。7
[36] Cory S MyersとLawrence R Rabiner。連結単語認識のためのいくつかの動的タイムワーピングアルゴリズムの比較研究。ベルシステムテクニカルジャーナル、60(7):1389–1409、1981年。5
[37] 大野健太、鈴木泰治「グラフニューラルネットワークはノード分類の表現力を指数関数的に失う」国際学習表現会議、2019年12月
[38] アーロン・ヴァン・デン・オード、ヤゼ・リー、オリオール・ヴィニャルス。対照予測符号化による表現学習。arXivプレプリントarXiv:1807.03748、2018年。4、5、11
[39] Boxiao Pan、Haoye Cai、De-An Huang、Kuan-Hui Lee、Adrien Gaidon、Ehsan Adeli、Juan Carlos Niebles。知識蒸留によるビデオキャプションのための時空間グラフ。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、10870〜10879ページ、2020年。4
[40] ピネロピ・パパランピディ、フランク・ケラー、リア・フレアマン、ミレラ・ラパタ「潜在的な物語構造を用いた脚本要約」第58回計算言語学会年次大会論文集、1920-1933ページ、2020年。2
[41] ピネロピ・パパランピディ、フランク・ケラー、ミレラ・ラパタ「転換点の特定による映画のプロット分析」自然言語処理における経験的手法に関する2019年会議および第9回自然言語処理国際合同会議(EMNLPIJCNLP)の議事録、1707~1717ページ、2019年。2、3、5、6、11、12
[42] ピネロピ・パパランピディ、フランク・ケラー、ミレラ・ラパタ。スパースグラフ構築による映画の要約。第35回AAAI人工知能会議、2021年。2、3、5、6、12
[43] Soujanya Poria、Devamanyu Hazarika、Navonil Majumder、Gautam Naik、Erik Cambria、Rada Mihalcea。Meld:会話における感情認識のためのマルチモーダルマルチパーティデータセット。計算言語学会第57回年次会議論文集、527~536ページ、2019年。6
[44] アンナ・ローバッハ、マーカス・ローバッハ、ニケト・タンドン、ベルント・シーレ。映画の説明のためのデータセット。IEEEコンピュータビジョンとパターン認識会議の議事録、3202-3212ページ、2015年。2
[45] Minjoon Seo、Aniruddha Kembhavi、Ali Farhadi、Hannaneh Hajishirzi。機械理解のための双方向注意フロー。国際学習表現会議、2017年。3
[46] アラン・F・スミートン、バート・レヘイン、ノエル・E・オコナー、コナー・ブレイディ、ゲイリー・クレイグ。アクション映画の予告編のショットの自動選択。マルチメディア情報検索に関する第8回ACM国際ワークショップの議事録、231~238ページ、2006年。1、2
[47] ジョン・R・スミス、ディラジ・ジョシ、ブノワ・ヒュー、ウィンストン・スー、ジョゼフ・コタ。創造性を高めるためのAIの活用:映画予告編制作への応用。第25回ACM国際マルチメディア会議論文集、1799~1808ページ、2017年。2、7
[48] Siqi Sun、Zhe Gan、Yuwei Fang、Yu Cheng、Shuohang Wang、Jingjing Liu。言語モデル圧縮のための中間表現のコントラスト蒸留。2020年自然言語処理における経験的手法に関する会議(EMNLP)の議事録、498〜508ページ、2020年。4
[49] Makarand Tapaswi、Martin Bauml、Rainer Stiefelhagen。Book2movie: ビデオシーンと本の章の対応付け。IEEE Computer Vision and Pattern Recognition Conference Proceedings、1827–1835ページ、2015年。2
[50] Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun、Sanja Fidler。Movieqa: 質問応答による映画のストーリーの理解。IEEE コンピュータビジョンおよびパターン認識会議の議事録、4631~4640 ページ、2016 年。2
[51] クリスティン・トンプソン『新しいハリウッドのストーリーテリング:古典的な物語技法の理解』ハーバード大学出版局、1999年。1
[52] アシシュ・ヴァスワニ、ノアム・シャジール、ニキ・パーマー、ヤコブ・ウスコレイト、リオン・ジョーンズ、エイダン・N・ゴメス、ルカス・カイザー、イリア・ポロスキン。「Attention is all you need.」神経情報処理システムの進歩、5998~6008ページ、2017年。3
[53] Lezi Wang、Dong Liu、Rohit Puri、Dimitris N Metaxas。共対照的注意による長編映画の予告編シーンの学習。ヨーロッパコンピュータビジョン会議、300~316ページ。Springer、2020年。1、2、7
[54] Yuxin Wu、Alexander Kirillov、Francisco Massa、Wan-Yen Lo、Ross Girshick。Detectron2。https://github.com/facebookresearch/detectron2、2019年6月
[55] Zhirong Wu、Yuanjun Xiong、Stella X Yu、Dahua Lin。非パラメトリックインスタンス識別による教師なし特徴学習。IEEEコンピュータビジョンとパターン認識会議の議事録、3733〜3742ページ、2018年。4
[56] Saining Xie、Ross Girshick、Piotr Dollar、Zhuowen Tu、および´ Kaiming He。ディープニューラルネットワークの集約残差変換。IEEEコンピュータービジョンおよびパターン認識会議の議事録、1492〜1500ページ、2017年。6
[57] Hongteng Xu、Yi Zhen、Hongyuan Zha。ポイントプロセスベースの視覚的魅力モデルによる予告編生成。第24回国際人工知能会議論文集、2198-2204ページ、2015年。2、7
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。