著者:
(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド
(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド
(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド
(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。
以前の文献のデータセットは、映画のジャンルの構成が均一ではありませんでした。そこで、IMDB1からダウンロードした約2000本のユニークなハリウッド映画の予告編で構成されたEMTD(英語映画予告編データセット)を提案します。EMTDには、アクション、コメディ、ホラー、ロマンス、SFの5つのジャンルの2000本のユニークな予告編が含まれています。データセットは、次のWebスクレイピング手順によってIMDBから抽出されます:(1)IMDBで利用可能な映画タイトルのリストを取得します(上記のジャンルと少なくとも1つのジャンルが共通しています)、(2)ダウンロード用の予告編リンクを含む各映画タイトルに対応するメタデータをスクレイピングします、(3)リンクに対応する予告編(.mp4)をフォルダーにダウンロードし、予告編の名前、説明、プロット、キーワード、ジャンルを含む映画に関するすべての情報/メタデータをCSVファイル形式でリストします。この研究では、表1に示すように、データセットをトレーニングセット(1700本の予告編)と検証セット(300本の予告編)に分割します。
この研究は、主に映画で見られるジャンルである上記のジャンルのみを対象に実施されます。また、アーキテクチャのパフォーマンスをまず少数のジャンルで調査したいため、幅広いジャンルではなく 5 つのジャンルのみを選択することにしました。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。