著者:
(1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、[email protected]、およびこれらの著者は本研究に等しく貢献した。
(2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、[email protected]、およびこれらの著者は本研究に等しく貢献した。
(3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。
映画のプロット生成では、Wikipedia からプロットを取得しました。このタスクのプロンプトは IMDb から取得しました。IMDb では、このプロンプトは 2 種類あります。1 つ目は映画の短い説明 (15~40 語) で、2 つ目は長いストーリーラインで、30~200 語の範囲で、映画のさまざまなキャラクターやイベントに関する詳細が含まれています。また、各映画のジャンルも IMDb から収集しました。次に、4 幕構成を使用してプロットを分割します。シーン生成では、IMSDb からスクリプトを取得し、シーンの主要な要素で注釈を付けます。
私たちは、Python の Wikipedia モジュールを使用して Wikipedia から抽出した、ボリウッドとハリウッドの両方のプロットで構成される 1000 のプロットのデータセットを作成しました。収集されたプロットは、平均で約 700 語の長さです。
付録 A.5 で説明されている 4 幕構造を使用して、プロットを手動で 4 つの部分に分割して注釈を付けます。各幕の終わりに、区切り文字として 1 つのタグを配置します。<one> (Act 1)、<two-a> (Act 2 Part A)、<two-b> (Act 2 Part B)、<three> (Act 3) です。プロット注釈の例を付録 (図 6) に示します。
モデルによって生成されたプロットに制御性を持たせるために、ストーリーラインとともにデータセット内の映画のジャンルを導入しました。ストーリーラインの先頭でジャンルを連結します。図 2 は、データセット内のジャンルの分布を示しています。
映画の脚本は非常に長いです。2 時間の映画は約 30,000 語に相当します。GPT-2 や GPT-3 などのクリエイティブ テキスト生成に使用される言語モデルには、それぞれ 1024 と 2048 のトークン制限があり、脚本全体を一度に処理することは不可能です。そのため、脚本をシーンに分割し、短い説明を手動で作成しました。これにより、以前のシーンに依存せずに、シーンを個別にトレーニングできます。
映画の脚本は、付録 A.4 で説明されている複数の要素で構成されています。要素が異なると、モデルが各要素を区別することを学習する難しさが増します。この障害を克服するために、脚本全体にわたって、スラグライン、アクション ライン、ダイアログ、キャラクター名という 4 つの主要要素にタグを付けます。
私たちは、すべてのスクリプトに存在する 4 つの主要要素 (スラグライン、アクション ライン、キャラクター名、ダイアログ) を維持し、ページ番号、トランジション、シーンの日付などのその他の種類の情報を削除します。4 つの主要要素のタグ付けは、以下に示すように、要素を囲む開始タグと終了タグを使用して行われます。
• スラッグライン: 〈bsl〉...〈esl〉
• アクションライン: 〈bal〉...〈eal〉
• キャラクター名: 〈bcn〉...〈ecn〉
• 会話:〈bd〉...〈ed〉
注釈が付けられたシーンの例を図 3 に示します。
この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています。