paint-brush
「黒澤」脚本家アシスタント:概要と紹介@teleplay
422 測定値
422 測定値

「黒澤」脚本家アシスタント:概要と紹介

Teleplay Technology 5m2024/05/23
Read on Terminal Reader

長すぎる; 読むには

この論文では、研究者らが、エンターテインメント メディアの自動化に取り組むプロットとスクリプト生成のための AI スクリプト作成ワークベンチである KUROSAWA を紹介しています。
featured image - 「黒澤」脚本家アシスタント:概要と紹介
Teleplay Technology  HackerNoon profile picture
0-item

著者:

(1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、[email protected]、およびこれらの著者は本研究に等しく貢献した。

(2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、[email protected]、およびこれらの著者は本研究に等しく貢献した。

(3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。

リンク一覧

抽象的な

ストーリーテリングはエンターテインメント業界の生命線です。映画、テレビ番組、スタンダップコメディにはすべてストーリーが必要です。優れた魅力的な脚本はストーリーテリングの生命線であり、創造性とリソースの投資が必要です。優れた脚本家を見つけるのはまれであり、厳しい時間的プレッシャーの下で作業することが少なくありません。そのため、エンターテインメントメディアは積極的に自動化を求めています。この論文では、プロット生成とスクリプト生成のタスクに対応する、AI ベースのスクリプト作成ワークベンチ KUROSAWA を紹介します。プロット生成は、プロンプト (15〜40 語) が与えられた場合に、一貫性のある創造的なプロット (600〜800 語) を生成することを目的としています。一方、スクリプト生成は、簡単な説明 (15〜40 語) から脚本形式のシーン (200〜500 語) を生成します。黒澤にはトレーニング用のデータが必要です。ストーリーテリングの 4 幕構造を使用して、プロット データセットに手動で注釈を付けます。私たちは、手動で注釈を付けたプロットとそれに対応するプロンプト/ストーリーラインのデータセット1000個と、シーンの見出し、アクション ライン、ダイアログ、キャラクター名の4つの主要要素が個別にタグ付けされた1000シーンのゴールド スタンダード データセットを作成しました。上記のデータセットを使用して GPT-3 を微調整し、プロットとシーンを生成します。これらのプロットとシーンは最初に評価され、次に大規模で有名なメディア プラットフォーム ErosNow[1] の脚本家によって使用されます。私たちは、注釈付きデータセットとこれらのデータセットでトレーニングされたモデルを、自動映画プロットとスクリプト生成の作業ベンチマークとして公開しています。

1. はじめに

映画は世界中の人々にとって最も人気のある娯楽の 1 つであり、教育や社会意識を高める強力な媒体にもなり得ます。映画産業のインパクトと影響力は、ハリウッド映画が数億ドルを投資し、興行収入が数十億ドルに達することも珍しくないという事実から推し量ることができます。最初の映画「大列車強盗」(1903 年) は、白黒無音で、20 世紀初頭に制作されました。それ以来、映画芸術はいくつかの変遷を経て、今では人々はどんなスマート デバイスでも、好みの 4K HD 映画に即座にアクセスできます。


映画の歴史を通じて、映画の大ヒットに寄与した 2 つの要素は、プロットの質とストーリー展開の仕方です。プロットが予想通りで退屈だと観客が感じた場合、映画の魅力は大幅に低下します。したがって、創造的で刺激的な脚本を書くことは極めて重要であり、非常に困難です。これに時間と予算の制約が加わると、脚本作成の (少なくとも部分的な) 自動化の必要性が明らかになります。


AI ベースのストーリー生成は、これまでにも使用されてきました。執筆の関与と反映の認知的説明に基づいて、コンピューター モデル MEXICA (Pérez and Sharples、2001) は、短編物語のフレームワークを生成します。BRUTUS (Bringsjord and Ferrucci、1999) は、裏切りなどの事前に決められたテーマで短編小説を作成します。事前トレーニング済みのトランスフォーマー モデルの登場により、自動ストーリー生成が勢いづいています。GPT-2 や GPT-3 などのトランスフォーマー モデルは、テキスト生成に広く使用されています。これらのモデルは、幻覚を伴うこともありますが、創造的なテキストを生成する能力を示しています (Zhao et al.、2020)。これらのモデルによって生成されたテキストは、一貫性やまとまりに欠けることもあります。一方、テンプレート ベースのモデルは、一貫性のあるテキストを生成できますが、プロット内で新しいキャラクターやイベントを生成する創造性に欠けています (Kale and Rastogi、2020)。


映画を制作するプロセスは、一般的にアイデアから始まり、そのアイデアに基づいてプロットが作成され、そのプロットが映画の脚本を作成する基礎として使用されます (図 1)。


新しいデータセットは、この論文の重要な特徴です。私たちは、ボリウッドとハリウッドの映画のプロットとプロンプトを詳しく研究しました。これらのプロットとプロンプトは、それぞれWikipedia[2]とIMDb[3]から収集されました。プロットは、よく知られている3幕構成(Field、1979)の拡張である4幕構成を使用して注釈付けされています。4幕構成と注釈付けの方法については、それぞれ付録A.5とセクション4で詳しく説明しています。


図 1: 脚本家が映画の脚本を作成する際にたどる思考プロセス。アイデア (ストーリーライン) がプロットにつながり、それが映画の脚本に変換されます。


ここでは、1000のハリウッド映画のシーンとその短い説明のデータセットを紹介します。脚本はIMSDb[4]から収集されています。シーンには、脚本の4つの主要構成要素であるスラッグライン、アクションライン、キャラクター名、セリフが注釈として付けられており、付録Aで詳しく説明されています。4


私たちは、データセットと、そのデータセットで微調整された一対の GPT-3 (Brown et al., 2020) モデルで構成される「Kurosawa」というワークベンチを紹介します。1 つの GPT-3 モデルは、ストーリーラインの短い説明 (15〜40 語) に基づいて映画のプロットを生成し、もう 1 つのモデルは、必要なシーンの短い説明に基づいてシーンを作成します。


重要なのは、映画やテレビ番組の制作、音楽やサウンドトラックの制作などを行う最大規模のメディアプラットフォームの1つに「黒澤」プラットフォームを提供し、さまざまな映画業界の脚本家やコンテンツライターが新しい映画のプロットを作成できるように支援していることです。


この研究における私たちの貢献は次のとおりです。


• 私たちの知る限り、これはシーン記述から映画のシーンを生成する最初の研究です。


• 私たちは 2 つのデータセットを作成し、公開しました: (a) 1000 本の映画のストーリーラインとそれに対応するプロットの並列データセット、(b) 1000 本の映画のシーンとそれに対応する説明の並列データセット。(a) では、IMDb から入手可能な映画のストーリーラインと、Wikipedia から入手可能な対応する映画のプロットをリンクします。(b) では、IMSDb から入手可能な映画のシーンと、IMDb からの対応する説明をリンクします。


• 私たちは、よく知られている 3 幕構成 (Field、1979) を拡張した 4 幕構成に従って、映画のプロットを手動で注釈付けしました。メディアおよびエンターテイメント業界のプロの脚本家が、私たちを非常に綿密に指導してくれました。


• 映画のシーンには、スラグライン、アクション ライン、キャラクター名、セリフというシーンの 4 つの主要要素と、そのシーンの簡単な説明を手動で注釈付けします。


• 映画業界の脚本家やシーンライターを支援できる複数のデータセットとモデルで構成されたワークベンチ「Kurosawa」を紹介します。


この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています


[1] https://erosnow.com/


[2] https://www.wikipedia.org/


[3] https://www.imdb.com/


[4] https://www.imsdb.com/