paint-brush
「黒澤」脚本家アシスタント:結果と分析@teleplay

「黒澤」脚本家アシスタント:結果と分析

Teleplay Technology 4m2024/05/23
Read on Terminal Reader

長すぎる; 読むには

この論文では、研究者らが、エンターテインメント メディアの自動化に取り組むプロットとスクリプト生成のための AI スクリプト作成ワークベンチである KUROSAWA を紹介しています。
featured image - 「黒澤」脚本家アシスタント:結果と分析
Teleplay Technology  HackerNoon profile picture
0-item

著者:

(1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、[email protected]、およびこれらの著者は本研究に等しく貢献した。

(2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、[email protected]、およびこれらの著者は本研究に等しく貢献した。

(3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。

リンク一覧

6. 結果と分析

私たちは観察と評価を提示します。私たちのタスクの性質上、自動評価よりも人間による評価が優先されます (結局、自動映画脚本生成のためなのです!)。私たちが生成したプロットとシーンの定性分析は、業界パートナーである有名なメディア プラットフォームの 5 人のプロの脚本家からのフィードバックに基づいています。

6.1. プロット生成

6.1.1. 自動評価

表1は、複数のGPT-3プロット生成モデルの自動評価スコアを示しています。


図 4: 上記の段落は、短いストーリーラインとして入力し、4 幕構成で注釈が付けられたプロットとして出力するように微調整されたモデルによって生成された映画のプロットの部分的な例です。

6.1.2. 人間の評価

ハリウッド注釈付きショート入力モデルについて人間による評価を実施した。評価は3人ずつの5つのグループで行われ、各グループで


表1: GPT-3で微調整された5つのハリウッドプロット生成モデルの共通評価指標のスコア(O、AS、ASG、AL、ALG(5.1))


10個のユニークなプロットが割り当てられています。5つの特徴の評価は図5に示されています。流暢性、創造性、好感度、一貫性、関連性の平均スコアは、それぞれ3.98、3.29、2.97、2.65、2.55です。ほぼ4の流暢性は、言語モデルとしてのGPT-3のパワーを示す指標です。創造性と好感度は約3.0の値で立派です。低いBLEUスコアは、平均的な創造性スコアを裏付けています(表1)。図5は、一貫性と関連性にはまだ大きな改善の余地があることを示しています。


MAUVE (Pillutla et al., 2021) 値は、ニューラルテキストと人間のテキストのギャップを測定します。20 プロットと 50 プロットの MAUVE スコアを個別に計算しました。2 つの実験の MAUVE スコアの加重平均は0.48で、かなり良好です。

6.1.3. 定性的な観察

私たちの業界パートナーのプロの脚本家は、次のような意見を述べています。


注釈なしのハリウッドの筋書き


• 物語の始まりは創造的で興味深いが、結末は支離滅裂になっている。


• 冒頭で紹介された一部のキャラクターは、その後二度と登場しません。


• 出力は、入力で言及された重要なポイントやテーマを表現していません。


注釈付きハリウッドの筋書き


• ストーリーはより一貫性があり、結末も論理的です。


• 幻覚はまだ存在します(すべてのモデルに共通する特徴)。


• 入力が長くなると、プロットは重要なポイントにさらに注意を払うようになります。


ジャンル別解説付きハリウッド映画プロット


• 上記の点に加えて、生成されるプロットは、作家が作成したい映画のジャンルにさらに傾くようになりました。


• ジャンルを追加すると、モデルによって生成されるプロットの種類をある程度制御できるようになります。


注釈付きボリウッドのプロット


• 出力では、最後の 2 つの段落に一貫性がなく、プロット全体で同じ文字が繰り返されていることがわかります。


• ストーリーの流れが十分に速くない、つまり、ストーリーがあまり先に進まない。


• 出力の多くは 1990 年代のテーマを扱っており、登場人物は一度別れ、その後再会します。これは、現代的なプロットが少ない偏ったデータセットによるものです。

6.2. シーン生成

私たちはデータセットを使用してシーン生成用に GPT-3 を微調整しました。5.1 で説明したモデルを使用して 10 個のシーンを生成しました。付録の図 7 は、完全に生成されたシーンの例を示しています。

6.2.1. 人間の評価

上記のモデルによって生成された 10 のシーンに対して、人間による評価を実施しました。5 人がリッカート尺度を使用してシーンを評価しました。5 つの特徴の評価は図 5 に示されています。流暢さ、創造性、好感度、一貫性、関連性の平均スコアは、それぞれ4.48、3.9、3.48、3.46、3.86です。すべての値は中立マークを上回っており、生成されたシーンが人間が書いたシーンに近いことを示しています。


図 5: プロットおよびシーン生成モデルの人間による評価のボックス プロット グラフ。

6.2.2. 定性的な観察

このセクションでは、GPT-3 モデルによって生成されたシーンの品質を分析します。この分析は、前述のメディア会社のプロの脚本家によって行われました。


• モデルは適切に構成されたシーンを生成します。


• 重要でない場合でも、新しいキャラクターを作成したり、セリフを捏造したりできます。


• 入力の重要なポイントは出力で確認できます。


• 重複する行がいくつかあります。


• 出力は完全に一貫していません。


この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています