著者:
(1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、[email protected]、およびこれらの著者は本研究に等しく貢献した。
(2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、[email protected]、およびこれらの著者は本研究に等しく貢献した。
(3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。
私たちはデータセットを使ってGPT3を微調整します(付録A.6を参照)。
私たちは、映画プロットデータセットを使用して GPT-3 を次のように微調整し、5 つのモデルを作成しました。(i)オリジナル(注釈なし) ( O ): 入力 - 短いストーリーライン、出力 - 注釈なしのプロット、(ii)注釈と短い入力(AS) : 入力 - 短いストーリーライン、出力 - 4 幕構成で注釈が付けられたプロット、(iii)注釈と長い入力( AL ): 入力 - 長く、より説明的なストーリーライン、出力 - 4 幕構成で注釈が付けられたプロット、(iv)注釈とジャンルが含まれた短い入力( ASG ): 入力 - 短いストーリーラインとジャンル、出力 - 4 幕構成で注釈が付けられたプロット、(v)注釈とジャンルが含まれた長い入力( ALG ): 入力 - 長く、より説明的なストーリーラインとジャンル、出力 - 4 幕構成で注釈が付けられたプロット。
自動評価には、 BLEU (Papineni et al., 2002)、 Perplexity (Jelinek et al., 1977)、 ROUGE (Lin, 2004) を使用します。また、5 段階 Likert 尺度 (Likert, 1932) の形式で人間による評価も使用します。評価システムは、1-> 強く同意しない、2-> 同意しない、3-> どちらでもない、4-> 同意する、5-> 強く同意する、です。人間が書いたストーリーは、次の 5 つの特徴のそれぞれに対して 5 の評価を受けるものと想定されます。(1)流暢さ: 文法の正確さ。(2)一貫性: 文と段落の論理的な順序。(3)関連性: プロンプトの重要なポイントが出力で強調表示されているかどうか。(4)好感度: ストーリーがどれだけ楽しめるかの尺度。(5)創造性: 出力で新しいイベント、キャラクター プロファイル、または関係が導入されたかどうか。
プロット生成では、50 個のテストプロンプトから 50 個のプロットを生成します。ストーリーを 10 個ずつ 5 つのグループに分け、各グループに 3 人の評価者を割り当てます。
シーン生成では、10 個のテストプロンプトから 10 個のシーンを生成します。これらの 10 個のストーリーを評価するために 5 人の評価者を割り当てます。
この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています。