著者: (1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、prerakgandhi@cse.iitb.ac.in、およびこれらの著者は本研究に等しく貢献した。 (2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、pb@cse.iitb.ac.in、およびこれらの著者は本研究に等しく貢献した。 (3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。 リンク一覧 概要と序文 モチベーション 関連作業 データセット 実験と評価 結果と分析 結論と今後の課題 制限事項と参考文献 A. 付録 5. 実験と評価 私たちはデータセットを使ってGPT3を微調整します( 参照)。 付録A.6を 5.1. プロット生成 私たちは、映画プロットデータセットを使用して GPT-3 を次のように微調整し、5 つのモデルを作成しました。(i) (注釈なし) ( ): 入力 - 短いストーリーライン、出力 - 注釈なしのプロット、(ii) : 入力 - 短いストーリーライン、出力 - 4 幕構成で注釈が付けられたプロット、(iii) ( ): 入力 - 長く、より説明的なストーリーライン、出力 - 4 幕構成で注釈が付けられたプロット、(iv) ( ): 入力 - 短いストーリーラインとジャンル、出力 - 4 幕構成で注釈が付けられたプロット、(v) ( ): 入力 - 長く、より説明的なストーリーラインとジャンル、出力 - 4 幕構成で注釈が付けられたプロット。 オリジナル O 注釈と短い入力 (AS) 注釈と長い入力 AL 注釈とジャンルが含まれた短い入力 ASG 注釈とジャンルが含まれた長い入力 ALG 自動評価には、 (Papineni et al., 2002)、 (Jelinek et al., 1977)、 (Lin, 2004) を使用します。また、5 段階 Likert 尺度 (Likert, 1932) の形式で人間による評価も使用します。評価システムは、1-> 強く同意しない、2-> 同意しない、3-> どちらでもない、4-> 同意する、5-> 強く同意する、です。人間が書いたストーリーは、次の 5 つの特徴のそれぞれに対して 5 の評価を受けるものと想定されます。(1) : 文法の正確さ。(2) : 文と段落の論理的な順序。(3) : プロンプトの重要なポイントが出力で強調表示されているかどうか。(4) : ストーリーがどれだけ楽しめるかの尺度。(5) : 出力で新しいイベント、キャラクター プロファイル、または関係が導入されたかどうか。 BLEU Perplexity ROUGE 流暢さ 一貫性 関連性 好感度 創造性 プロット生成では、50 個のテストプロンプトから 50 個のプロットを生成します。ストーリーを 10 個ずつ 5 つのグループに分け、各グループに 3 人の評価者を割り当てます。 シーン生成では、10 個のテストプロンプトから 10 個のシーンを生成します。これらの 10 個のストーリーを評価するために 5 人の評価者を割り当てます。 この論文は、CC 4.0 DEED ライセンスの下で 。 arxiv で公開されています