paint-brush
"구로사와": 각본가의 조수: 실험과 평가~에 의해@teleplay

"구로사와": 각본가의 조수: 실험과 평가

~에 의해 Teleplay Technology 2m2024/05/23
Read on Terminal Reader

너무 오래; 읽다

본 논문에서 연구원들은 엔터테인먼트 미디어의 자동화를 다루는 플롯 및 스크립트 생성을 위한 AI 스크립트 작성 워크벤치인 KUROSAWA를 소개합니다.
featured image - "구로사와": 각본가의 조수: 실험과 평가
Teleplay Technology  HackerNoon profile picture
0-item

저자:

(1) Prerak Gandhi, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부 [email protected] 및 이들 저자는 이 작업에 동일하게 기여했습니다.

(2) Vishal Pramanik, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부, vishalpramanik,[email protected], 이들 저자는 이 작업에 동일하게 기여했습니다.

(3) Pushpak Bhattacharyya, 뭄바이 인도 봄베이 기술 연구소 컴퓨터 공학부.

링크 표

5. 실험 및 평가

우리는 데이터 세트를 사용하여 GPT3를 미세 조정합니다( 부록 A.6 참조).

5.1. 플롯 생성

우리는 다음과 같은 방식으로 영화 플롯 데이터세트를 사용하여 GPT-3을 미세 조정하여 5개의 모델을 만들었습니다. (i) 원본 (주석 없음)( O ): 입력-짧은 스토리라인, 주석이 없는 출력-플롯, (ii) 주석 짧은 입력 (AS) : 입력 - 짧은 스토리라인, 출력 - 4막 구조로 주석이 달린 플롯, (iii) 주석 및 긴 입력 ( AL ): 길고 더 설명적인 스토리라인 입력, 출력 - 4막 구조로 주석이 달린 플롯, (iv) 장르가 포함된 주석 및 짧은 입력 ( ASG ): 입력 짧은 스토리 라인 및 장르, 4막 구조로 주석이 달린 출력 플롯, (v) 장르가 포함된 주석 및 긴 입력 ( ALG ): 길고 더 설명적인 입력 장르와 함께 스토리라인, 4막 구조로 주석이 달린 출력 플롯.


자동 평가를 위해 우리는 BLEU (Papineni et al., 2002), Perplexity (Jelinek et al., 1977), ROUGE (Lin, 2004)를 사용합니다. 우리는 또한 5점 Likert 척도(Likert, 1932) 형태로 인간 평가를 사용합니다. 평가 시스템은 1-> 매우 동의하지 않음, 2-> 동의하지 않음, 3-> 보통, 4-> 동의함, 5-> 매우 동의함으로 구성됩니다. 사람이 쓴 이야기는 다음 5가지 특징 각각에 대해 5점 등급을 받는 것으로 가정됩니다. (1) 유창함 : 문법적 정확성; (2) 일관성 : 문장과 문단의 논리적 순서; (3) 관련성 : 프롬프트의 핵심 사항이 출력에서 강조 표시되었는지 여부. (4) 호감도 : 이야기가 얼마나 즐거운지를 나타내는 척도. (5) 창의성 : 출력이 새로운 사건, 캐릭터 프로필 또는 관계를 도입한 경우.


플롯 생성을 위해 50개의 테스트 프롬프트에서 50개의 플롯을 생성합니다. 우리는 이야기를 10명씩 5개 그룹으로 나누고 각 그룹에 3명의 평가자를 할당합니다.


장면 생성을 위해 10개의 테스트 프롬프트에서 10개의 장면을 생성합니다. 우리는 이 10개의 이야기를 평가하기 위해 5명의 평가자를 배정합니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.