paint-brush
"쿠로사와": 각본가의 조수: 결과 및 분석~에 의해@teleplay

"쿠로사와": 각본가의 조수: 결과 및 분석

~에 의해 Teleplay Technology 4m2024/05/23
Read on Terminal Reader

너무 오래; 읽다

본 논문에서 연구원들은 엔터테인먼트 미디어의 자동화를 다루는 플롯 및 스크립트 생성을 위한 AI 스크립트 작성 워크벤치인 KUROSAWA를 소개합니다.
featured image - "쿠로사와": 각본가의 조수: 결과 및 분석
Teleplay Technology  HackerNoon profile picture
0-item

저자:

(1) Prerak Gandhi, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부 [email protected] 및 이들 저자는 이 작업에 동일하게 기여했습니다.

(2) Vishal Pramanik, 인도 봄베이 기술 연구소(뭄바이 소재) 컴퓨터 공학부, vishalpramanik,[email protected], 이들 저자는 이 작업에 동일하게 기여했습니다.

(3) Pushpak Bhattacharyya, 뭄바이 인도 봄베이 기술 연구소 컴퓨터 공학부.

링크 표

6. 결과 및 분석

우리는 관찰과 평가를 발표합니다. 우리 작업의 특성상 사람의 평가가 자동 평가보다 우선합니다(결국 자동 영화 대본 생성을 위한 것입니다!). 생성된 플롯과 장면의 정성적 분석은 잘 알려진 미디어 플랫폼인 업계 파트너의 전문 스크립트 작가 5명의 피드백을 기반으로 합니다.

6.1. 플롯 생성

6.1.1. 자동 평가

표 1은 다중 GPT-3 플롯 생성 모델에 대한 자동 평가 점수를 보여줍니다.


그림 4: 위 단락은 입력을 짧은 스토리라인으로, 출력을 4막 구조로 주석이 달린 플롯으로 미세 조정한 모델에 의해 생성된 영화 플롯의 일부 예입니다.

6.1.2. 인간 평가

우리는 할리우드 주석이 달린 짧은 입력 모델에 대해 인간 평가를 수행했습니다. 평가는 3명으로 구성된 5개 조로 이루어졌으며, 각 조는


표 1: GPT-3에서 O, AS, ASG, AL, ALG(5.1)로 미세 조정된 5개 할리우드 플롯 생성 모델에 대한 공통 평가 지표의 점수


10개의 독특한 플롯이 할당되었습니다. 5가지 기능에 대한 평가는 그림 5에 나와 있습니다. 유창성, 창의성, 호감도, 일관성 및 관련성에 대한 평균 점수는 각각 3.98, 3.29, 2.97, 2.652.55 입니다. 거의 4의 유창성은 언어 모델로서 GPT-3의 힘을 나타내는 지표입니다. 창의성과 호감도는 3.0 정도의 값으로 존경할 만하다. 낮은 BLEU 점수는 평균 창의성 점수를 뒷받침합니다(표 1). 그림 5는 일관성과 관련성에 여전히 개선의 여지가 있음을 나타냅니다.


MAUVE(Pillutla et al., 2021) 값은 신경 텍스트와 인간 텍스트 사이의 격차를 측정합니다. 우리는 20개 플롯과 50개 플롯에 대한 MAUVE 점수를 별도로 계산했습니다. 두 실험에 대한 MAUVE 점수의 가중 평균은 0.48 로 상당히 양호한 수치입니다.

6.1.3. 정성적 관찰

업계 파트너의 전문 스크립트 작성자는 다음과 같은 의견을 제시했습니다.


주석이 없는 헐리우드 플롯


• 빌드업은 창의적이고 흥미롭지만 결말은 일관성이 없다.


• 처음에 소개된 일부 캐릭터는 다시 언급되지 않습니다.


• 출력은 입력에서 언급된 핵심 사항이나 주제를 표현하지 않습니다.


주석이 달린 할리우드 플롯


• 줄거리가 훨씬 더 일관성이 있고 결말도 논리적입니다.


• 여전히 환각 현상이 나타납니다(모든 모델의 공통적인 특징).


• 입력 시간이 길어질수록 플롯이 핵심 포인트에 더욱 집중하게 되었습니다.


장르가 포함된 주석이 달린 할리우드 플롯


• 위의 사항과 함께 이제 생성된 플롯은 작가가 만들고 싶은 영화의 장르에 더 기울어져 있습니다.


• 장르를 추가하면 모델에서 생성된 플롯 종류를 어느 정도 제어할 수 있습니다.


주석이 달린 볼리우드 플롯


• 출력의 마지막 두 단락에서 불일치가 나타나고 플롯 전체에서 동일한 문자가 반복됩니다.


• 플롯의 흐름이 충분히 빠르지 않습니다. 즉, 플롯이 많이 앞으로 이동하지 않습니다.


• 많은 출력물에는 1990년대 테마가 포함되어 있으며 문자가 분리되었다가 나중에 서로를 찾습니다. 이는 현대적인 플롯이 덜한 왜곡된 데이터 세트 때문입니다.

6.2. 장면 생성

우리는 데이터 세트를 사용하여 장면 생성을 위해 GPT-3를 미세 조정했습니다. 우리는 5.1에서 언급한 모델을 사용하여 10개의 장면을 생성했습니다. 부록의 그림 7. 완전히 생성된 장면의 예를 보여줍니다.

6.2.1. 인간 평가

위 모델에서 생성된 10개 장면에 대해 인간 평가를 수행했습니다. 5명이 Likert 척도를 사용하여 장면을 평가했습니다. 다섯 가지 기능에 대한 평가는 그림 5에서 볼 수 있습니다. 유창성, 창의성, 호감도, 일관성 및 관련성에 대한 평균 점수는 각각 4.48, 3.9, 3.48, 3.463.86 입니다. 모든 값은 중립 표시보다 높으며 생성된 장면이 사람이 작성한 장면에 가깝다는 것을 의미합니다.


그림 5: 플롯 및 장면 생성 모델의 인간 평가를 위한 상자 그림 그래프.

6.2.2. 정성적 관찰

이 섹션에서는 GPT-3 모델에서 생성된 장면의 품질을 분석합니다. 이 분석은 앞서 언급한 미디어 회사의 전문 시나리오 작가가 수행했습니다.


• 모델이 잘 구성된 장면을 생성합니다.


• 중요하지 않은 경우에도 새로운 캐릭터를 생성하고 대화를 조작할 수 있습니다.


• 입력의 핵심 포인트를 출력에서 확인할 수 있습니다.


• 반복되는 줄이 있습니다.


• 출력이 완전히 일관되지 않습니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.