paint-brush
"Kurosawa": um assistente de roteirista: resultados e análisespor@teleplay

"Kurosawa": um assistente de roteirista: resultados e análises

por Teleplay Technology 4m2024/05/23
Read on Terminal Reader

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o KUROSAWA, uma bancada de escrita de roteiros de IA para geração de enredos e roteiros, abordando a automação em mídia de entretenimento.
featured image - "Kurosawa": um assistente de roteirista: resultados e análises
Teleplay Technology  HackerNoon profile picture
0-item

Autores:

(1) Prerak Gandhi, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, [email protected], e esses autores contribuíram igualmente para este trabalho;

(2) Vishal Pramanik, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, vishalpramanik,[email protected], e esses autores contribuíram igualmente para este trabalho;

(3) Pushpak Bhattacharyya, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai.

Tabela de Links

6. Resultados e Análise

Apresentamos nossas observações e avaliações. A natureza da nossa tarefa faz com que a avaliação humana tenha precedência sobre a avaliação automática (afinal, ela serve para a geração automática de roteiros de filmes!). A análise qualitativa de nossos enredos e cenas geradas é baseada no feedback de 5 roteiristas profissionais de nosso parceiro da indústria, a conhecida plataforma de mídia.

6.1. Geração de plotagem

6.1.1. Avaliação Automática

A Tabela 1 mostra as pontuações de autoavaliação para os múltiplos modelos de geração de gráficos GPT-3.


Figura 4: O parágrafo acima é um exemplo parcial de um enredo de filme gerado pelo modelo ajustado com entrada como um enredo curto e saída como enredo anotado com a estrutura de 4 atos.

6.1.2. Avaliação Humana

Conduzimos avaliação humana no modelo de entrada curto anotado de Hollywood. A avaliação foi feita por cinco grupos de 3 pessoas, sendo que cada grupo


Tabela 1: Pontuações de métricas de avaliação comuns para 5 modelos de geração de enredo de Hollywood ajustados no GPT-3 como O, AS, ASG, AL, ALG (5.1)


tendo sido atribuídos 10 lotes exclusivos. As classificações dadas para as 5 características estão na Figura 5. As pontuações médias para fluência, criatividade, simpatia, coerência e relevância são 3,98, 3,29, 2,97, 2,65 e 2,55 , respectivamente. Fluência de quase 4 é um indicador do poder do GPT-3 como modelo de linguagem. Criatividade e simpatia são respeitáveis em um valor em torno de 3,0. As pontuações baixas do BLEU apoiam a pontuação média de criatividade (Tabela 1). A Figura 5 indica que a coerência e a relevância ainda têm muito espaço para melhorias.


O valor MAUVE (Pillutla et al., 2021) mede a lacuna entre o texto neural e o texto humano. Calculamos separadamente as pontuações MAUVE para 20 parcelas e 50 parcelas. A média ponderada das pontuações MAUVE para os dois experimentos é 0,48 , o que é razoavelmente bom.

6.1.3. Observações Qualitativas

Os roteiristas profissionais de nosso parceiro da indústria fizeram as seguintes observações:


Tramas de Hollywood não anotadas


• A construção é criativa e interessante, mas o final torna-se incoerente.


• Alguns personagens apresentados no início nunca mais são mencionados.


• O resultado não retrata os pontos-chave ou o tema mencionado no input.


Tramas anotadas de Hollywood


• Os enredos são muito mais coerentes e os finais são lógicos.


• Ainda há alucinação (uma característica comum a todos os modelos).


• As entradas mais longas tornaram as parcelas mais atentas aos pontos-chave.


Tramas anotadas de Hollywood com gêneros incluídos


• Junto com os pontos acima, agora os enredos gerados estão mais voltados para o gênero ou gêneros do filme que o escritor deseja criar.


• A adição de gênero dá algum controle sobre o tipo de enredo gerado pelo modelo.


Tramas anotadas de Bollywood


• As saídas apresentam incoerência nos dois últimos parágrafos e repetição dos mesmos personagens ao longo da trama.


• O fluxo da trama não é rápido o suficiente, ou seja, a trama não avança muito.


• Muitos dos resultados têm um tema dos anos 90, onde os personagens são separados e depois se encontram. Isso se deve a um conjunto de dados distorcido com gráficos menos modernos.

6.2. Geração de cena

Ajustamos o GPT-3 para geração de cena com nosso conjunto de dados. Geramos dez cenas utilizando os modelos mencionados em 5.1. Figura 7 no apêndice. mostra um exemplo de uma cena completamente gerada.

6.2.1. Avaliações humanas

Realizamos uma avaliação humana em 10 cenas geradas pelo modelo acima. 5 pessoas avaliaram as cenas por meio da Escala Likert. As classificações para os cinco recursos podem ser vistas na Figura 5. As pontuações médias para fluência, criatividade, simpatia, coerência e relevância são 4,48, 3,9, 3,48, 3,46 e 3,86 , respectivamente. Todos os valores estão acima da marca neutra e implicam que as cenas geradas estão próximas das cenas escritas por humanos.


Figura 5: Gráficos Boxplot para Avaliação Humana dos modelos de plotagem e geração de cena.

6.2.2. Observações Qualitativas

Nesta seção analisamos a qualidade das cenas geradas pelo modelo GPT-3. Esta análise foi feita por roteiristas profissionais da empresa de mídia mencionada anteriormente.


• O modelo produz uma cena bem estruturada.


• Pode criar novos personagens e fabricar diálogos mesmo quando eles não são importantes.


• Os pontos-chave da entrada podem ser encontrados na saída.


• Existem algumas linhas que são repetitivas.


• A saída não é completamente coerente.


Este artigo está disponível no arxiv sob licença CC 4.0 DEED.