Autores:
(1) Prerak Gandhi, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, [email protected], e esses autores contribuíram igualmente para este trabalho;
(2) Vishal Pramanik, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, vishalpramanik,[email protected], e esses autores contribuíram igualmente para este trabalho;
(3) Pushpak Bhattacharyya, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai.
Apresentamos nossas observações e avaliações. A natureza da nossa tarefa faz com que a avaliação humana tenha precedência sobre a avaliação automática (afinal, ela serve para a geração automática de roteiros de filmes!). A análise qualitativa de nossos enredos e cenas geradas é baseada no feedback de 5 roteiristas profissionais de nosso parceiro da indústria, a conhecida plataforma de mídia.
A Tabela 1 mostra as pontuações de autoavaliação para os múltiplos modelos de geração de gráficos GPT-3.
Conduzimos avaliação humana no modelo de entrada curto anotado de Hollywood. A avaliação foi feita por cinco grupos de 3 pessoas, sendo que cada grupo
tendo sido atribuídos 10 lotes exclusivos. As classificações dadas para as 5 características estão na Figura 5. As pontuações médias para fluência, criatividade, simpatia, coerência e relevância são 3,98, 3,29, 2,97, 2,65 e 2,55 , respectivamente. Fluência de quase 4 é um indicador do poder do GPT-3 como modelo de linguagem. Criatividade e simpatia são respeitáveis em um valor em torno de 3,0. As pontuações baixas do BLEU apoiam a pontuação média de criatividade (Tabela 1). A Figura 5 indica que a coerência e a relevância ainda têm muito espaço para melhorias.
O valor MAUVE (Pillutla et al., 2021) mede a lacuna entre o texto neural e o texto humano. Calculamos separadamente as pontuações MAUVE para 20 parcelas e 50 parcelas. A média ponderada das pontuações MAUVE para os dois experimentos é 0,48 , o que é razoavelmente bom.
Os roteiristas profissionais de nosso parceiro da indústria fizeram as seguintes observações:
Tramas de Hollywood não anotadas
• A construção é criativa e interessante, mas o final torna-se incoerente.
• Alguns personagens apresentados no início nunca mais são mencionados.
• O resultado não retrata os pontos-chave ou o tema mencionado no input.
Tramas anotadas de Hollywood
• Os enredos são muito mais coerentes e os finais são lógicos.
• Ainda há alucinação (uma característica comum a todos os modelos).
• As entradas mais longas tornaram as parcelas mais atentas aos pontos-chave.
Tramas anotadas de Hollywood com gêneros incluídos
• Junto com os pontos acima, agora os enredos gerados estão mais voltados para o gênero ou gêneros do filme que o escritor deseja criar.
• A adição de gênero dá algum controle sobre o tipo de enredo gerado pelo modelo.
Tramas anotadas de Bollywood
• As saídas apresentam incoerência nos dois últimos parágrafos e repetição dos mesmos personagens ao longo da trama.
• O fluxo da trama não é rápido o suficiente, ou seja, a trama não avança muito.
• Muitos dos resultados têm um tema dos anos 90, onde os personagens são separados e depois se encontram. Isso se deve a um conjunto de dados distorcido com gráficos menos modernos.
Ajustamos o GPT-3 para geração de cena com nosso conjunto de dados. Geramos dez cenas utilizando os modelos mencionados em 5.1. Figura 7 no apêndice. mostra um exemplo de uma cena completamente gerada.
Realizamos uma avaliação humana em 10 cenas geradas pelo modelo acima. 5 pessoas avaliaram as cenas por meio da Escala Likert. As classificações para os cinco recursos podem ser vistas na Figura 5. As pontuações médias para fluência, criatividade, simpatia, coerência e relevância são 4,48, 3,9, 3,48, 3,46 e 3,86 , respectivamente. Todos os valores estão acima da marca neutra e implicam que as cenas geradas estão próximas das cenas escritas por humanos.
Nesta seção analisamos a qualidade das cenas geradas pelo modelo GPT-3. Esta análise foi feita por roteiristas profissionais da empresa de mídia mencionada anteriormente.
• O modelo produz uma cena bem estruturada.
• Pode criar novos personagens e fabricar diálogos mesmo quando eles não são importantes.
• Os pontos-chave da entrada podem ser encontrados na saída.
• Existem algumas linhas que são repetitivas.
• A saída não é completamente coerente.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.