Авторы:
(1) Прерак Ганди, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, [email protected], и эти авторы внесли равный вклад в эту работу;
(2) Вишал Праманик, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, vishalpramanik,[email protected], и эти авторы внесли равный вклад в эту работу;
(3) Пушпак Бхаттачария, факультет компьютерных наук и инженерии, Индийский технологический институт, Бомбей, Мумбаи.
Представляем наши наблюдения и оценки. Характер нашей задачи ставит человеческую оценку выше автоматической (в конце концов, она предназначена для автоматической генерации сценариев фильма!). Качественный анализ сгенерированных нами сюжетов и сцен основан на отзывах 5 профессиональных сценаристов нашего отраслевого партнера — известной медиаплатформы.
В таблице 1 показаны баллы автоматической оценки для нескольких моделей построения графиков GPT-3.
Мы провели человеческую оценку короткой входной модели с голливудскими аннотациями. Оценку проводили пять групп по 3 человека, причем каждая группа
ему было выделено 10 уникальных участков. Оценки, данные для 5 характеристик, показаны на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 3,98, 3,29, 2,97, 2,65 и 2,55 соответственно. Беглость почти 4 — показатель силы GPT-3 как языковой модели. Креативность и привлекательность заслуживают уважения при значении около 3,0. Низкие баллы BLEU подтверждают средний балл креативности (таблица 1). Рисунок 5 показывает, что согласованность и актуальность все еще нуждаются в значительном улучшении.
Значение MAUVE (Pillutla et al., 2021) измеряет разрыв между нейронным текстом и человеческим текстом. Мы отдельно рассчитали баллы MAUVE для 20 и 50 участков. Средневзвешенное значение баллов MAUVE для двух экспериментов составляет 0,48 , что достаточно хорошо.
Профессиональные сценаристы нашего отраслевого партнера высказали следующие наблюдения:
Неаннотированные голливудские сюжеты
• Развитие творческое и интересное, но финал становится бессвязным.
• Некоторые персонажи, представленные в начале, больше никогда не упоминаются.
• Выходные данные не отражают ключевые моменты или тему, упомянутую во входных данных.
Аннотированные голливудские сюжеты
• Сюжеты стали гораздо более связными, а концовки логичными.
• Галлюцинации все еще присутствуют (общая черта всех моделей).
• Более длинные входные данные сделали графики более внимательными к ключевым моментам.
Аннотированные голливудские сюжеты с включенными жанрами
• Наряду с вышеперечисленным, теперь создаваемые сюжеты больше ориентированы на жанр или жанры фильма, который хочет создать сценарист.
• Добавление жанра дает некоторый контроль над типом сюжета, создаваемого моделью.
Аннотированные сюжеты Болливуда
• Результаты демонстрируют непоследовательность в последних двух абзацах и повторение одних и тех же символов на протяжении всего сюжета.
• Развитие сюжета недостаточно быстрое, т. е. сюжет продвигается не так сильно.
• Многие из произведений связаны с темой 1990-х годов, где персонажи разделяются, а затем находят друг друга. Это связано с искаженным набором данных с меньшим количеством современных графиков.
Мы настроили GPT-3 для создания сцен с помощью нашего набора данных. Мы создали десять сцен, используя модели, упомянутые в разделе 5.1. Рисунок 7 в приложении. показывает пример полностью сгенерированной сцены.
Мы провели человеческую оценку 10 сцен, созданных с помощью вышеуказанной модели. 5 человек оценивали сцены по шкале Лайкерта. Оценки пяти характеристик можно увидеть на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 4,48, 3,9, 3,48, 3,46 и 3,86 соответственно. Все значения выше нейтральной отметки и подразумевают, что сгенерированные сцены близки к сценам, написанным человеком.
В этом разделе мы анализируем качество сцен, созданных моделью GPT-3. Этот анализ был сделан профессиональными сценаристами из ранее упомянутой медиа-компании.
• Модель создает хорошо структурированную сцену.
• Он может создавать новых персонажей и фабриковать диалоги, даже если они не важны.
• Ключевые моменты входных данных можно найти в выходных данных.
• Некоторые строки повторяются.
• Выходные данные не являются полностью последовательными.
Этот документ доступен на arxiv под лицензией CC 4.0 DEED.