paint-brush
«Куросава»: помощник сценариста: итоги и анализк@teleplay

«Куросава»: помощник сценариста: итоги и анализ

к Teleplay Technology 4m2024/05/23
Read on Terminal Reader

Слишком долго; Читать

В этой статье исследователи представляют KUROSAWA, инструмент для написания сценариев с использованием искусственного интеллекта для создания сюжетов и сценариев, предназначенный для автоматизации развлекательных медиа.
featured image - «Куросава»: помощник сценариста: итоги и анализ
Teleplay Technology  HackerNoon profile picture
0-item

Авторы:

(1) Прерак Ганди, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, [email protected], и эти авторы внесли равный вклад в эту работу;

(2) Вишал Праманик, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, vishalpramanik,[email protected], и эти авторы внесли равный вклад в эту работу;

(3) Пушпак Бхаттачария, факультет компьютерных наук и инженерии, Индийский технологический институт, Бомбей, Мумбаи.

Таблица ссылок

6. Результаты и анализ

Представляем наши наблюдения и оценки. Характер нашей задачи ставит человеческую оценку выше автоматической (в конце концов, она предназначена для автоматической генерации сценариев фильма!). Качественный анализ сгенерированных нами сюжетов и сцен основан на отзывах 5 профессиональных сценаристов нашего отраслевого партнера — известной медиаплатформы.

6.1. Создание графика

6.1.1. Автоматическая оценка

В таблице 1 показаны баллы автоматической оценки для нескольких моделей построения графиков GPT-3.


Рисунок 4. Приведенный выше абзац представляет собой частичный пример сюжета фильма, созданного с помощью модели, настроенной таким образом, что входные данные представляют собой короткую сюжетную линию, а выходные данные — сюжет, аннотированный четырехактной структурой.

6.1.2. Человеческий рейтинг

Мы провели человеческую оценку короткой входной модели с голливудскими аннотациями. Оценку проводили пять групп по 3 человека, причем каждая группа


Таблица 1. Результаты общих показателей оценки для 5 моделей построения голливудских графиков, точно настроенных на GPT-3, как O, AS, ASG, AL, ALG (5.1)


ему было выделено 10 уникальных участков. Оценки, данные для 5 характеристик, показаны на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 3,98, 3,29, 2,97, 2,65 и 2,55 соответственно. Беглость почти 4 — показатель силы GPT-3 как языковой модели. Креативность и привлекательность заслуживают уважения при значении около 3,0. Низкие баллы BLEU подтверждают средний балл креативности (таблица 1). Рисунок 5 показывает, что согласованность и актуальность все еще нуждаются в значительном улучшении.


Значение MAUVE (Pillutla et al., 2021) измеряет разрыв между нейронным текстом и человеческим текстом. Мы отдельно рассчитали баллы MAUVE для 20 и 50 участков. Средневзвешенное значение баллов MAUVE для двух экспериментов составляет 0,48 , что достаточно хорошо.

6.1.3. Качественные наблюдения

Профессиональные сценаристы нашего отраслевого партнера высказали следующие наблюдения:


Неаннотированные голливудские сюжеты


• Развитие творческое и интересное, но финал становится бессвязным.


• Некоторые персонажи, представленные в начале, больше никогда не упоминаются.


• Выходные данные не отражают ключевые моменты или тему, упомянутую во входных данных.


Аннотированные голливудские сюжеты


• Сюжеты стали гораздо более связными, а концовки логичными.


• Галлюцинации все еще присутствуют (общая черта всех моделей).


• Более длинные входные данные сделали графики более внимательными к ключевым моментам.


Аннотированные голливудские сюжеты с включенными жанрами


• Наряду с вышеперечисленным, теперь создаваемые сюжеты больше ориентированы на жанр или жанры фильма, который хочет создать сценарист.


• Добавление жанра дает некоторый контроль над типом сюжета, создаваемого моделью.


Аннотированные сюжеты Болливуда


• Результаты демонстрируют непоследовательность в последних двух абзацах и повторение одних и тех же символов на протяжении всего сюжета.


• Развитие сюжета недостаточно быстрое, т. е. сюжет продвигается не так сильно.


• Многие из произведений связаны с темой 1990-х годов, где персонажи разделяются, а затем находят друг друга. Это связано с искаженным набором данных с меньшим количеством современных графиков.

6.2. Генерация сцены

Мы настроили GPT-3 для создания сцен с помощью нашего набора данных. Мы создали десять сцен, используя модели, упомянутые в разделе 5.1. Рисунок 7 в приложении. показывает пример полностью сгенерированной сцены.

6.2.1. Человеческие рейтинги

Мы провели человеческую оценку 10 сцен, созданных с помощью вышеуказанной модели. 5 человек оценивали сцены по шкале Лайкерта. Оценки пяти характеристик можно увидеть на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 4,48, 3,9, 3,48, 3,46 и 3,86 соответственно. Все значения выше нейтральной отметки и подразумевают, что сгенерированные сцены близки к сценам, написанным человеком.


Рисунок 5: Графики коробчатой диаграммы для оценки человеком моделей построения сюжетов и сцен.

6.2.2. Качественные наблюдения

В этом разделе мы анализируем качество сцен, созданных моделью GPT-3. Этот анализ был сделан профессиональными сценаристами из ранее упомянутой медиа-компании.


• Модель создает хорошо структурированную сцену.


• Он может создавать новых персонажей и фабриковать диалоги, даже если они не важны.


• Ключевые моменты входных данных можно найти в выходных данных.


• Некоторые строки повторяются.


• Выходные данные не являются полностью последовательными.


Этот документ доступен на arxiv под лицензией CC 4.0 DEED.