«Куросава»: помощник сценариста: итоги и анализ

к Teleplay Technology 4m2024/05/23

Слишком долго; Читать

В этой статье исследователи представляют KUROSAWA, инструмент для написания сценариев с использованием искусственного интеллекта для создания сюжетов и сценариев, предназначенный для автоматизации развлекательных медиа.

featured image - «Куросава»: помощник сценариста: итоги и анализ

Авторы:

(1) Прерак Ганди, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, [email protected], и эти авторы внесли равный вклад в эту работу;

(2) Вишал Праманик, факультет компьютерных наук и инженерии, Индийский технологический институт Бомбей, Мумбаи, vishalpramanik,[email protected], и эти авторы внесли равный вклад в эту работу;

(3) Пушпак Бхаттачария, факультет компьютерных наук и инженерии, Индийский технологический институт, Бомбей, Мумбаи.

Таблица ссылок

6. Результаты и анализ

Представляем наши наблюдения и оценки. Характер нашей задачи ставит человеческую оценку выше автоматической (в конце концов, она предназначена для автоматической генерации сценариев фильма!). Качественный анализ сгенерированных нами сюжетов и сцен основан на отзывах 5 профессиональных сценаристов нашего отраслевого партнера — известной медиаплатформы.

6.1. Создание графика

6.1.1. Автоматическая оценка

В таблице 1 показаны баллы автоматической оценки для нескольких моделей построения графиков GPT-3.

6.1.2. Человеческий рейтинг

Мы провели человеческую оценку короткой входной модели с голливудскими аннотациями. Оценку проводили пять групп по 3 человека, причем каждая группа

ему было выделено 10 уникальных участков. Оценки, данные для 5 характеристик, показаны на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 3,98, 3,29, 2,97, 2,65 и 2,55 соответственно. Беглость почти 4 — показатель силы GPT-3 как языковой модели. Креативность и привлекательность заслуживают уважения при значении около 3,0. Низкие баллы BLEU подтверждают средний балл креативности (таблица 1). Рисунок 5 показывает, что согласованность и актуальность все еще нуждаются в значительном улучшении.

Значение MAUVE (Pillutla et al., 2021) измеряет разрыв между нейронным текстом и человеческим текстом. Мы отдельно рассчитали баллы MAUVE для 20 и 50 участков. Средневзвешенное значение баллов MAUVE для двух экспериментов составляет 0,48 , что достаточно хорошо.

6.1.3. Качественные наблюдения

Профессиональные сценаристы нашего отраслевого партнера высказали следующие наблюдения:

Неаннотированные голливудские сюжеты

• Развитие творческое и интересное, но финал становится бессвязным.

• Некоторые персонажи, представленные в начале, больше никогда не упоминаются.

• Выходные данные не отражают ключевые моменты или тему, упомянутую во входных данных.

Аннотированные голливудские сюжеты

• Сюжеты стали гораздо более связными, а концовки логичными.

• Галлюцинации все еще присутствуют (общая черта всех моделей).

• Более длинные входные данные сделали графики более внимательными к ключевым моментам.

Аннотированные голливудские сюжеты с включенными жанрами

• Наряду с вышеперечисленным, теперь создаваемые сюжеты больше ориентированы на жанр или жанры фильма, который хочет создать сценарист.

• Добавление жанра дает некоторый контроль над типом сюжета, создаваемого моделью.

Аннотированные сюжеты Болливуда

• Результаты демонстрируют непоследовательность в последних двух абзацах и повторение одних и тех же символов на протяжении всего сюжета.

• Развитие сюжета недостаточно быстрое, т. е. сюжет продвигается не так сильно.

• Многие из произведений связаны с темой 1990-х годов, где персонажи разделяются, а затем находят друг друга. Это связано с искаженным набором данных с меньшим количеством современных графиков.

6.2. Генерация сцены

Мы настроили GPT-3 для создания сцен с помощью нашего набора данных. Мы создали десять сцен, используя модели, упомянутые в разделе 5.1. Рисунок 7 в приложении. показывает пример полностью сгенерированной сцены.

6.2.1. Человеческие рейтинги

Мы провели человеческую оценку 10 сцен, созданных с помощью вышеуказанной модели. 5 человек оценивали сцены по шкале Лайкерта. Оценки пяти характеристик можно увидеть на рисунке 5. Средние баллы за беглость речи, креативность, привлекательность, связность и актуальность составляют 4,48, 3,9, 3,48, 3,46 и 3,86 соответственно. Все значения выше нейтральной отметки и подразумевают, что сгенерированные сцены близки к сценам, написанным человеком.

6.2.2. Качественные наблюдения

В этом разделе мы анализируем качество сцен, созданных моделью GPT-3. Этот анализ был сделан профессиональными сценаристами из ранее упомянутой медиа-компании.

• Модель создает хорошо структурированную сцену.

• Он может создавать новых персонажей и фабриковать диалоги, даже если они не важны.

• Ключевые моменты входных данных можно найти в выходных данных.

• Некоторые строки повторяются.

• Выходные данные не являются полностью последовательными.