paint-brush
Метод суммирования и последующего поиска для длинных видеоответов на вопросы в деталях экспериментак@kinetograph

Метод суммирования и последующего поиска для длинных видеоответов на вопросы в деталях эксперимента

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, превосходящего контролируемые модели, используя повествовательные резюме и визуальное сопоставление.
featured image - Метод суммирования и последующего поиска для длинных видеоответов на вопросы в деталях эксперимента
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );

(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).

Таблица ссылок

А. Детали эксперимента

Вычислительный бюджет. Короче говоря, в качестве основы используется GPT-3 (175B параметров) через API OpenAI. В среднем запрос на подведение итогов по фрагменту видео обрабатывает около 3000 токенов, а запрос на обеспечение качества обычно занимает около 4000 токенов. Для CLICheck мы извлекаем функции CLIP и вычисляем косинусное сходство, используя один графический процессор NVIDIA A6000: обработка видеокадров для разделения проверки MovieQA занимает 0,5 часа.


Гиперпараметры . Все гиперпараметры предварительно определяются путем анализа одной обучающей выборки. Для повествовательного поиска мы используем порог сходства предложений α ≥ 0,5, чтобы найти фрагменты сюжета, когда GPT-3 не выводит ни одного индекса. В CLICheck мы используем порог двоичной энтропии E ′ ≥ 0,4. Мы проводим каждый эксперимент только один раз, поскольку наш метод детерминирован и не подвержен случайности при инициализации.


Схема сегментации видео. Для всех наборов данных, которые мы используем в этой статье, существуют предопределенные аннотации границ сегментов. Кроме того, все фрагменты сюжета по очереди имеют выровненные сегменты клипов, поскольку мы выполняем суммирование для каждого клипа, сегментированного с заранее заданными границами. Кроме того, перед применением LSS мы отфильтровываем сегменты клипа, которые 1. слишком короткие, 2. не имеют выровненной рамки изображения или 3. не имеют текстового контекста, чтобы гарантировать, что мы можем получить сегменты клипа, используя сводку сюжета.


Внешние библиотеки. Мы используем OpenAI API для доступа к языковой модели GPT-3. Функции CLIP вычисляются с помощью реализаций Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).