Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Вычислительный бюджет. Короче говоря, в качестве основы используется GPT-3 (175B параметров) через API OpenAI. В среднем запрос на подведение итогов по фрагменту видео обрабатывает около 3000 токенов, а запрос на обеспечение качества обычно занимает около 4000 токенов. Для CLICheck мы извлекаем функции CLIP и вычисляем косинусное сходство, используя один графический процессор NVIDIA A6000: обработка видеокадров для разделения проверки MovieQA занимает 0,5 часа.
Гиперпараметры . Все гиперпараметры предварительно определяются путем анализа одной обучающей выборки. Для повествовательного поиска мы используем порог сходства предложений α ≥ 0,5, чтобы найти фрагменты сюжета, когда GPT-3 не выводит ни одного индекса. В CLICheck мы используем порог двоичной энтропии E ′ ≥ 0,4. Мы проводим каждый эксперимент только один раз, поскольку наш метод детерминирован и не подвержен случайности при инициализации.
Схема сегментации видео. Для всех наборов данных, которые мы используем в этой статье, существуют предопределенные аннотации границ сегментов. Кроме того, все фрагменты сюжета по очереди имеют выровненные сегменты клипов, поскольку мы выполняем суммирование для каждого клипа, сегментированного с заранее заданными границами. Кроме того, перед применением LSS мы отфильтровываем сегменты клипа, которые 1. слишком короткие, 2. не имеют выровненной рамки изображения или 3. не имеют текстового контекста, чтобы гарантировать, что мы можем получить сегменты клипа, используя сводку сюжета.
Внешние библиотеки. Мы используем OpenAI API для доступа к языковой модели GPT-3. Функции CLIP вычисляются с помощью реализаций Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).