Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Наше исследование имеет некоторые ограничения, в том числе:
Мы экспериментируем только с видео с английскими субтитрами. Однако наш метод можно расширить, включив в него многоязычные контексты при наличии сильной многоязычной языковой модели.
Требования к вычислениям и памяти для нашего метода значительны из-за его сильной зависимости от большой языковой модели GPT-3.
Мы оцениваем Long Story Short только с одним экземпляром LLM (GPT-3).
Потенциальный риск. Обобщение длинного видеоконтекста с помощью GPT-3 сопряжено с этическими рисками, связанными с открытым характером языковой модели. GPT-3 может (а) галлюцинировать ложные факты о содержании, (б) генерировать токсичные высказывания или (в) неявно внедрять социальные предубеждения в резюме и вероятность ответа.
[1] Том Браун, Бенджамин Манн, Ник Райдер, Мелани Суббия, Джаред Д. Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл и др. Языковые модели малоэффективны для изучения. Достижения в области нейронных систем обработки информации, 33: 1877–1901, 2020.
[2] Сонхо Чой, Кён Вун Он, Ю Чон Хо, Ачжон Со, Ювон Чан, Сынчан Ли, Минсу Ли и Бён Так Чжан. DramaQA: понимание видеосюжетов, ориентированное на персонажей, с помощью иерархического контроля качества. Препринт arXiv arXiv:2005.03356, 2020.
[3] Сонхо Чхве, Кён Вун Он, Ю Чон Хо, Ачжон Со, Ювон Чан, Минсу Ли и Бён Так Чжан. Драмака: понимание видеоистории, ориентированное на персонажей, с иерархическим контролем качества. В материалах конференции AAAI по искусственному интеллекту, том 35, страницы 1166–1174, 2021 г.
[4] Чэнью Фань, Сяофань Чжан, Шу Чжан, Вэньшэн Ван, Чи Чжан и Хэн Хуан. Мультимодальная модель внимания с усилением гетерогенной памяти для ответов на видеовопросы. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 1999–2007, 2019.
[5] Цу-Джуй Фу, Линьцзе Ли, Чжэ Гань, Кевин Линь, Уильям Ян Ван, Лицзюань Ван и Цзычэн Лю. Фиолетовый: комплексные преобразователи видеоязыка со скрытым моделированием визуальных токенов. Препринт arXiv arXiv:2111.12681, 2021.
[6] Цзиян Гао, Жуньчжоу Гэ, Кан Чен и Рам Неватия. Сети копамяти, основанные на движении и появлении видео, для ответов на вопросы. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 6576–6585, 2018 г.
[7] Филип Джон Горински и Мирелла Лапата. Обобщение сценария фильма как извлечение сцен на основе графов. В НААКЛ, 2015.
[8] Пэнчэн Хэ, Баолинь Пэн, Лиян Лу, Сунхэ Ван, Цзе Мэй, Ян Лю, Руочэнь Сюй, Хани Хасан Авадалла, Юй Ши, Чэньгуан Чжу, Уэйн Сюн, Майкл Цзэн, Цзяньфэн Гао и Сюэдун Хуан. Z-code++: предварительно обученная языковая модель, оптимизированная для абстрактного обобщения. ArXiv, abs/2208.09770, 2022.
[9] Юнсок Чан, Йель Сон, Ёнджэ Ю, Ёнджин Ким и Гунхи Ким. Тгиф-ка: К пространственно-временным рассуждениям при визуальном ответе на вопрос. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 2758–2766, 2017 г.
[10] Бхаван Джасани, Рохит Гирдхар и Дева Раманан. Задаем ли мы правильные вопросы в Movieqa? В материалах Международной конференции IEEE/CVF по семинарам по компьютерному зрению, страницы 0–0, 2019 г.
[11] Джунён Ким, Минук Ма, Кёнсу Ким, Сонджин Ким и Чан Ди Ю. Сеть памяти с прогрессивным вниманием для ответов на вопросы по сюжетам фильмов. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 8337–8346, 2019 г.
[12] Джунён Ким, Минук Ма, Кёнсу Ким, Сонджин Ким и Чан Ди Ю. Сеть памяти с прогрессивным вниманием для ответов на вопросы по сюжетам фильмов. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 8337–8346, 2019 г.
[13] Кён Мин Ким, Мин О Хо, Сон Хо Чхве и Бён Так Чжан. Deepstory: видеоистория, качество которой обеспечивается сетями глубокой встроенной памяти. В материалах 26-й Международной совместной конференции по искусственному интеллекту, страницы 2016–2022, 2017 г.
[14] Сонхун Ким, Сохён Чон, Ынбёль Ким, Инхо Кан и Ноджун Квак. Предварительное обучение с самоконтролем и обучение контрастному представлению видео с множественным выбором. В АААИ, 2021 год.
[15] Мёнджи Ли, Хон Сок Квон, Джэхун Шин, ВонКи Ли, Байкджин Чон и Чон Хёк Ли. Обобщение сценария на основе трансформера с использованием расширенного представления обучения с информацией из диалога. В ННУЗе, 2021 год.
[16] Цзе Лэй, Личэн Ю, Мохит Бансал и Тамара Л. Берг. Tvqa: Локализованное композиционное видео с ответами на вопросы. В ЭМНЛП, 2018.
[17] Цзе Лэй, Личэн Ю, Тамара Л. Берг и Мохит Бансал. Tvqa+: Пространственно-временное обоснование для видеоответов на вопросы. В техническом отчете, arXiv, 2019.
[18] Цзюньнан Ли, Дунсюй Ли, Цаймин Сюн и Стивен Хой. Blip: предварительное обучение языковому изображению для единого понимания и создания видения и языка. В ICML, 2022 год.
[19] Чин-Ю Лин. ROUGE: Пакет для автоматической оценки резюме. В ответвлениях по обобщению текста, страницы 74–81, Барселона, Испания, июль 2004 г. Ассоциация компьютерной лингвистики. URL https://aclanthology.org/W04-1013.
[20] Чао-Нин Лю, Дин-Цзе Чен, Хванн-Цонг Чен и Тынг-Лу Лю. A2a: Внимание к рассуждениям для ответа на вопросы о фильме. В журнале Computer Vision –ACCV 2018: 14-я Азиатская конференция по компьютерному зрению, Перт, Австралия, 2–6 декабря 2018 г., переработанные избранные статьи, часть VI 14, страницы 404–419. Спрингер, 2019.
[21] Фэй Лю, Цзин Лю, Синьсинь Чжу, Ричан Хун и Ханьцин Лу. Двойная иерархическая временная сверточная сеть с динамической нормализацией с учетом качества для ответов на вопросы видеоисторий. В материалах 28-й Международной конференции ACM по мультимедиа, страницы 4253–4261, 2020 г.
[22] Сейл На, Санхо Ли, Джисон Ким и Гунхи Ким. Сеть памяти для чтения и записи для понимания сюжета фильма. В материалах Международной конференции IEEE по компьютерному зрению, страницы 677–685, 2017 г.
[23] Пинелопи Папалампиди, Фрэнк Келлер и Мирелла Лапата. Анализ сюжета фильма через определение поворотных моментов. В материалах конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP), ноябрь 2019 года.
[24] Пинелопи Папалампиди, Фрэнк Келлер, Леа Фрерманн и Мирелла Лапата. Обобщение сценария с использованием скрытой повествовательной структуры. На ежегодном собрании Ассоциации компьютерной лингвистики, 2020 г.
[25] Алек Рэдфорд, Чон Ук Ким, Крис Халласи, Адитья Рамеш, Габриэль Го, Сандини Агарвал, Гириш Састри, Аманда Аскелл, Памела Мишкин, Джек Кларк и др. Изучение переносимых визуальных моделей под контролем естественного языка. На Международной конференции по машинному обучению, страницы 8748–8763. ПМЛР, 2021.
[26] Анна Рорбах, Атуса Тораби, Маркус Рорбах, Никет Тандон, Кристофер Пал, Хьюго Ларошель, Аарон Курвиль и Бернт Шиле. Описание фильма. ЦЖКВ, 2017.
[27] Макаранд Тапасви, Юкун Чжу, Райнер Штифельхаген, Антонио Торральба, Ракель Уртасун и Санья Фидлер. Movieqa: Понимание сюжетов в фильмах через вопросы-ответы. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 4631–4640, 2016 г.
[28] Бо Ву, Шубин Ю, Чжэньфан Чен, Джошуа Б. Тененбаум и Чуан Ган. Звезда: Эталон ситуативного рассуждения в реальных видеороликах. На Тридцать пятой конференции по наборам данных и контрольным показателям систем нейронной обработки информации (раунд 2), 2021 г.
[29] Цзюньбинь Сяо, Синди Шан, Анджела Яо и Тат-Сенг Чуа. Next-qa: Следующий этап вопросов-ответов для объяснения временных действий. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 9777–9786, 2021 г.
[30] Дэцзин Сюй, Чжоу Чжао, Цзюнь Сяо, Фэй Ву, Ханьван Чжан, Сяннань Хэ и Юэтин Чжуан. Видеоответы на вопросы посредством постепенного улучшения внимания к внешнему виду и движению. В материалах 25-й международной конференции ACM по мультимедиа, страницы 1645–1653, 2017 г.
[31] Антуан Ян, Антуан Мих, Йозеф Сивич, Иван Лаптев и Корделия Шмид. Просто спросите: учимся отвечать на вопросы из миллионов озвученных видео. В материалах Международной конференции IEEE/CVF по компьютерному зрению, страницы 1686–1697, 2021 г.
[32] Чжэнъюань Ян, Чжэ Гань, Цзяньфэн Ван, Сяовэй Ху, Юмао Лу, Цзычэн Лю и Лицзюань Ван. Эмпирическое исследование gpt-3 для VQA, основанного на знаниях. Препринт arXiv arXiv:2109.05014, 2021.
[33] Роуэн Зеллерс, Симинг Лу, Джек Хессель, Ёнджэ Ю, Джэ Сон Пак, Джизе Цао, Али Фархади и Еджин Чхве. Мерло: Мультимодальные модели знаний нейронных сценариев. В М. Ранцато, А. Бейгельцимере, Ю. Дофине, П.С. Ляне и Дж. Вортмане Вогане, редакторах, «Достижения в области нейронных систем обработки информации», том 34, страницы 23634–23651. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Роуэн Зеллерс, Цзясэн Лу, Симинг Лу, Ёнджэ Ю, Янпэн Чжао, Мохаммадреза Салехи, Адитья Кусупати, Джек Хессель, Али Фархади и Еджин Чой. Резерв Мерло: знание нейронного сценария посредством зрения, языка и звука. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR), 2022 г.
[35] Энди Зенг, Адриан Вонг, Стефан Велкер, Кшиштоф Чоромански, Федерико Томбари, Авик Пурохит, Майкл С. Рю, Викас Синдхвани, Джонни Ли, Винсент Ванхук и др. Сократовские модели: составление нулевых мультимодальных рассуждений с помощью языка. 2022.
[36] Го-Хао Цзэн, Ценг-Хун Чен, Чинг-Яо Чжуан, Юань-Хун Ляо, Хуан Карлос Ниблс и Мин Сунь. Использование описаний видео для обучения ответам на видео-вопросы. В материалах конференции AAAI по искусственному интеллекту, том 31, 2017 г.
[37] Цзинцин Чжан, Яо Чжао, Мохаммад Салех и Питер Лю. Пегас: предварительное обучение с извлечением пробелов для абстрактного обобщения. На Международной конференции по машинному обучению, страницы 11328–11339. ПМЛР, 2020.
[38] Чжоу Чжао, Цзинхао Линь, Синхуа Цзян, Дэн Цай, Сяофэй Хэ и Юэтин Чжуан. Видеоответы на вопросы посредством иерархического двухуровневого обучения сети внимания. В материалах 25-й международной конференции ACM по мультимедиа, страницы 1050–1058, 2017 г.