Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
В этой работе мы предложили подход к созданию трейлеров, который использует графическое представление фильмов и интерпретируемые критерии для выбора кадров. Мы также показываем, как конфиденциальная информация из сценариев может быть использована посредством контрастного обучения, в результате чего создается модель, которую можно использовать для определения поворотных моментов и создания трейлеров. Трейлеры, созданные с помощью нашей модели, получили положительную оценку по содержанию и привлекательности.
В будущем мы хотели бы сосредоточиться на методах прогнозирования тонких эмоций (например, горя, ненависти, ужаса, радости) в фильмах. В этой работе мы рассматриваем положительные/негативные настроения как замену эмоций из-за отсутствия наборов данных с маркировкой внутри предметной области. Предыдущие усилия были сосредоточены на твитах [1], видеороликах с мнениями на YouTube [4], ток-шоу [20] и записях человеческих взаимодействий [8]. Предварительные эксперименты показали, что перенос детальных знаний об эмоциях из других областей в нашу приводит к ненадежным прогнозам по сравнению с настроениями, которые более стабильны и улучшают производительность создания трейлеров. Направления будущей работы включают новые наборы данных об эмоциях для фильмов, а также модели обнаружения эмоций на основе текстовых и аудиовизуальных сигналов.
[1] Мухаммад Абдул-Магид и Лайл Унгар. EmoNet: детальное обнаружение эмоций с помощью закрытых рекуррентных нейронных сетей. В материалах 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 718–728, Ванкувер, Канада, июль 2017 г. Ассоциация компьютерной лингвистики. 8
[2] Ури Алон и Эран Яхав. Об узком месте графовых нейронных сетей и их практическом значении. На Международной конференции по изучению представлений, 2020 г. 12
[3] Джимми Ба и Рич Каруана. Действительно ли глубокие сети должны быть глубокими? В Proceedings of the Advances in Neural Information Processing Systems, страницы 2654–2662, Монреаль, Квебек, Канада, 2014. 2, 4.
[4] АмирАли Багер Заде, Пол Пу Лян, Суджанья Пориа, Эрик Камбрия и Луи-Филипп Моренси. Мультимодальный языковой анализ в дикой природе: набор данных CMU-MOSEI и интерпретируемый динамический граф слияния. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 2236–2246, Мельбурн, Австралия, июль 2018 г. Ассоциация компьютерной лингвистики. 8
[5] Макс Бейн, Арша Награни, Эндрю Браун и Эндрю Зиссерман. Сжатые фильмы: поиск по сюжету с контекстными вложениями. В материалах Азиатской конференции по компьютерному зрению, 2020 г. 2.
[6] Пабло Барсело, Егор Костылев, Микаэль Моне, Хорхе Перес, Хуан Ройтер и Хуан Пабло Сильва. Логическая выразительность графовых нейронных сетей. На Международной конференции по изучению представлений, 2019 г. 12
[7] Йошуа Бенджио, Николас Леонард и Аарон Курвиль. ´ Оценка или распространение градиентов через стохастические нейроны для условных вычислений. Препринт arXiv arXiv:1308.3432, 2013. 11
[8] Санджай Билахия, Ставрос Петридис, Антон Нейхолт и Майя Пантич. База данных мимикрии MAHNOB: база данных натуралистических человеческих взаимодействий. Письма о распознавании образов, 66:52–61, 2015. Распознавание образов при взаимодействии человека с компьютером. 8
[9] Карлос Буссо, Муртаза Булут, Чи-Чун Ли, Абэ Каземзаде, Эмили Мауэр, Сэмюэл Ким, Жаннетт Н. Чанг, Сунгбок Ли и Шрикант С. Нараянан. Iemocap: интерактивная база данных по захвату эмоциональных диадных движений. Языковые ресурсы и оценка, 42(4):335, 2008. 6
[10] Жоау Каррейра и Эндрю Зиссерман. Quo vadis, признание действия? новая модель и набор кинетических данных. На конференции IEEE 2017 г. по компьютерному зрению и распознаванию образов (CVPR), страницы 4724–4733. Компьютерное общество IEEE, 2017. 6.
[11] Паола Касканте-Бонилья, Калпати Ситарамаман, Мэнджиа Луо и Висенте Ордонес. Moviescope: Масштабный анализ фильмов с использованием нескольких методов. Препринт arXiv arXiv:1908.03180, 2019. 5
[12] Дэниел Сер, Иньфей Ян, Шэн-и Конг, Нань Хуа, Николь Лимтиако, Ромни Сент-Джон, Ной Констант, Марио Гуахардо Сеспедес, Стив Юань, Крис Тар и др. Универсальный кодировщик предложений. Препринт arXiv arXiv:1803.11175, 2018. 6
[13] Джеймс Э. Каттинг. Нарративная теория и динамика популярных фильмов. Psychonomic Bulletin and Review, 23(6):1713–1743, 2016. 1 [14] Цзя Дэн, Вэй Донг, Ричард Сочер, Ли-Цзя Ли, Кай Ли и Ли Фей-Фей. Imagenet: крупномасштабная иерархическая база данных изображений. На конференции IEEE 2009 года по компьютерному зрению и распознаванию образов, страницы 248–255. Иэээ, 2009. 6
[15] Дэвид К. Дювено, Дугал Маклорен, Хорхе Ипаррагирре, Рафаэль Бомбарелл, Тимоти Хирзель, Алан Аспуру-Гузик и Райан П. Адамс. Сверточные сети на графах для изучения молекулярных отпечатков пальцев. Достижения в области нейронных систем обработки информации, 28: 2224–2232, 2015. 3
[16] Йорт Ф. Геммеке, Дэниел П.В. Эллис, Дилан Фридман, Арен Янсен, Уэйд Лоуренс, Р. Ченнинг Мур, Манодж Плакал и Марвин Риттер. Набор аудио: онтология и набор данных с человеческими метками для аудиособытий. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2017 г., страницы 776–780. IEEE, 2017. 6.
[17] Дипанвей Госал, Навонил Маджумдер, Александр Гельбух, Рада Михалча и Суджанья Пориа. Космическое: Здравый смысл для идентификации эмоций в разговорах. В материалах конференции 2020 года по эмпирическим методам обработки естественного языка: результаты, страницы 2470–2481, 2020. 6 [18] Росс Гиршик. Быстрый р-кн. В материалах международной конференции IEEE по компьютерному зрению, страницы 1440–1448, 2015 г. 6
[19] Филип Джон Горински и Мирелла Лапата. Обобщение сценария фильма как извлечение сцен на основе графов. В материалах конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка, страницы 1066–1076, Денвер, Колорадо, май – июнь 2015 года. Ассоциация компьютерной лингвистики. 5, 12
[20] Майкл Гримм, Кристиан Крошель и Шрикант Нараянан. База данных немецкой аудиовизуальной эмоциональной речи Vera am Mittag. В ICME, страницы 865–868. IEEE, 2008. 8.
[21] Михаэль Гутманн и Аапо Хиваринен. Шумоконтрастная оценка: новый принцип оценки для ненормализованных статистических моделей. В материалах тринадцатой Международной конференции по искусственному интеллекту и статистике, стр. 297–304, 2010 г. 4
[22] Майкл Хауге. Рассказывание историй стало проще: убеждайте и трансформируйте свою аудиторию, покупателей и клиентов – просто, быстро и выгодно. Indie Books International, 2017. 1, 3, 13.
[23] Джеффри Хинтон, Ориол Виньялс и Джефф Дин. Перегонка знаний в нейронную сеть. Препринт arXiv arXiv:1503.02531, 2015. 2, 4
[24] Го Ириэ, Такаси Сато, Акира Кодзима, Тошихико Ямасаки и Киёхару Айзава. Автоматическое создание прицепа. В материалах 18-й международной конференции ACM по мультимедиа, стр. 839–842, 2010 г. 1, 2.
[25] Эрик Чан, Шисян Гу и Бен Пул. Категориальная репараметризация с помощью gumble-softmax. На Международной конференции по обучению представлениям (ICLR 2017), 2017 г. 11
[26] Стивен Кирнс, Кевин Макклоски, Марк Берндл, Виджей Панде и Патрик Райли. Свертки молекулярных графов: выход за рамки отпечатков пальцев. Журнал компьютерного молекулярного дизайна, 30(8):595–608, 2016. 3
[27] Хёнхун Ким, Зиненг Тан и Мохит Бансал. Сопоставление Densecaption и стробирование выбора кадров для временной локализации в videoqa. В материалах 58-го ежегодного собрания Ассоциации компьютерной лингвистики, страницы 4812–4822, 2020 г. 3.
[28] Томас Н. Кипф и Макс Веллинг. Полуконтролируемая классификация с использованием сверточных сетей на графах. На Международной конференции по обучению представлениям (ICLR), 2017 г. 3
[29] Янран Ли, Хуэй Су, Сяоюй Шэнь, Вэньцзе Ли, Цзыцян Цао и Шузи Ню. Dailydialog: набор данных многоходовых диалогов, помеченный вручную. В материалах Восьмой Международной совместной конференции по обработке естественного языка (Том 1: Длинные статьи), страницы 986–995, 2017 г. 6
[30] Дэвид Лопес-Пас, Леон Ботту, Бернхард Шолькопф и ¨ Владимир Вапник. Объединение дистилляции и конфиденциальной информации. Препринт arXiv arXiv:1511.03643, 2015. 2
[31] Джордан Лувьер, Т.Н. Флинн и А.А.Дж. Марли. Лучшее-худшее масштабирование: Теория, методы и приложения. 01 2015. 8
[32] Крис Дж. Мэддисон, Андрей Мних и Йи Уай Тех. Конкретное распределение: непрерывная релаксация дискретных случайных величин. На 5-й Международной конференции по обучающимся представлениям, ICLR 2017, Тулон, Франция, 24–26 апреля 2017 г., Материалы конференции, 2017 г. 11
[33] Антуан Миш, Жан-Батист Алайрак, Лукас Смайра, Иван Лаптев, Йозеф Сивич и Эндрю Зиссерман. Комплексное изучение визуальных представлений на основе непроверенных обучающих видеороликов. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 9879–9889, 2020 г. 2.
[34] Антуан Миш, Дмитрий Жуков, Жан-Батист Алайрак, Макаранд Тапасви, Иван Лаптев и Йозеф Сивич. Howto100m: Обучение встраиванию текстового видео, просмотрев сотни миллионов озвученных видеоклипов. В материалах Международной конференции IEEE/CVF по компьютерному зрению, страницы 2630–2640, 2019 г. 2.
[35] Рада Михалча и Пол Тарау. Textrank: наведение порядка в тексте. В материалах конференции 2004 г. по эмпирическим методам обработки естественного языка, стр. 404–411, 2004 г. 7.
[36] Кори С. Майерс и Лоуренс Р. Рабинер. Сравнительное исследование нескольких алгоритмов динамического искажения времени для распознавания связанных слов. Технический журнал Bell System, 60(7):1389–1409, 1981. 5
[37] Кента Ооно и Тайджи Судзуки. Графовые нейронные сети экспоненциально теряют выразительную силу при классификации узлов. На Международной конференции по изучению представлений, 2019 г. 12
[38] Аарон ван ден Оорд, Яже Ли и Ориол Виньялс. Обучение представлению с помощью контрастного прогнозирующего кодирования. Препринт arXiv arXiv:1807.03748, 2018. 4, 5, 11
[39] Босяо Пан, Хаойе Цай, Де-Ан Хуан, Куан-Хуэй Ли, Адриан Гайдон, Эхсан Адели и Хуан Карлос Ниблс. Пространственно-временной график для субтитров к видео с дистилляцией знаний. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 10870–10879, 2020 г. 4
[40] Пинелопи Папалампиди, Фрэнк Келлер, Леа Фрерманн и Мирелла Лапата. Обобщение сценария с использованием скрытой повествовательной структуры. В материалах 58-го ежегодного собрания Ассоциации компьютерной лингвистики, страницы 1920–1933, 2020 г. 2.
[41] Пинелопи Папалампиди, Фрэнк Келлер и Мирелла Лапата. Анализ сюжета фильма через определение поворотных моментов. В материалах конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLPIJCNLP), страницы 1707–1717, 2019. 2, 3, 5, 6, 11, 12.
[42] Пинелопи Папалампиди, Фрэнк Келлер и Мирелла Лапата. Обобщение фильма с помощью построения разреженного графа. На тридцать пятой конференции AAAI по искусственному интеллекту, 2021 г. 2, 3, 5, 6, 12.
[43] Суджанья Пориа, Деваманью Хазарика, Навонил Маджумдер, Гаутам Найк, Эрик Камбрия и Рада Михалча. Meld: мультимодальный многосторонний набор данных для распознавания эмоций в разговорах. В материалах 57-го ежегодного собрания Ассоциации компьютерной лингвистики, страницы 527–536, 2019 г. 6.
[44] Анна Рорбах, Маркус Рорбах, Никет Тандон и Бернт Шиле. Набор данных для описания фильма. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 3202–3212, 2015 г. 2
[45] Минджун Со, Анируддха Кембхави, Али Фархади и Ханнане Хаджиширзи. Двунаправленный поток внимания для машинного понимания. На Международной конференции по изучению представлений, 2017 г. 3
[46] Алан Ф. Смитон, Барт Лихейн, Ноэль Э. О'Коннор, Конор Брэди и Гэри Крейг. Автоматический подбор кадров для трейлеров боевиков. В материалах 8-го международного семинара ACM по поиску мультимедийной информации, стр. 231–238, 2006 г. 1, 2.
[47] Джон Р. Смит, Дирадж Джоши, Бенуа Юэ, Уинстон Сюй и Йозеф Кота. Использование искусственного интеллекта для расширения творческих способностей: применение к созданию трейлеров к фильмам. В материалах 25-й международной конференции ACM по мультимедиа, стр. 1799–1808, 2017 г. 2, 7.
[48] Сыци Сунь, Чжэ Гань, Ювэй Фан, Ю Чэн, Шуохан Ван и Цзинцзин Лю. Сравнительная перегонка промежуточных представлений для сжатия языковой модели. В материалах конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP), страницы 498–508, 2020 г. 4
[49] Макаранд Тапасви, Мартин Баумл и Райнер Штифельхаген. Book2movie: выравнивание видеосцен по главам книги. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 1827–1835, 2015 г. 2
[50] Макаранд Тапасви, Юкун Чжу, Райнер Штифельхаген, Антонио Торральба, Ракель Уртасун и Санья Фидлер. Movieqa: Понимание сюжетов в фильмах через вопросы-ответы. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 4631–4640, 2016 г. 2.
[51] Кристин Томпсон. Рассказывание историй в новом Голливуде: понимание классической техники повествования. Издательство Гарвардского университета, 1999. 1.
[52] Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н Гомес, Лукаш Кайзер и Илья Полосухин. Внимание – это все, что вам нужно. В книге «Достижения в области нейронных систем обработки информации», страницы 5998–6008, 2017 г. 3
[53] Лези Ван, Донг Лю, Рохит Пури и Димитрис Н. Метаксас. Разучивание моментов трейлеров полнометражных фильмов с контрастным вниманием. На Европейской конференции по компьютерному зрению, страницы 300–316. Спрингер, 2020. 1, 2, 7.
[54] Юсинь Ву, Александр Кириллов, Франсиско Масса, Ван-Йен Ло и Росс Гиршик. Детектор2. https://гитхаб. com/facebookresearch/detectron2, 2019. 6
[55] Чжижун Ву, Юаньцзюнь Сюн, Стелла X Ю и Дахуа Линь. Неконтролируемое обучение функциям посредством непараметрической дискриминации экземпляров. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 3733–3742, 2018 г. 4
[56] Сайнинг Се, Росс Гиршик, Петр Доллар, Чжуовэнь Ту и Кайминг Хэ. Агрегированные остаточные преобразования для глубоких нейронных сетей. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 1492–1500, 2017 г. 6
[57] Хунтэн Сюй, И Чжэнь и Хунъюань Чжа. Создание трейлера с помощью модели визуальной привлекательности на основе точечного процесса. В материалах 24-й Международной конференции по искусственному интеллекту, стр. 2198–2204, 2015 г. 2, 7.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.