Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
Метрики оценки. Предыдущая работа [41] оценивает производительность моделей идентификации ТП по трем метрикам: Общее согласие (TA), т. е. процент правильно идентифицированных сцен ТП, Частичное согласие (PA), т. е. процент сцен ТП. события, для которых определена хотя бы одна сцена золотого стандарта, и Расстояние (D), т. е. минимальное расстояние по количеству сцен между прогнозируемым и стандартным набором сцен для данного TP, нормализованное по длине сценария. Мы сообщаем результаты с метрикой частичного согласия. Мы больше не можем использовать полное согласие, поскольку мы оцениваем кадры (а не сцены) по серебряному стандарту (а не по золотому) и в результате считаем все кадры в сцене одинаково важными. Мы также не используем метрику расстояния, поскольку она дает очень похожие результаты и не помогает различать варианты модели.
Гиперпараметры Следуя предыдущей работе [42], мы проецируем все типы функций (т.е. текстовые, визуальные и аудио) на одно и то же нижнее измерение, равное 128. Мы обнаружили, что большие измерения значительно увеличивают количество параметров и дают худшие результаты, возможно, из-за небольшой размер набора данных.
Контекстуализируем сцены (по сценарию) и кадры (по видео) с помощью кодировщиков-трансформеров. Мы экспериментировали с 2, 3, 4, 5 и 6 слоями в кодере и получили наилучшие результаты с 3 слоями. Что касается размера прямой связи (FF), мы экспериментировали как со стандартным размером 2048, так и с меньшим размером 1024, и обнаружили, что первый работает лучше. Мы используем другой кодировщик-трансформер для вычисления представления сцены из последовательности представлений входных предложений. Этот кодер имеет 4 слоя и размерность 1024 FF. Оба энкодера используют 8 головок внимания и 0,3 дропаута.
Во время разрежения графа (т. е. выбора топ-k соседей) мы рассматриваем разные варианты соседства для сетей на основе сцен и кадров из-за их различной детализации и размера. Следуя [42], мы рассматриваем [1–6] соседей для сети сцен и увеличиваем размер окрестности до [6–12] для сети кадров.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.