Авторы:  (1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {juanfelipe.montesinos@upf.edu};  (2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {olga.slizovskaia@upf.edu};  (3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {gloria.haro@upf.edu}.  Таблица ссылок   Аннотация и введение   Связанных с работой   Набор данных   Эксперименты   Выводы и ссылки  ВЫВОДЫ.  Мы представили Solos, новый аудиовизуальный набор данных музыкальных записей солистов, подходящий для различных задач самостоятельного обучения, таких как разделение источников с использованием стратегии смешивания и разделения, локализация звука, кросс-модальная генерация и поиск аудиовизуальных переписки. В наборе данных 13 различных инструментов; это обычные инструменты в камерных оркестрах, включенные в набор данных мультимодального музыкального исполнения (URMP) Рочестерского университета [1]. Характеристики URMP – небольшой набор данных о реальных характеристиках с достоверными отдельными основами – делают его подходящим набором данных для целей тестирования, но, насколько нам известно, на сегодняшний день не существует крупномасштабного набора данных с теми же инструментами, что и в URMP. Две разные сети для разделения аудиовизуальных источников на основе архитектуры U-Net были обучены в новом наборе данных и дополнительно оценены в URMP, что показывает влияние обучения на тот же набор инструментов, что и тестовый набор. Более того, Solos предоставляет скелетоны и временные метки для интервалов видео, где руки достаточно видны. Эта информация может быть полезна в учебных целях, а также для обучения решению задачи локализации звука.  ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА  [1] Б. Ли, К. Лю, К. Динеш, З. Дуан и Г. Шарма, «Создание многодорожечного набора данных исполнения классической музыки для мультимодального музыкального анализа: проблемы, идеи и приложения», IEEE Transactions on Multimedia, том. 21, нет. 2, стр. 522–535, февраль 2019 г.  [2] Б. Ли, К. Динеш, З. Дуан и Г. Шарма, «Смотрите и слушайте: объединение звуковых дорожек с исполнителями в видеороликах с камерной музыкой на основе оценки», Международная конференция IEEE по акустике, речи и сигналу, 2017 г. Обработка (ICASSP). IEEE, 2017, стр. 2906–2910.  [3] Э.К. Черри, «Некоторые эксперименты по распознаванию речи одним и двумя ушами», Журнал акустического общества Америки, том. 25, нет. 5, стр. 975–979, 1953.  [4] А. Хиваринен и Э. Оя, «Анализ независимых компонентов: алгоритмы и приложения», Нейронные сети, вып. 13, нет. 4–5, стр. 411–430, 2000.  [5] М. Зибулевский и Б. А. Перлмуттер, «Слепое разделение источников путем разреженной декомпозиции в словаре сигналов», Нейронные вычисления, том. 13, нет. 4, стр. 863–882, 2001.  [6] Т. Виртанен, «Монауральное разделение источников звука посредством неотрицательной матричной факторизации с критериями временной непрерывности и разреженности», Транзакции IEEE по обработке звука, речи и языка, том. 15, нет. 3, стр. 1066–1074, 2007.  [7] DPW Эллис, «Вычислительный анализ слуховой сцены на основе прогнозирования», Ph.D. диссертация, Массачусетский технологический институт, 1996 г.  [8] П. Смарагдис, Б. Радж и М. Шашанка, «Вероятностная модель скрытых переменных для акустического моделирования», Достижения в моделях акустической обработки, NIPS, том. 148, стр. 8–1, 2006.  [9] П. Чандна, М. Мирон, Дж. Джанер и Э. Гомес, «Моноауральное разделение источников звука с использованием глубоких сверточных нейронных сетей», Международная конференция по анализу скрытых переменных и разделению сигналов, 2017, стр. 258– 266.  [10] Д. Столлер, С. Эверт и С. Диксон, «Wave-u-net: многомасштабная нейронная сеть для сквозного разделения источников звука», препринт arXiv arXiv:1806.03185, 2018.  [11] Дж. Р. Херши и Дж. Р. Мовеллан, «Аудиовидение: использование аудиовизуальной синхронизации для определения местоположения звуков», в журнале «Достижения в области нейронных систем обработки информации», 2000, стр. 813–819.  [12] Э. Кидрон, Ю. Я. Шехнер и М. Элад, «Пиксели, которые звучат», в книге «Компьютерное зрение и распознавание образов», 2005. CVPR 2005. Конференция IEEE Computer Society, том. 1, 2005, стр. 88–95.  [13] Т. Даррелл, Дж. В. Фишер и П. Виола, «Аудиовизуальная сегментация и эффект коктейльной вечеринки», в «Достижениях в области мультимодальных интерфейсов» ICMI 2000, 2000, стр. 32–40.  [14] Д. Содойер, Ж.-Л. Шварц, Л. Гирин, Дж. Клинкиш и К. Юттен, «Разделение аудиовизуальных источников речи: новый подход, использующий аудиовизуальную когерентность речевых стимулов», Журнал EURASIP по достижениям в области обработки сигналов, том. 2002, нет. 11, с. 382823, 2002.  [15] Б. Ривет, Л. Гирин и К. Юттен, «Совмещение аудиовизуальной обработки речи и слепого разделения источников для извлечения речевых сигналов из сверточных смесей», IEEE Transactions on Audio, Speech and Language Processing, vol. 15, нет. 1, стр. 96–108, 2007.  [16] Б. Ли, К. Сюй и З. Дуань, «Ассоциация аудиовизуальных источников для струнных ансамблей посредством мультимодального анализа вибрато», Proc. Звуковые и музыкальные вычисления (SMC), 2017.  [17] С. Парех, С. Эссид, А. Озеров, Н. К. Дуонг, П. Перес и Г. Ричард, «Управление разделением источника звука по информации о видеообъекте», в книге «Приложения обработки сигналов для аудио и акустики» (WASPAA). ), Семинар IEEE, 2017 г., 2017 г., стр. 61–65.  [18] Р. Гао и К. Грауман, «Совместное разделение звуков визуальных объектов», в материалах Международной конференции IEEE по компьютерному зрению, 2019, стр. 3879–3888.  [19] Х. Чжао, К. Ган, В.-К. Ма и А. Торральба, «Звук движений», в материалах Международной конференции IEEE по компьютерному зрению, 2019 г., стр. 1735–1744.  [20] С. Сюй, Б. Дай и Д. Линь, «Рекурсивное визуальное разделение звука с использованием сети минус-плюс», в материалах Международной конференции IEEE по компьютерному зрению, 2019, стр. 882–891.  [21] Б. Ли, К. Динеш, К. Сюй, Г. Шарма и З. Дуань, «Онлайн-ассоциация аудиовизуальных источников для исполнений камерной музыки», Труды Международного общества поиска музыкальной информации, том. 2, нет. 1, 2019.  [22] Р. Аранджелович и А. Зиссерман, «Объекты, которые звучат», в «Материалах Европейской конференции IEEE по компьютерному зрению», 2018.  [23] Х. Чжао, К. Ган, А. Рудиченко, К. Вондрик, Дж. Макдермотт и А. Торралба, «Звук пикселей», на Европейской конференции по компьютерному зрению (ECCV), сентябрь 2018 г.  [24] А. Оуэнс и А. А. Эфрос, «Аудиовизуальный анализ сцены с помощью мультисенсорных функций с самоконтролем», препринт arXiv arXiv:1804.03641, 2018.  [25] Б. Корбар, Д. Тран и Л. Торресани, «Совместное обучение аудио- и видеомоделей с помощью самоконтролируемой синхронизации», в журнале «Достижения в области нейронных систем обработки информации», 2018, стр. 7763–7774.  [26] Т.-Х. О, Т. Декель, К. Ким, И. Моссери, В. Т. Фриман, М. Рубинштейн и В. Матусик, «Speech2face: изучение лица за голосом», в материалах конференции IEEE по компьютерному зрению и распознаванию образов, 2019, стр. 7539–7548.  [27] Л. Чен, С. Шривастава, З. Дуань и К. Сюй, «Глубокая кросс-модальная аудиовизуальная генерация», в материалах тематических семинаров ACM Multimedia 2017, 2017, стр. 349–357.  [28] Ю. Чжоу, З. Ван, К. Фанг, Т. Буй и Т. Л. Берг, «Визуальное преобразование в звук: создание естественного звука для видео в дикой природе», в материалах конференции IEEE по компьютерному зрению и распознаванию образов. , 2018. С. 3550–3558.  [29] Э. Шлизерман, Л. М. Дери, Х. Шон и И. Кемельмахер-Шлизерман, «Динамика звука в теле», CVPR, Конференция компьютерного общества IEEE по компьютерному зрению и распознаванию образов, 2017.  [30] С. Гиносар, А. Бар, Г. Кохави, К. Чан, А. Оуэнс и Дж. Малик, «Изучение отдельных стилей разговорных жестов», в материалах конференции IEEE по компьютерному зрению и распознаванию образов, 2019, стр. 3497–3506.  [31] Х. Чжоу, З. Лю, С. Сюй, П. Луо и X. Ван, «Глубокая обработка звука с использованием зрения», на Международной конференции IEEE по компьютерному зрению (ICCV), октябрь 2019 г.  [32] К. Ган, Д. Хуанг, Х. Чжао, Дж. Б. Тененбаум и А. Торральба, «Музыкальный жест для визуального разделения звука», в материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, 2020, стр. . 10 478–10 487.  [33] З. Цао, Г. Идальго Мартинес, Т. Саймон, С. Вей и Я. Шейх, «Openpose: двухмерная оценка позы нескольких человек в реальном времени с использованием полей сходства частей», Транзакции IEEE по анализу шаблонов и машинному интеллекту, 2019. .  [34] CSJ Doire и O. Okubadejo, «Перемежающееся многозадачное обучение для разделения аудиоисточников с помощью независимых баз данных», ArXiv, vol. абс/1908.05182, 2019.  [35] Ф. Ю., Колтун В., Фанкхаузер Т., «Расширенные остаточные сети», в книге «Компьютерное зрение и распознавание образов (CVPR), 2017».  [36] А. Янссон, Э. Хамфри, Н. Монтеккио, Р. Биттнер, А. Кумар и Т. Вейде, «Разделение певческих голосов с помощью глубоких сверточных сетей U-Net», на 18-й конференции Международного общества по поиску музыкальной информации. , 2017. С. 23–27.  [37] О. Роннебергер, П. Фишер и Т. Брокс, «U-net: сверточные сети для сегментации биомедицинских изображений», Международная конференция по вычислениям медицинских изображений и компьютерному вмешательству. Спрингер, 2015, стр. 234–241.  [38] Г. Лю, Дж. Си, Ю. Ху и С. Ли, «Синтез фотографических изображений с помощью улучшенной u-net», Десятая международная конференция по передовому вычислительному интеллекту (ICACI), март 2018 г., стр. 402. –407.  [39] С. Мао, К. Шэнь, Ю.-Б. Ян, «Восстановление изображений с использованием очень глубоких сверточных сетей кодировщика-декодера с симметричными пропускающими соединениями», в журнале «Достижения в области нейронных систем обработки информации», 2016, стр. 2802–2810.  [40] П. Изола, Ж.-Ю. Чжу, Т. Чжоу и А.А. Эфрос, «Перевод изображения в изображение с помощью условно-состязательных сетей», arxiv, 2016.  [41] Д. П. Кингма и Дж. Ба, «Адам: метод стохастической оптимизации», CoRR, том. абс/1412.6980, 2014.  [42] «Глава 7 – обработка в частотной области», в книге «Проектирование системы цифровой обработки сигналов» (второе издание), второе издание, Н. Кехтарнаваз, ред. Берлингтон: Academic Press, 2008, стр. 175–196.  [43] Э. Винсент, Р. Грибонваль и К. Февотт, «Измерение производительности при слепом разделении источников звука», IEEE Transactions on Audio, Speech and Language Processing, vol. 14, нет. 4, стр. 1462–1469, 2006.  Этот документ   под лицензией CC BY-NC-SA 4.0 DEED. доступен на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Этот звук создан на языке оригинала истории!

Соло: набор данных для аудиовизуального анализа музыки – выводы и ссылки

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Цифровые кочевники слушают: что нужно знать о новой визе DTV в Таиланде

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Цифровые кочевники слушают: что нужно знать о новой визе DTV в Таиланде

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps