Пересечение искусственного интеллекта и охраны окружающей среды быстро расширяется, предлагая беспрецедентные инструменты для решения некоторых из самых актуальных экологических проблем планеты.На переднем крае этой эволюции находится биоакустика, где ИИ трансформирует то, как ученые контролируют и защищают исчезающие виды. Последние достижения в этой области, особенно с такими моделями, как Perch от Google DeepMind, подчеркивают убедительный рассказ о глубоком влиянии специализированного ИИ и нюансных реалиях развития ИИ в научных областях. Введение Perch 2.0: скачок в биоакустике Исторически консерватисты сталкивались с трудной задачей: понимание обширных наборов аудиоданных, собранных из диких экосистем.Эти записи, плотные вокализациями от птиц, лягушек, насекомых, китов и рыб, предлагают бесценные подсказки о присутствии животных и здоровье экосистемы. Обновленная модель Perch 2.0 представляет собой значительное продвижение, предлагая более современные предсказания видов птиц, чем ее предшественник.Основным образом, она может более эффективно адаптироваться к новым средам, включая сложные подводные условия, такие как коралловые рифы.Ее набор данных обучения почти в два раза больше предыдущей версии, включая более широкий спектр звуков животных, включая млекопитающих и амфибий, наряду с антропогенным шумом из общественных источников, таких как Xeno-Canto и iNaturalist. Это расширенное обучение позволяет Perch 2.0 раскрыть сложные акустические сцены на тысячи или даже миллионы часов аудиоданных. его универсальность позволяет ответить на различные экологические вопросы, такие как количественное определение новых рождений или оценки популяций животных в определенной области. Приверженность открытой науке очевидна, поскольку Perch 2.0 является открытым исходным кодом и доступен на Kaggle, способствуя широкому принятию научным сообществом.С момента своего первоначального запуска в 2023 году первая версия Perch была загружена более 250 000 раз, интегрируя свои решения с открытым исходным кодом в инструменты для работающих биологов, такие как BirdNet Analyzer Корнелла. Perch уже способствовал значительным открытиям, в том числе новой популяции неуловимого планинского странника в Австралии, демонстрируя ощутимое влияние ИИ на сохранение.Она также доказала свою эффективность в выявлении отдельных птиц и отслеживании обилия птиц, потенциально уменьшая необходимость в традиционных, более инвазивных исследованиях по уловке и выпуску. «Горький урок» в биоакустике: стойкая сила надзора Ключевое понимание, вытекающее из разработки Perch 2.0, бросает вызов преобладающей тенденции в более широком ландшафте ИИ: доминирование больших, самонаблюдаемых моделей фундамента. В таких областях, как обработка естественного языка (NLP) и компьютерное зрение (CV), достижения во многом приходятся от самонаблюдаемых моделей, обученных на огромном количестве необозначенных данных, адаптирующихся к различным последующим задачам с минимальным тонким настройкой. Это наблюдение показывает, что, хотя самоконтролируемые методы являются мощными, их успех часто зависит от невероятно больших моделей и наборов данных без маркировки, иногда сотен миллионов примеров. Напротив, даже большие биоакустические наборы данных, такие как Xeno-Canto и iNaturalist, являются порядками масштаба меньше. Кроме того, самоконтролируемые методы в значительной степени полагаются на специфические цели обучения и увеличение данных, а оптимальные конфигурации для общих аудиопроблем остаются активной областью исследования. Биоакустика, однако, особенно хорошо подходит для контролируемого обучения. Perch 2.0 был обучен на более чем 1,5 миллионах маркированных записей. Исследования показывают, что при наличии достаточного количества маркированных примеров превосходство над контролируемыми моделями становится все труднее. Биоакустика по своей сути имеет дело с более чем 15 000 классами, часто требующими различия между видами в пределах одного рода; очень тонкая проблема.Уменьшение гранулярности этикеток в контролируемом обучении было показано, что ухудшает результаты обучения передачи.Огромное разнообразие птичьего пения и универсальные механизмы звуковой продукции у наземных позвоночников также способствуют успешному переносу моделей, обученных на птичьих вокализациях, на удивительно широкий спектр других биоакустических областей. Эта аналитическая перспектива предполагает, что для доменов с богатыми, мелкозернистыми маркированными данными и специфическими характеристиками, хорошо настроенные контролируемые модели могут достигать передовой производительности без необходимости массового, общепринятого самонаблюдательного предварительного обучения. Под капотом: архитектурные инновации Perch 2.0 Модель основана на EfficientNet-B3, конволюционной остаточной сети с 12 миллионами параметров, которая больше, чем первоначальная модель Perch, чтобы вместить увеличенные данные обучения, но остается относительно небольшой по современным стандартам машинного обучения, способствуя вычислительной эффективности. Этот компактный размер позволяет практикующим запускать модель на потребительском оборудовании, облегчая прочную группировку и рабочие процессы поиска ближайших соседей. Методология обучения включает: Генерализованная смесь: Техника увеличения данных, которая смешивает более двух аудиоисточников для создания композитных сигналов.Это поощряет модель распознавать все вокализации в аудио окне с высокой уверенностью, независимо от громкости. Самодестилляция: процесс, при котором классификатор обучения прототипа действует как «учитель» для линейного классификатора, генерируя мягкие цели, которые улучшают общую производительность модели. Предсказание источника: Самонаблюдаемая вспомогательная потеря, которая тренирует модель, чтобы предсказать исходную запись звукового окна, даже из не перекрывающихся сегментов. Perch 2.0 был подготовлен по многофакторному набору данных, объединяющему Xeno-Canto, iNaturalist, Tierstimmenarchiv и FSD50K, охватывающему почти 15 000 различных классов, в основном этикетки видов. Процедура оценки модели тщательно проверяет ее возможности генерализации по птичьим звуковым диапазонам, задачам идентификации не видов (например, тип вызова) и перехода на неавиационную таксу (мушки, морские млекопитающие, комары), используя эталоны, такие как BirdSet и BEANS. Agile Modeling: революционизируя рабочие процессы консервации Помимо самой модели, Google DeepMind разработала Agile Modeling, общую, масштабируемую и эффективную для данных систему, которая использует возможности Perch для разработки новых биоакустических распознавателей менее чем за час. К основным компонентам Agile Modeling относятся: Высокообобщаемые акустические встраивания: предварительно обученные встраивания Perch служат статической моделью биоакустического фундамента, выступая в качестве экстракторов функций, которые минимизируют голод данных.Это имеет решающее значение, потому что если функция встраивания изменится во время обучения, переработка больших наборов данных займет дни, препятствуя масштабируемости. Индексированный аудиопоиск: Это позволяет эффективно создавать наборы данных для обучения классификаторам. Пользователь предоставляет примерный аудиоклип, который встраивается и затем сравнивается с предварительно вычислимыми встраиваниями, чтобы поверхность звуков для аннотации выглядела наиболее похожей.Этот «векторный поиск» может обрабатывать более миллиона встраиваний в секунду (около 1500 часов звука) на персональном компьютере, предоставляя эффективную альтернативу брутной силе человеческого обзора, особенно для редких сигналов. Эффективный активный учебный цикл: Простой (часто линейный) классификатор обучается на аннотированных встраиваниях. Поскольку встраивания предварительно вычислены и статичны, обучение занимает менее минуты, без специализированного оборудования. Активный учебный цикл затем выводит новых кандидатов для аннотации, сочетая примеры с лучшими баллами с теми из широкого спектра баллов квантилов («Top 10 + quantile»), обеспечивая как точность, так и разнообразие в сборе данных. Эта система гарантирует, что классификаторы могут быть разработаны быстро и адаптивно, что делает возможным эффективное решение новых биоакустических проблем. Влияние реального мира: тематические исследования в действии Эффективность Perch и Agile Modeling была продемонстрирована в различных реальных проектах по сохранению окружающей среды: Гавайские медоносцы: отслеживание исчезающих видов Гавайские медоносцы сталкиваются с серьезными угрозами от птичьей малярии, распространяемой неродными комарами. Мониторинг ювенильных вокализаций может указывать на снижение распространенности заболеваний и репродуктивный успех, но эти вызовы часто трудно отличить.Лаборатория LOHE Bioacoustics в Университете Гавайи использовала Perch для мониторинга популяций медоносцев, обнаруживая звуки почти в 50 раз быстрее, чем их обычные методы, позволяя им контролировать больше видов на больших территориях. В эксперименте с прямым нахождением времени, ручное сканирование 7 часов звука для песен Leiothrix с красным счетом заняло более 4 часов, что дало 137 положительных образцов. Агильное моделирование позволило разработать классификаторы для взрослых и подростковых вокализаций под угрозой исчезновения «Акиапола» и «Алава», достигнув высокой точности (0,97–1,0) и баллов ROC-AUC (≥ 0,81). Коралловые рифы: раскрытие здоровья подводных экосистем Мониторинг проектов восстановления коралловых рифов часто блокируется затруднениями и затратами на наблюдение. Звуковая картина кораллового рифа является жизненно важным показателем его здоровья и функционирования, посредничеством в наборе молодых рыб и кораллов. Встраивания были извлечены с использованием SurfPerch, варианта Perch, оптимизированного для звука кораллового рифа. Человеческое маркирование для этих девяти сонотипов заняло кумулятивные 3.09 часов, что привело к высокоточным классификаторам с минимальным ROC-AUC 0,98. Анализ показал более высокое изобилие и разнообразие сонотипов рыб на здоровых и восстановленных участках по сравнению с деградированными участками, особенно под действием сонотипов «Pulse train» и «Rattle». Это демонстрирует способность системы работать в совершенно другой подводной среде и для звуков, биологическое происхождение которых может быть первоначально неопределено. Рождественский остров: масштабирование мониторинга редких птиц Мониторинг птиц на отдаленных островах, таких как Рождественский остров, имеет решающее значение для сохранения, но является сложным из-за недоступности и отсутствия существующих акустических данных для многих эндемичных видов. Несмотря на чрезвычайно ограниченные первоначальные данные обучения, итеративное активное обучение производило высококачественные классификаторы для всех трех видов, с ROC-AUC выше 0,95, менее чем за час аналитического времени на классификатор. Система продемонстрировала свою масштабируемость до очень больших наборов данных, обрабатывая сотни тысяч часов звука. Практические знания для практикующих Симулированные эксперименты, проведенные наряду с тематическими исследованиями, дали дополнительные практические рекомендации: Качество функции встраивания: Качество функции встраивания существенно влияет на производительность гибкого моделирования.Модели, обученные на биоакустических данных, таких как BirdNet, Perch и SurfPerch, последовательно превосходят более общие аудиопредставления. Стратегия активного обучения: Стратегия активного обучения «Top 10 + quantile» обеспечивает прочный баланс между различными режимами данных (низкий, средний, высокий изобилие), эффективно используя сильные стороны как «самых уверенных» так и «квантовых» стратегий. Управление типами вызовов: Для видов с несколькими типами вызовов «сбалансированный поисковый запрос» (содержащий одну вокализацию каждого типа вызовов), за которым следует аннотация на уровне видов, обычно улучшает производительность на типах вызовов меньшинств, не жертвуя общей точностью на уровне видов. В среднем, человеческое время пересмотра примеров составляло 4,79 секунды на 5-секундный клип, что означает, что рецензент может обрабатывать около 720 примеров в час, достаточно для быстрого производства качественных классификаторов. Заключительные мысли: будущее ИИ в консервации Работа над Perch 2.0 и Agile Modeling демонстрирует широкую эффективность ИИ в биоакустике, удовлетворяя критическим критериям эффективности, адаптивности, масштабируемости и качества в экологических исследованиях и консервации.Эта ускоренная разработка модели обещает облегчить исследования в гораздо более широком диапазоне вопросов, даже когда данные по обучению являются скудными, такие как мониторинг призывов несовершеннолетних к здоровью населения или отслеживание крайне редких птиц. Бесшовная интеграция данных обнаружения из новых классификаторов в понимание экосистем, как это видно с коралловыми рифами и Рождественским островом, является значительным шагом вперед. Несмотря на значительный прогресс, пути для будущей работы включают включение приблизительного поиска ближайшего соседа (ANN) для еще больших наборов данных, усовершенствование аудиопредставлений для биоакустики для улучшения производительности в худших случаях и разработку более сложных стратегий для управления видами с несколькими типами вокализации.Успех этих инструментов, основанных на ИИ, имеет огромный потенциал для повышения понимания как наземных, так и морских экосистем, в конечном итоге способствуя более эффективному управлению исчезающими и инвазивными видами во всем мире.