La intersección entre la inteligencia artificial y la conservación del medio ambiente se está expandiendo rápidamente, ofreciendo herramientas sin precedentes para abordar algunos de los desafíos ecológicos más urgentes del planeta.En la vanguardia de esta evolución está la bioacústica, donde la IA está transformando cómo los científicos monitorean y protegen las especies amenazadas. Los últimos avances en este campo, en particular con modelos como Google DeepMind's Perch, destacan una narrativa convincente sobre el profundo impacto de la IA especializada y las realidades nuancadas del desarrollo de IA en los dominios científicos. Introducción a Perch 2.0: un salto en la bioacústica Históricamente, los conservacionistas se han enfrentado a una tarea difícil: hacer sentido de vastos conjuntos de datos de audio recopilados de ecosistemas salvajes.Estas grabaciones, densas con vocalizaciones de aves, ranas, insectos, ballenas y peces, ofrecen pistas inestimables sobre la presencia animal y la salud del ecosistema. Aquí es donde Perch, un modelo de IA diseñado para analizar datos bioacústicos, entra. El modelo Perch 2.0 actualizado representa un avance significativo, ofreciendo mejores predicciones de las especies de aves fuera de la plataforma que su predecesor. Crucialmente, puede adaptarse más eficazmente a nuevos entornos, incluyendo ambientes submarinos desafiantes como los arrecifes de coral. Su conjunto de datos de entrenamiento es casi dos veces más grande que la versión anterior, incorporando una gama más amplia de vocalizaciones de animales, incluyendo mamíferos y anfibios, junto con el ruido antropogénico de fuentes públicas como Xeno-Canto y iNaturalist. Este entrenamiento ampliado permite a Perch 2.0 desatender escenas acústicas complejas a través de miles o incluso millones de horas de datos de audio. su versatilidad le permite responder a diversas preguntas ecológicas, como cuantificar nuevos nacimientos o estimar poblaciones de animales en una zona dada. El compromiso con la ciencia abierta es evidente, ya que Perch 2.0 es de código abierto y está disponible en Kaggle, fomentando una amplia adopción por la comunidad científica.Desde su lanzamiento inicial en 2023, la primera versión de Perch ha sido descargada más de 250.000 veces, integrando sus soluciones de código abierto en herramientas para biólogos que trabajan, como el BirdNet Analyzer de Cornell. Perch ya ha facilitado descubrimientos significativos, incluyendo una nueva población del elusivo Plains Wanderer en Australia, demostrando el impacto tangible de la IA en la conservación. También ha demostrado ser eficaz en la identificación de aves individuales y el seguimiento de la abundancia de aves, reduciendo potencialmente la necesidad de estudios de captura y liberación tradicionales y más invasivos. La "lección amarga" en la bioacústica: el poder duradero de la supervisión Una visión clave que surge del desarrollo de Perch 2.0 desafía una tendencia predominante en el paisaje más amplio de la IA: el dominio de modelos de fundación grandes, autocontrolados. En campos como el procesamiento del lenguaje natural (NLP) y la visión por ordenador (CV), los avances han venido en gran medida de modelos autocontrolados entrenados en grandes cantidades de datos sin etiquetaje, adaptables a diversas tareas en adelante con un ajuste mínimo. sin embargo, en bioacústica, el éxito de Perch 2.0 refuerza lo que sus desarrolladores denominan “La lección amarga”: que los modelos simples y supervisados siguen siendo difíciles de vencer. Esta observación sugiere que, aunque los métodos auto-supervisados son potentes, su éxito a menudo depende de modelos increíblemente grandes y conjuntos de datos sin etiqueta, a veces cientos de millones de ejemplos. En contraste, incluso los grandes conjuntos de datos bioacústicos como Xeno-Canto y iNaturalist son ordenes de magnitud más pequeños. Además, los métodos auto-supervisados dependen en gran medida de objetivos de formación específicos de dominio y ampliaciones de datos, y las configuraciones óptimas para problemas de audio generales siguen siendo un área activa de investigación. El dominio de la bioacústica, sin embargo, es particularmente adecuado para el aprendizaje supervisado. Perch 2.0 se ha entrenado en más de 1,5 millones de grabaciones etiquetadas. La investigación indica que cuando existen ejemplos etiquetados suficientes, el rendimiento de los modelos supervisados se vuelve cada vez más difícil. La bioacústica se ocupa inherentemente de más de 15.000 clases, a menudo requiriendo distinciones entre especies dentro del mismo género; un problema altamente granulado. Se ha demostrado que la reducción de la granularidad de las etiquetas en la formación supervisada degrada el rendimiento de aprendizaje de transferencia. La inmensa diversidad de la canción de pájaros y los mecanismos universales de producción sonora en vertebrados terrestres también contribuyen a la transferencia exitosa de modelos entrenados en vocalizaciones de pájaros a una gama sorprendentemente amplia de otros dominios bioacústicos. Esta perspectiva analítica sugiere que para dominios con ricos datos etiquetados de grano fino y características específicas, los modelos supervisados bien ajustados pueden lograr un rendimiento de última generación sin la necesidad de un entrenamiento previo masivo y de propósito general. Under the Hood: las innovaciones arquitectónicas de Perch 2.0 El modelo se basa en EfficientNet-B3, una red residual convolutiva con 12 millones de parámetros, que es más grande que el modelo original Perch para acomodar los aumentos de datos de formación, pero sigue siendo relativamente pequeño por los estándares modernos de aprendizaje automático, promoviendo la eficiencia computacional. Este tamaño compacto permite a los profesionales ejecutar el modelo en hardware de clase consumidor, facilitando flujos de trabajo de agrupamiento robusto y búsqueda de vecindario más cercano. La metodología de formación incluye: Mixup generalizado: Técnica de ampliación de datos que mezcla más de dos fuentes de audio para crear señales compuestas. Esto anima al modelo a reconocer todas las vocalizaciones en una ventana de audio con alta confianza, independientemente del volumen. Autodestilación: Un proceso en el que un clasificador de aprendizaje de prototipo actúa como un "maestro" al clasificador lineal, generando objetivos suaves que mejoran el rendimiento general del modelo. Predición de fuente: Una pérdida auxiliar auto-supervisada que capacita al modelo para predecir la grabación de fuente original de una ventana de audio, incluso de segmentos no superpuestos. Perch 2.0 fue entrenado en un conjunto de datos multi-taxa que combina Xeno-Canto, iNaturalist, Tierstimmenarchiv y FSD50K, que abarca casi 15.000 clases distintas, principalmente etiquetas de especies. El procedimiento de evaluación del modelo prueba rigurosamente sus capacidades de generalización a través de sonidos de aves, tareas de identificación no de especies (por ejemplo, tipo de llamada) y transferencia a taxis no aviares (abejas, mamíferos marinos, mosquitos), utilizando criterios de referencia como BirdSet y BEANS. Modelado ágil: revolucionando los flujos de trabajo de conservación Más allá del modelo mismo, Google DeepMind ha desarrollado Agile Modeling, un sistema general, escalable y eficiente en datos que aprovecha las capacidades de Perch para desarrollar nuevos reconocedores bioacústicos en menos de una hora. Los componentes básicos de Agile Modeling incluyen: Incorporaciones acústicas altamente generalizables: Las incorporaciones pre-entrenadas de Perch sirven como un modelo de fundación bioacústica estática, actuando como extractores de características que minimizan el hambre de datos. Esto es crucial porque si la función de incorporación cambió durante el entrenamiento, el procesamiento de conjuntos de datos masivos tardaría días, dificultando la escalabilidad. Las incorporaciones estáticas permiten un ciclo de aprendizaje activo ininterrumpido, reduciendo los tiempos de búsqueda y recuperación de clasificación a segundos. Busca de audio indexada: Esto permite la creación eficiente de conjuntos de datos de entrenamiento de clasificadores. Un usuario proporciona un ejemplo de clip de audio, que se incorpora y luego se compara con las incorporaciones precomputadas para superficiar los sonidos más similares para la anotación. Esta “busca vectorial” puede procesar más de un millón de incorporaciones por segundo (alrededor de 1.500 horas de audio) en un ordenador personal, proporcionando una alternativa eficiente a la revisión humana de fuerza bruta, especialmente para señales raras. Loop de aprendizaje activo eficiente: Un clasificador simple (a menudo lineal) se capacita sobre las incorporaciones anotadas. Debido a que las incorporaciones son precomputadas y estáticas, el entrenamiento dura menos de un minuto, sin hardware especializado. El loop de aprendizaje activo luego superpone nuevos candidatos para la anotación, combinando ejemplos de puntuación superior con los de una amplia gama de cuánticos de puntuación (“top 10 + cuántico”), asegurando tanto la precisión como la diversidad en la recopilación de datos. Este sistema garantiza que los clasificadores se puedan desarrollar de forma rápida y adaptativa, lo que permite a los expertos del dominio abordar los nuevos desafíos bioacústicos de manera eficiente. Impacto en el mundo real: estudios de caso en acción La eficacia de Perch y Agile Modeling ha sido demostrada a través de diversos proyectos de conservación del mundo real: Hawaiian Honeycreepers: rastreo de especies en peligro de extinción Los mamíferos hawaianos se enfrentan a graves amenazas de la malaria aviar, que se propaga por mosquitos no nativos. El monitoreo de las vocalizaciones juveniles puede indicar una reducción de la prevalencia de la enfermedad y el éxito reproductivo, pero estas llamadas a menudo son difíciles de distinguir.El LOHE Bioacoustics Lab de la Universidad de Hawai utilizó Perch para monitorear las poblaciones de mamíferos, encontrando sonidos casi 50 veces más rápidamente que sus métodos habituales, lo que les permitió monitorear más especies en áreas más grandes. En un experimento de timing directo, el escaneo manual de 7 horas de audio para las canciones de Leiothrix con billetes rojos tomó más de 4 horas, produciendo 137 muestras positivas.En contraste, la revisión de las 500 muestras superiores superpuestas por una búsqueda vectorial tomó menos de 20 minutos, produciendo 472 detecciones positivas, haciendo el enfoque de búsqueda vectorial 43 veces más rápido. El Modelo Ágil permitió el desarrollo de clasificadores para vocalizaciones adultas y juveniles de ‘Akiapōlā’au y ‘Alaw̄ı en peligro de extinción, logrando una alta precisión (0.97–1.0) y puntuaciones ROC-AUC (≥ 0.81). Los arrecifes de coral: desvelando la salud del ecosistema submarino El monitoreo de los proyectos de restauración de arrecifes de coral a menudo está bloqueado por la dificultad y el costo de la observación.El sonido de un arrecife de coral es un indicador vital de su salud y funcionamiento, mediando el reclutamiento de peces y corales juveniles.El modelado ágil se utilizó para crear clasificadores para nueve sonotipos de peces hipotéticos en un entorno de arrecifes de coral en Indonesia. Las incorporaciones se extrajeron utilizando SurfPerch, una variante de Perch optimizada para el audio de los arrecifes de coral. El etiquetado humano para estos nueve sonotipos tomó un tiempo acumulativo de 3.09 horas, lo que dio lugar a clasificadores altamente precisos con una ROC-AUC mínima de 0.98. El análisis reveló una mayor abundancia y diversidad de sonotipos de peces en sitios sanos y restaurados en comparación con sitios degradados, particularmente impulsados por los sonotipos “Pulse Train” y “Rattle”. Isla de Navidad: monitoreo a escala para aves raras El monitoreo de las aves en islas remotas como Christmas Island es crucial para la conservación, pero es desafiante debido a la inaccesibilidad y la falta de datos acústicos existentes para muchas especies endémicas. A pesar de los datos de formación inicial extremadamente limitados, el aprendizaje activo iterativo produjo clasificadores de alta calidad para todas las tres especies, con ROC-AUC mayor que 0,95, en menos de una hora de tiempo de analista por clasificador. El sistema demostró su escalabilidad a conjuntos de datos muy grandes, procesando cientos de miles de horas de audio. Insights prácticos para los practicantes Los experimentos simulados llevados a cabo junto con los estudios de caso ofrecieron recomendaciones prácticas adicionales: Calidad de la función de incorporación: La calidad de la función de incorporación influye significativamente en el rendimiento de la modelización ágil. Los modelos entrenados en datos específicos de bioacústica, como BirdNet, Perch y SurfPerch, superan consistentemente las representaciones de audio más generales. Estrategia de aprendizaje activo: La estrategia de aprendizaje activo "top 10 + cuántico" proporciona un balance robusto en diferentes regímenes de datos (bajo, medio, alto abundancia), aprovechando eficazmente los puntos fuertes de ambas estrategias "más confianza" y "cuántico". Gestión de tipos de llamadas: Para las especies con varios tipos de llamadas, una “cuestión de búsqueda equilibrada” (que contiene una vocalización de cada tipo de llamadas) seguida de la anotación a nivel de especies generalmente mejora el rendimiento en los tipos de llamadas minoritarios sin sacrificar la precisión general a nivel de especies. En promedio, el tiempo de revisión humana de los ejemplos fue de 4,79 segundos por clip de 5 segundos, lo que significa que un revisor puede procesar alrededor de 720 ejemplos por hora, lo suficiente para producir clasificadores de buena calidad rápidamente. Conclusión: El futuro de la IA en la conservación El trabajo en Perch 2.0 y Modelado Ágil demuestra la amplia eficacia de la IA en bioacústica, cumpliendo criterios críticos de eficiencia, adaptabilidad, escalabilidad y calidad en investigación y conservación ecológicas.Este desarrollo acelerado de modelos promete facilitar investigaciones en una gama mucho más amplia de cuestiones, incluso cuando los datos de formación son escasos, como el seguimiento de las llamadas juveniles para la salud de la población o el seguimiento de aves extremadamente raras. La integración suave de datos de detección de clasificadores nuevos en la comprensión del ecosistema, como se ve con los arrecifes de coral y la isla de Navidad, marca un paso importante hacia adelante. Si bien se han logrado avances significativos, las vías para el trabajo futuro incluyen la incorporación de la búsqueda aproximada del vecino más cercano (ANN) para conjuntos de datos aún más grandes, el refinamiento de las representaciones de audio para la bioacústica para mejorar el rendimiento en los peores casos, y el desarrollo de estrategias más sofisticadas para el manejo de especies con varios tipos de vocalización.