人工知能と環境保護の交差点は急速に拡大し、地球上で最も緊急な生態学的課題のいくつかに対処するための前代未聞のツールを提供しています。 この分野における最新の進歩、とりわけGoogleのDeepMindのPerchのようなモデルでは、専門AIの深刻な影響と科学分野におけるAI開発の微妙な現実について説得力のある物語を強調しています。 Perch 2.0: A Leap in Bioacousticsの紹介 歴史的に、保護主義者は恐ろしい課題に直面しました:野生の生態系から収集された膨大なオーディオデータセットを理解する。これらのレコーディングは、鳥、蛙、昆虫、クジラ、魚の声で密集しており、動物の存在と生態系の健康に関する貴重なヒントを提供します。 Perch 2.0 モデルは、先駆者よりも最先端のオフ・ザ・シェルフの鳥種予測を提供することにより大きな進歩を示しています。重要なことに、それはコラール礁のような挑戦的な水下環境を含む新しい環境により効果的に適応することができます。その訓練データセットは、Xeno-CantoやiNaturalistなどの公共のソースからの人為的な騒音に加えて、哺乳類やアンフィビアンを含むより広い範囲の動物の声を組み込む前のバージョンとほぼ2倍の大きさです。 この拡張されたトレーニングにより、Perch 2.0 は数千時間、あるいは数百万時間のオーディオデータにわたって複雑な音声シーンを分散させることができます。 Perch 2.0 はオープンソースで、Kaggle で利用可能で、科学コミュニティの広範な採用を促進しているため、2023 年に最初のリリース以来、Perch の最初のバージョンは 250,000 回以上ダウンロードされ、オープンソースのソリューションを Cornell の BirdNet Analyzer などの働く生物学者向けのツールに統合しています。 Perchはすでに、オーストラリアの難解なPlains Wandererの新しい人口を含む重要な発見を促進し、人工知能の保存における具体的な影響を示しています。 『Bitter Lesson』 in Bioacoustics: The Enduring Power of Supervision』 Perch 2.0 の開発から生まれた重要な洞察は、より広範なAI 環境における主流の傾向に挑戦する:大規模で自己監督された基礎モデルの支配です。自然言語処理(NLP)やコンピュータビジョン(CV)などの分野では、進歩は主に、大量の非ラベル化データで訓練された自己監督モデルから来ており、さまざまな下流のタスクに適応し、最小限の細かい調整を可能にします。 この観察は、自己監督の方法が強力であるにもかかわらず、その成功はしばしば信じられないほど大きなモデルと、しばしば数百万の例のラベルのないデータセットに依存することを示唆しています。それとは対照的に、Xeno-CantoやiNaturalistのような大規模なバイオアコスティックデータセットでさえ、規模が小さい。 しかし、バイオアコスティックの分野は、特に監督された学習に適しています。 Perch 2.0 は、150 万件以上のラベル付きレコーディングで訓練されました。研究は、十分なラベル付きサンプルが利用可能な場合、監督されたモデルを上回ることはますます困難になっています。 バイオアコスティクスは本質的に15000以上のクラスを扱い、しばしば同種の種間の区別を必要とする。非常に細かい問題です。監督された訓練でラベルの細かさを減らすことは、転送学習のパフォーマンスを悪化させることが示されています。鳥の歌と地上脊椎動物における音の生成の普遍的なメカニズムの巨大な多様性は、また、鳥の声に訓練されたモデルの驚くほど幅広い他のバイオアコスティック分野への成功した転送に貢献します。 この分析的視点は、豊富で細かい標識データと特定の特徴を持つドメインでは、よく調整された監督されたモデルは、大規模で一般的な自己監督のプレトレーニングを必要とせずに最先端のパフォーマンスを達成することができることを示唆しています。 Under the Hood: Perch 2.0の建築革新 Perch 2.0の優れたパフォーマンスは、いくつかの主要な建築およびトレーニングイノベーションに根ざしています。モデルはEfficientNet-B3に基づいており、1200万のパラメータを備えた合流残留ネットワークであり、このモデルは、トレーニングデータの増加に対応するためにオリジナルのPerchモデルよりも大きいが、現代の機械学習基準によって比較的小さいままであり、計算効率を促進しています。 このコンパクトなサイズにより、プロフェッショナルは消費者向けのハードウェアでモデルを実行し、強力なクラスターリングと近隣の検索ワークフローを容易にします。 トレーニング方法論は、以下を含む。 Generalized Mixup: 複合信号を作成するために2つ以上のオーディオソースを混合するデータ拡張技術. This encourages the model to recognize all vocalizations in an audio window with high confidence, regardless of loudness. Self-Distillation: プロトタイプ学習分類器が線形分類器に「教師」として作用し、モデルの全体的なパフォーマンスを向上させる柔らかいターゲットを生成するプロセス。 ソース予測: オーディオウィンドウのオリジナルのソースレコーディングを予測するためにモデルを訓練する自己監督の補助的な損失です。 Perch 2.0 は、Xeno-Canto、iNaturalist、Tierstimmenarchiv、および FSD50K を組み合わせたマルチタクシーデータセットで訓練され、主に種のラベルを含むほぼ 15,000 種類の異なるクラスをカバーしました。 モデルの評価手順は、鳥のサウンドスケープ、非種識別タスク(たとえば、呼び出し型)、および非鳥のタクシー(ネズミ、海洋哺乳類、蚊)への移行を、BirdSetやBEANSのようなベンチマークを使用して、一般化能力を厳密にテストします。 Agile Modeling: Revolutionizing Conservation Workflows(アギルモデリング:保存ワークフローを革命化する) モデル自体を超えて、Google DeepMindは、一般的でスケーラブルでデータ効率的なシステムであるAgile Modelingを開発し、Perchの能力を活用して1時間以内に新しいバイオアコスティック認証器を開発しました。 Agile Modelingのコアコンポーネントには以下が含まれます。 高度に一般化可能なアコスティックインベーディング: Perch の事前訓練されたインベーディングは静的バイオアコスティック基礎モデルとして機能抽出器として機能し、データ飢餓を最小限に抑える。これは、インベーディング機能がトレーニング中に変更された場合、大規模なデータセットを再処理するのに数日かかるため、スケーラビリティを妨げます。 インデックスオーディオ検索:これにより、分類器のトレーニングデータセットを効率的に作成できます。ユーザーはサンプルオーディオクリップを提供し、これを埋め込み、それからコンピュータ前の埋め込みと比較して、注釈のための最も類似した音を表面にします。この「ベクトル検索」は、個人コンピュータ上で秒あたり100万件以上の埋め込み(オーディオ時間約1500時間)を処理することができ、特に希少な信号に対しては、人間の brute-force レビューに効率的な代替を提供します。 効率的なアクティブな学習ループ:シンプル(しばしば線形)の分類者は注釈された埋め込みに訓練されています。埋め込みは事前計算および静的であるため、訓練は専門的なハードウェアなしで1分未満です。アクティブな学習ループは次に注釈のための新しい候補者を表面化し、トップスコアの例と幅広いスコアの量子(「トップ10+量子」)の例を組み合わせ、データ収集における精度と多様性を確保します。 このシステムは、分類器を迅速かつ適応的に開発することができ、分野の専門家が新しいバイオアコスティックの課題を効率的に解決できるようにすることを保証します。 リアル・ワールド・インパクト: Case Studies in Action PerchとAgileモデリングの有効性は、さまざまな現実世界の保護プロジェクトを通じて実証されています。 Hawaiian Honeycreepers: Tracking Endangered Species(ハワイのハネクリーパーズ:絶滅危惧種の追跡) ハワイのハネクリーパーは、ネイティブな蚊によって広がる鳥のマラリアから深刻な脅威に直面しています。若年層の声化をモニタリングすることは、疾患の普及率と生殖成功の低下を示す可能性がありますが、これらの呼び出しはしばしば区別するのが困難です。ハワイ大学のLOHEバイオアコスティクスラボは、ハネクリーパーの人口をモニタリングするためにパーチを使用し、通常の方法よりも約50倍速の音を見つけることで、より多くの種をより大きな領域でモニタリングすることができます。 直接タイミング実験では、Red-billed Leiothrixの曲のための7時間のオーディオを手動でスキャンするのに4時間以上かかり、137個の陽性サンプルを生成しました。 Agile Modelingは、絶滅危惧の「Akiapōlā'au」および「Alaw̄ı」の成人および青少年の声の分類器の開発を可能にし、高精度(0.97−1.0)およびROC-AUCスコア(≥0.81)を達成しました。 Coral Reefs: Unveiling Underwater Ecosystem Health(コラル礁:水下生態系の健康を明らかにする) 珊瑚礁の復元プロジェクトの監視は、しばしば観察の困難とコストによって封鎖されます。珊瑚礁のサウンドスケープは、若年魚や珊瑚の募集を介して、その健康と機能の重要な指標です。 埋め込みは、珊瑚礁のオーディオに最適化されたPerchのバージョンであるSurfPerchを使用して抽出されました。これらの9つのソノタイプのための人間のラベル化は累積的に3.09時間を要し、最小ROC-AUCが0.98である高精度の分類を生み出しました。この分析は、健康で回復された場所での魚のソノタイプの豊富さと多様性が、特に「パルス列車」と「ラット」のソノタイプによって推進された劣化した場所に比べて高くなりました。これは、システムが非常に異なる水下環境で動作する能力を示し、生物学的起源が最初は未定義である可能性がある音について示しました。 Christmas Island: Scaling Monitoring for Rare Birds (クリスマス島) クリスマス島のような遠隔の島の鳥の監視は、保護にとって重要ですが、アクセス不可能さと多くのエンドメミック種の既存の音声データの欠如のために困難です。 非常に限られた初期トレーニングデータにもかかわらず、反復活性学習は3種すべてのための高品質の分類器を生成し、ROC-AUCは0.95 を超え、分類器あたりのアナリスト時間の 1 時間未満でシステムは非常に大きなデータセットにスケーラビリティを示し、数十万時間のオーディオを処理しました。 実践者のための実践的な洞察 ケース研究に加えて実施されたシミュレート実験は、さらなる実践的な勧告を提供しました: 組み込み機能の品質:組み込み機能の品質は、柔軟なモデリングのパフォーマンスに大きな影響を及ぼします。BirdNet、Perch、SurfPerchなどのバイオアコスティクス特有のデータで訓練されたモデルは、より一般的なオーディオ表示を一貫して上回ります。 アクティブな学習戦略:「トップ10 + 量子」のアクティブな学習戦略は、さまざまなデータ体制(低、中、高豊かさ)の強力なバランスを提供し、「最も自信のある」と「量子」の両方の戦略の強みを効果的に活用します。 呼び出しタイプ管理:複数の呼び出しタイプを持つ種では、「バランスのとれた検索クエリ」(各呼び出しタイプの1つの vocalizationを含む)は、種レベルの注釈に続いて、一般的に少数派呼び出しタイプのパフォーマンスを向上させますが、種レベルの精度を犠牲にすることなく。 平均して、ヒトのサンプルレビュー時間は 5 秒のクリップあたり 4.79 秒で、レビュー者は 1 時間あたり約 720 サンプルを処理することができ、素晴らしい分類を迅速に生産するのに十分です。 Concluding Thoughts: The Future of AI in Conservation(AIの未来を保存する) Perch 2.0 と Agile Modeling に関する作業は、生態学研究および保護における効率性、適応性、スケーラビリティ、品質のための重要な基準を満たすことによって、バイオアコスティクスにおけるAIの幅広い効果を示しています。この加速されたモデル開発は、訓練データが不足している場合でも、人口の健康に対する若年層の呼びかけを監視したり、極めて希少な鳥の追跡など、より幅広い範囲の問題に対する調査を容易にすることを約束します。 新しい分類機器からの検出データを、珊瑚礁やクリスマス島で観察されたように、生態系理解にシームレスに統合することは、重要な一歩を踏み出します。 重要な進展が行われている一方で、将来の作業のための道筋は、さらに大きなデータセットのほぼ近隣の検索(ANN)を組み込むこと、バイオアコスティクスのためのオーディオ表示を改良し、最悪のケースでのパフォーマンスを改善し、複数の音声型の種に対処するためのより複雑な戦略を開発することです。