576 測定値

生成的理解による大規模音声言語モデルのベンチマーク

に Benchmarking in Business Technology and Software5m2024/10/16

長すぎる; 読むには

AIR-Bench は、基礎ベンチマークとチャットベンチマークを使用してオーディオ信号の理解とインタラクションに関する LALM を評価する新しいベンチマークであり、将来の改善のための洞察を提供します。

featured image - 生成的理解による大規模音声言語モデルのベンチマーク

著者:

（１）浙江大学のQian Yang氏、平等な貢献。この研究は、Qian Yang氏がアリババグループでインターンシップをしていたときに行われた。

（２）アリババグループのJin Xu氏、平等な貢献。

(3) Wenrui Liu、浙江大学。

(4) Yunfei Chu、アリババグループ。

(5) 周暁環、アリババグループ。

(6) Yichong Leng、アリババグループ。

(7) Yuanjun Lv、アリババグループ。

（８）アリババグループの周趙氏、連絡先は周趙氏（[email protected]）

(9) Yichong Leng、浙江大学

（10）アリババグループのChang Zhou氏および連絡先：Chang Zhou氏（[email protected]）

(11) 周静仁、アリババグループ。

リンク一覧

4つの実験

4.3 人間による評価と4.4 位置バイアスのアブレーション研究

5 結論と参考文献

基礎ベンチマークの詳細な結果

抽象的な

最近、指示に従うオーディオ言語モデルが、人間とオーディオのインタラクションにおいて広く注目を集めています。しかし、オーディオ中心のインタラクション機能を評価できるベンチマークが存在しないことが、この分野の進歩を妨げています。以前のモデルは、主に自動音声認識 (ASR) などのさまざまな基本タスクの評価に焦点を当てており、オーディオを中心としたオープンエンドの生成機能の評価が欠けています。したがって、大規模オーディオ言語モデル (LALM) ドメインの進歩を追跡し、将来の改善のためのガイダンスを提供することは困難です。このホワイトペーパーでは、LALM がさまざまな種類のオーディオ信号 (人間の音声、自然音、音楽を含む) を理解し、さらにテキスト形式で人間と対話する能力を評価するために設計された最初のベンチマークである AIR-Bench (Audio InstRuction Benchmark) を紹介します。AIR-Bench には、基礎ベンチマークとチャットベンチマークの 2 つの側面があります。前者は、約 19,000 の単一選択質問を含む 19 のタスクで構成され、LALM の基本的な単一タスク能力を検査することを目的としています。後者には、2,000 の自由形式の質問と回答のデータインスタンスが含まれており、複雑なオーディオに対するモデルの理解と指示に従う能力を直接評価します。両方のベンチマークでは、モデルが直接仮説を生成する必要があります。GPT-4 などの高度な言語モデルを活用して、オーディオのメタ情報に基づいて生成された仮説のスコアを評価する統合フレームワークを設計します。実験結果は、GPT-4 ベースの評価と人間による評価の間に高いレベルの一貫性があることを示しています。評価結果を通じて既存の LALM の限界を明らかにすることで、AIR-Bench は将来の研究の方向性に関する洞察を提供できます。

1 はじめに

近年の人工汎用知能の進歩は、大規模言語モデル (LLM) の出現によって大きく推進されてきました (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023a,b; Bai et al., 2023a)。これらのモデルは、知識を保持し、複雑な推論を行い、人間の意図に従って問題を解決するという点で、優れた能力を発揮します。大規模言語モデル (LLM) の目覚ましい進歩に刺激され、大規模音声言語モデル (LALM) の領域は革命的な変革を遂げました。豊富な音声信号を知覚して理解し、さらに人間の指示に従ってテキスト応答を生成するために、SALMONN (Tang et al., 2023a)、BLSP (Wang et al., 2023a)、Speech-LLaMA (Wu et al., 2023a)、Qwen-Audio (Chu et al., 2023) など、音声中心の対話に有望な機能を示す多くの研究が提案されています。

しかし、これまでの LALM (Tang et al., 2023a; Wang et al., 2023a; Wu et al., 2023a; Chu et al., 2023; Huang et al., 2023b; Shen et al., 2023; Gong et al., 2023; Wang et al., 2023b) は、主に特定の基本タスクの評価に集中していました。これらのモデルの生成的指示追従能力を評価するための標準化されたベンチマークがないため、会話スキルを実証するために、例を紹介したり、チャットモデルを公開実験用にリリースしたりすることに依存していました。このアプローチは、さまざまな研究努力にわたって公平かつ客観的な比較を行う上で大きな課題をもたらします。さらに、モデルの既存の制限がわかりにくくなり、LALM の領域内での進歩を監視する能力を妨げる傾向があります。

オーディオ領域での評価については、研究努力の大部分は、ASR用のLibriSpeech（Panayotov et al.、2015）やCommon Voiceベンチマーク（Ardila et al.、2019）など、個々のタスクに合わせたベンチマークの作成に集中してきました。タスク固有のもの以外にも、SUPERB（Yang et al.、2021a）やHEAR（Turian et al.、2021）などのベンチマークは、さまざまなタスクにおける自己教師あり学習モデルの汎用性をテストするために設計されています。LALMの指示に従う能力の評価に関しては、私たちの知る限り、Dynamic-SUPERB（Huang et al.、2023a）がこの側面に特化した唯一のベンチマークです。ただし、Dynamic-SUPERBは人間の音声処理のみに焦点を当てており、対話などのオープンエンドの生成におけるモデルの能力の評価には至っていません。

本稿では、LALM がさまざまなオーディオ信号を理解し、指示に従って対話する能力を評価するために設計された新しいベンチマークである AIR-Bench (Audio InstRuction Benchmark) を紹介します。AIR-Bench は、3 つの主な機能によって特徴付けられます。1) 包括的なオーディオ信号カバレッジ。AIR-Bench は、人間の音声、自然音、音楽などのオーディオ信号を包括的にカバーし、LALM の機能を包括的に評価します。2) 階層的なベンチマーク構造。ベンチマークは、基礎ベンチマークとチャットベンチマークで構成されています。基礎ベンチマークは、19 の個別のオーディオタスクと 19,000 を超える単一選択の質問で構成され、各質問は特定の基礎能力のみに焦点を当てています。GPT-4 (OpenAI、2023) は、専用に設計されたプロンプトを使用して、質問と候補の選択肢を拡張します。チャットコンポーネントは、2,000 を超える音声プロンプトの自由形式の質問で構成されています。オーディオの複雑さを高め、実際の状況で遭遇する複雑なオーディオに近づけるために、音量制御と時間的ずれを組み込んだ新しいオーディオミキシング戦略を提案します。具体的には、2 つのオーディオクリップのミキシングプロセス中に音量を調整し、異なる時間オフセットを導入します。その結果生じる相対的な音量と時間的場所の変化は追加のメタ情報として記録され、オーディオのより包括的なテキスト表現に貢献します。データの品質は、GPT-4 による自動フィルタリングとその後の手動検証によって維持されます。3) 統一された客観的で再現可能な評価フレームワーク。モデルは、実際のシナリオとより正確に一致させるために、両方のベンチマークにわたって直接仮説シーケンスを生成する必要があります。次に、GPT-4 を使用して、慎重に構築されたプロンプトを通じてメタ情報が与えられた参照回答を生成します。参照と仮説が与えられた場合、Liu ら (2023b)、Bai ら (2023a) に従います。 (2023b)、GPT-4 (OpenAI、2023) を使用して、選択が基礎ベンチマークに対して正しいかどうかを判断し、チャットベンチマークの仮説にスコアを付けます。さらに、位置の偏りを排除するために、位置を入れ替えて 2 回目のスコアリングを実行します。9 つの LALM に関する包括的な実験に基づいて、既存の LALM は音声理解または指示に従う機能が限られており、この分野では改善の余地が大きいことがわかりました。

私たちの貢献は以下のように要約されます:

• AIR-Bench は、音声、自然音、音楽など、幅広いオーディオを網羅する、大規模なオーディオ言語モデルの最初の生成評価ベンチマークです。AIR-Bench は大規模で階層的なベンチマークで、19 のオーディオタスクと 19,000 を超える単一選択の質問を含む基礎ベンチマークと、包括的な評価のために綿密にキュレーションされた 2,000 を超える自由形式のオーディオ質問を含むチャットベンチマークで構成されています。

• オーディオの複雑さを高めるために、音量制御と時間的ずれを備えた新しいオーディオミキシング戦略を提案します。

• 生成仮説の質を評価するために、統一された客観的かつ再現可能な評価フレームワークが開発されました。

• ベンチマークを目的として、9 つのモデルを徹底的に評価しました。評価コード、データセット、オープンリーダーボードは近日中に公開される予定です。