AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータサンプル

に Benchmarking in Business Technology and Software2m2024/10/16

NSO

長すぎる; 読むには

AIR-Bench の基礎ベンチマークは、19,000 を超えるサンプルを使用して 19 のオーディオタスクを評価します。GPT-4 は、モデルに挑戦するように設計された候補の選択肢を使用して、多様な質問を生成しています。

featured image - AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータサンプル

著者:

（１）浙江大学のQian Yang氏、平等な貢献。この研究は、Qian Yang氏がアリババグループでインターンシップをしていたときに行われた。

（２）アリババグループのJin Xu氏、平等な貢献。

(3) Wenrui Liu、浙江大学。

(4) Yunfei Chu、アリババグループ。

(5) 周暁環、アリババグループ。

(6) Yichong Leng、アリババグループ。

(7) Yuanjun Lv、アリババグループ。

（８）アリババグループの周趙氏、連絡先は周趙氏（[email protected]）

(9) Yichong Leng、浙江大学

（10）アリババグループのChang Zhou氏および連絡先：Chang Zhou氏（[email protected]）

(11) 周静仁、アリババグループ。

リンク一覧

4つの実験

4.3 人間による評価と4.4 位置バイアスのアブレーション研究

5 結論と参考文献

基礎ベンチマークの詳細な結果

3.2 基礎ベンチマーク

データソース。基礎ディメンションには19,000以上のデータサンプルが収集され、19の異なるサブタスクが含まれています。データソースと統計

表 1 に、各機能の公平かつ包括的な評価を保証するために、データ収集プロセス中にさまざまな機能に関連する問題が均等に分散されるようにしました。すべてのオーディオソースは、データ漏洩を防ぐために、元の開発またはテストサブセットから取得されました。

単一選択クエリと参照。クエリ Q は、質問 q と候補選択肢 C を連結して形成されます。質問 q については、データセットに本質的に質問が含まれており、直接再利用できるため、QA タスクを除いて、主に GPT-4 (OpenAI、2023) を使用して質問を構築します。具体的には、個別のタスクのプロンプトを設計し、デモンストレーションとして 3 つの質問を提供します。その後、GPT-4 はこれらの入力に基づいて追加の多様な質問を生成します。生成された質問は手動で確認され、タスクごとに 50 の異なる質問が選択されます。質問形式の可変性は、特定のテンプレートに過度に依存するのではなく、モデルが指示に従う能力を評価することを目的としています。質問ごとに、さまざまなソースから候補選択肢 C をさらに生成します。1) AVQA (Yang et al.、2022) などの元のデータセットに選択肢があるタスクの場合は、それを直接再利用します。2) 分類タスクの場合は、候補選択肢として機能する事前に決定されたカテゴリのセットからオプションをランダムに選択します。 3) その他のタスクでは、GPT-4に、1つの正しい選択肢と3つの誤った選択肢からなる候補の選択肢を直接生成するように指示します。これらの誤った選択肢が正しい選択肢に似ているようにすることで、単一選択タスクがより困難になります。参照回答は、黄金の正しい選択肢です。位置バイアスを回避するために、候補の選択肢はランダムにシャッフルされます。