paint-brush
AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータ サンプル@benchmarking

AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータ サンプル

長すぎる; 読むには

AIR-Bench の基礎ベンチマークは、19,000 を超えるサンプルを使用して 19 のオーディオ タスクを評価します。GPT-4 は、モデルに挑戦するように設計された候補の選択肢を使用して、多様な質問を生成しています。
featured image - AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータ サンプル
Benchmarking in Business Technology and Software HackerNoon profile picture
0-item

著者:

(1)浙江大学のQian Yang氏、平等な貢献。この研究は、Qian Yang氏がアリババグループでインターンシップをしていたときに行われた。

(2)アリババグループのJin Xu氏、平等な貢献。

(3) Wenrui Liu、浙江大学。

(4) Yunfei Chu、アリババグループ。

(5) 周暁環、アリババグループ。

(6) Yichong Leng、アリババグループ。

(7) Yuanjun Lv、アリババグループ。

(8)アリババグループの周趙氏、連絡先は周趙氏([email protected]

(9) Yichong Leng、浙江大学

(10)アリババグループのChang Zhou氏および連絡先:Chang Zhou氏([email protected]

(11) 周静仁、アリババグループ。

リンク一覧

要約と1. はじめに

2 関連研究

3 AIR-Benchと3.1 概要

3.2 基礎ベンチマーク

3.3 チャットベンチマーク

3.4 評価戦略

4つの実験

4.1 モデル

4.2 主な結果

4.3 人間による評価と4.4 位置バイアスのアブレーション研究

5 結論と参考文献

基礎ベンチマークの詳細な結果

3.2 基礎ベンチマーク

データソース。基礎ディメンションには19,000以上のデータサンプルが収集され、19の異なるサブタスクが含まれています。データソースと統計


表 1: 基礎ベンチマークの統計。


表 2: チャット ベンチマークの統計と例。


表 1 に、各機能の公平かつ包括的な評価を保証するために、データ収集プロセス中にさまざまな機能に関連する問題が均等に分散されるようにしました。すべてのオーディオ ソースは、データ漏洩を防ぐために、元の開発またはテスト サブセットから取得されました。


単一選択クエリと参照。クエリ Q は、質問 q と候補選択肢 C を連結して形成されます。質問 q については、データセットに本質的に質問が含まれており、直接再利用できるため、QA タスクを除いて、主に GPT-4 (OpenAI、2023) を使用して質問を構築します。具体的には、個別のタスクのプロンプトを設計し、デモンストレーションとして 3 つの質問を提供します。その後、GPT-4 はこれらの入力に基づいて追加の多様な質問を生成します。生成された質問は手動で確認され、タスクごとに 50 の異なる質問が選択されます。質問形式の可変性は、特定のテンプレートに過度に依存するのではなく、モデルが指示に従う能力を評価することを目的としています。質問ごとに、さまざまなソースから候補選択肢 C をさらに生成します。1) AVQA (Yang et al.、2022) などの元のデータセットに選択肢があるタスクの場合は、それを直接再利用します。2) 分類タスクの場合は、候補選択肢として機能する事前に決定されたカテゴリのセットからオプションをランダムに選択します。 3) その他のタスクでは、GPT-4に、1つの正しい選択肢と3つの誤った選択肢からなる候補の選択肢を直接生成するように指示します。これらの誤った選択肢が正しい選択肢に似ているようにすることで、単一選択タスクがより困難になります。参照回答は、黄金の正しい選択肢です。位置バイアスを回避するために、候補の選択肢はランダムにシャッフルされます。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています