著者:  （１）浙江大学のQian Yang氏、平等な貢献。この研究は、Qian Yang氏がアリババグループでインターンシップをしていたときに行われた。  （２）アリババグループのJin Xu氏、平等な貢献。  (3) Wenrui Liu、浙江大学。  (4) Yunfei Chu、アリババグループ。  (5) 周暁環、アリババグループ。  (6) Yichong Leng、アリババグループ。  (7) Yuanjun Lv、アリババグループ。  （８）アリババグループの周趙氏、連絡先は周趙氏（zhaozhou@zju.edu.cn）  (9) Yichong Leng、浙江大学 （10）アリババグループのChang Zhou氏および連絡先：Chang Zhou氏（ericzhou.zc@alibaba-inc.com）  (11) 周静仁、アリババグループ。 リンク一覧 要約と1. はじめに 2 関連研究 3 AIR-Benchと3.1 概要 3.2 基礎ベンチマーク 3.3 チャットベンチマーク 3.4 評価戦略 4つの実験 4.1 モデル 4.2 主な結果 4.3 人間による評価と4.4 位置バイアスのアブレーション研究 5 結論と参考文献 基礎ベンチマークの詳細な結果 3.2 基礎ベンチマーク 基礎ディメンションには19,000以上のデータサンプルが収集され、19の異なるサブタスクが含まれています。データソースと統計 データソース。 表 1 に、各機能の公平かつ包括的な評価を保証するために、データ収集プロセス中にさまざまな機能に関連する問題が均等に分散されるようにしました。すべてのオーディオ ソースは、データ漏洩を防ぐために、元の開発またはテスト サブセットから取得されました。 クエリ Q は、質問 q と候補選択肢 C を連結して形成されます。質問 q については、データセットに本質的に質問が含まれており、直接再利用できるため、QA タスクを除いて、主に GPT-4 (OpenAI、2023) を使用して質問を構築します。具体的には、個別のタスクのプロンプトを設計し、デモンストレーションとして 3 つの質問を提供します。その後、GPT-4 はこれらの入力に基づいて追加の多様な質問を生成します。生成された質問は手動で確認され、タスクごとに 50 の異なる質問が選択されます。質問形式の可変性は、特定のテンプレートに過度に依存するのではなく、モデルが指示に従う能力を評価することを目的としています。質問ごとに、さまざまなソースから候補選択肢 C をさらに生成します。1) AVQA (Yang et al.、2022) などの元のデータセットに選択肢があるタスクの場合は、それを直接再利用します。2) 分類タスクの場合は、候補選択肢として機能する事前に決定されたカテゴリのセットからオプションをランダムに選択します。 3) その他のタスクでは、GPT-4に、1つの正しい選択肢と3つの誤った選択肢からなる候補の選択肢を直接生成するように指示します。これらの誤った選択肢が正しい選択肢に似ているようにすることで、単一選択タスクがより困難になります。参照回答は、黄金の正しい選択肢です。位置バイアスを回避するために、候補の選択肢はランダムにシャッフルされます。 単一選択クエリと参照。 この論文は、CC BY 4.0 DEED ライセンスの下で 。 arxiv で公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

このオーディオは、ストーリーの元の言語で制作されています。

AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータサンプル

About Author

コメント

ラベル

この記事は

Related Stories

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

ワークフローを10倍に向上させる方法: 必須アプリ17選

Telegram: クリプト島と本土を結ぶ橋

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

ワークフローを10倍に向上させる方法: 必須アプリ17選

Telegram: クリプト島と本土を結ぶ橋

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータ サンプル

About Author

コメント

ラベル

この記事は

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

AIR-Bench Foundation: 包括的なオーディオ評価のための 19,000 を超えるデータサンプル