AIR-Bench Foundation: 포괄적인 오디오 평가를 위한 19,000개 이상의 데이터 샘플

~에 의해 Benchmarking in Business Technology and Software2m2024/10/16

NSO

너무 오래; 읽다

AIR-Bench의 기초 벤치마크는 19,000개 이상의 샘플을 사용하여 19개의 오디오 작업을 평가합니다. GPT-4는 모델에 도전하도록 설계된 후보 선택과 함께 다양한 질문을 생성합니다.

featured image - AIR-Bench Foundation: 포괄적인 오디오 평가를 위한 19,000개 이상의 데이터 샘플

저자:

(1) Qian Yang, 저장대학교, 동등 기여. 이 연구는 Qian Yang이 알리바바 그룹에서 인턴으로 재직하는 동안 진행되었습니다.

(2) 진쉬, 알리바바 그룹, 동등한 기여;

(3) 저장대학교 Wenrui Liu;

(4) 알리바바 그룹의 윤페이 추(Yunfei Chu);

(5) 알리바바 그룹의 샤오환 저우;

(6) 이총 렝(Yichong Leng), 알리바바 그룹;

(7) 알리바바 그룹 Yuanjun Lv;

(8) 알리바바 그룹 및 주자오([email protected])에게 연락하기 위한 주자오.

(9) 절강대학교 Yichong Leng

(10) 창저우(Chang Zhou), 알리바바 그룹 및 창저우에 대응([email protected]);

(11) 저우징렌(Jingren Zhou), 알리바바 그룹.

링크 표

4가지 실험

4.3 인체 평가 및 4.4 위치 편향의 절제 연구

5 결론 및 참고문헌

기초 벤치마크의 자세한 결과

3.2 기초 벤치마크

데이터 소스. 우리는 19개의 다른 하위 작업을 포함하는 기초 차원에 대한 19,000개 이상의 데이터 샘플을 수집했습니다. 데이터 소스와 통계

표 1에 나와 있습니다. 각 역량에 대한 공정하고 포괄적인 평가를 보장하기 위해 데이터 수집 프로세스 동안 다양한 역량과 관련된 문제를 균등하게 분배하는 것을 목표로 했습니다. 모든 오디오 소스는 데이터 유출을 방지하기 위해 원래 개발 또는 테스트 하위 집합에서 가져왔습니다.

단일 선택형 질의 및 참조. 질의 Q는 질문 q와 후보 선택 C를 연결하여 형성됩니다. 질문 q의 경우, 데이터 세트가 본질적으로 질문을 포함하고 직접 재사용할 수 있기 때문에 QA 작업을 제외하고 주로 GPT-4(OpenAI, 2023)를 통해 질문을 구성합니다. 구체적으로, 우리는 별개의 작업에 대한 프롬프트를 설계하고 데모로 세 가지 질문을 제공합니다. 그런 다음 GPT-4는 이러한 입력을 기반으로 다양한 추가 질문을 생성합니다. 생성된 질문은 수동으로 검토하고 각 작업에 대해 50개의 다른 질문이 선택됩니다. 질문 형식의 다양성은 특정 템플릿에 지나치게 의존하기보다는 모델이 지침을 따르는 능력을 평가하는 것을 목표로 합니다. 각 질문에 대해 우리는 다른 소스에서 후보 선택 C를 추가로 생성합니다. 1) AVQA(Yang et al., 2022)와 같은 원본 데이터 세트의 선택 사항이 있는 작업의 경우, 우리는 그것을 직접 재사용합니다. 2) 분류 작업의 경우, 우리는 후보 선택 사항으로 사용할 미리 정해진 범주 집합에서 무작위로 옵션을 선택합니다. 3) 다른 작업의 경우, GPT-4가 올바른 옵션 하나와 잘못된 옵션 세 개로 구성된 후보 선택 사항을 직접 생성하도록 합니다. 이러한 잘못된 옵션이 올바른 옵션과 유사하도록 권장하여 단일 선택 작업을 더 어렵게 만듭니다. 참조 답변은 황금 정답입니다. 위치 편향을 피하기 위해 후보 선택 사항은 무작위로 섞습니다.