저자:  (1) Qian Yang, 저장대학교, 동등 기여. 이 연구는 Qian Yang이 알리바바 그룹에서 인턴으로 재직하는 동안 진행되었습니다.  (2) 진쉬, 알리바바 그룹, 동등한 기여;  (3) 저장대학교 Wenrui Liu;  (4) 알리바바 그룹의 윤페이 추(Yunfei Chu);  (5) 알리바바 그룹의 샤오환 저우;  (6) 이총 렝(Yichong Leng), 알리바바 그룹;  (7) 알리바바 그룹 Yuanjun Lv;  (8) 알리바바 그룹 및 주자오(zhaozhou@zju.edu.cn)에게 연락하기 위한 주자오.  (9) 절강대학교 Yichong Leng  (10) 창저우(Chang Zhou), 알리바바 그룹 및 창저우에 대응(ericzhou.zc@alibaba-inc.com);  (11) 저우징렌(Jingren Zhou), 알리바바 그룹.  링크 표   초록 및 1. 서론   2 관련 작업   3 AIR-Bench 및 3.1 개요   3.2 기초 벤치마크   3.3 채팅 벤치마크   3.4 평가 전략  4가지 실험   4.1 모델   4.2 주요 결과   4.3 인체 평가 및 4.4 위치 편향의 절제 연구   5 결론 및 참고문헌   기초 벤치마크의 자세한 결과   3.2 기초 벤치마크    우리는 19개의 다른 하위 작업을 포함하는 기초 차원에 대한 19,000개 이상의 데이터 샘플을 수집했습니다. 데이터 소스와 통계  데이터 소스.  표 1에 나와 있습니다. 각 역량에 대한 공정하고 포괄적인 평가를 보장하기 위해 데이터 수집 프로세스 동안 다양한 역량과 관련된 문제를 균등하게 분배하는 것을 목표로 했습니다. 모든 오디오 소스는 데이터 유출을 방지하기 위해 원래 개발 또는 테스트 하위 집합에서 가져왔습니다.    질의 Q는 질문 q와 후보 선택 C를 연결하여 형성됩니다. 질문 q의 경우, 데이터 세트가 본질적으로 질문을 포함하고 직접 재사용할 수 있기 때문에 QA 작업을 제외하고 주로 GPT-4(OpenAI, 2023)를 통해 질문을 구성합니다. 구체적으로, 우리는 별개의 작업에 대한 프롬프트를 설계하고 데모로 세 가지 질문을 제공합니다. 그런 다음 GPT-4는 이러한 입력을 기반으로 다양한 추가 질문을 생성합니다. 생성된 질문은 수동으로 검토하고 각 작업에 대해 50개의 다른 질문이 선택됩니다. 질문 형식의 다양성은 특정 템플릿에 지나치게 의존하기보다는 모델이 지침을 따르는 능력을 평가하는 것을 목표로 합니다. 각 질문에 대해 우리는 다른 소스에서 후보 선택 C를 추가로 생성합니다. 1) AVQA(Yang et al., 2022)와 같은 원본 데이터 세트의 선택 사항이 있는 작업의 경우, 우리는 그것을 직접 재사용합니다. 2) 분류 작업의 경우, 우리는 후보 선택 사항으로 사용할 미리 정해진 범주 집합에서 무작위로 옵션을 선택합니다. 3) 다른 작업의 경우, GPT-4가 올바른 옵션 하나와 잘못된 옵션 세 개로 구성된 후보 선택 사항을 직접 생성하도록 합니다. 이러한 잘못된 옵션이 올바른 옵션과 유사하도록 권장하여 단일 선택 작업을 더 어렵게 만듭니다. 참조 답변은 황금 정답입니다. 위치 편향을 피하기 위해 후보 선택 사항은 무작위로 섞습니다. 단일 선택형 질의 및 참조.  이 논문은 CC BY 4.0 DEED 라이선스에 따라   . arxiv에서 볼 수 있습니다

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

이 오디오는 이야기의 원래 언어로 제작되었습니다!

AIR-Bench Foundation: 포괄적인 오디오 평가를 위한 19,000개 이상의 데이터 샘플

About Author

코멘트

태그 걸기

이 기사는 다음에서 발표되었습니다.

Related Stories

성공적인 클라우드 마이그레이션을 위한 전체 가이드: 전략 및 모범 사례

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

Floki의 Valhalla가 인도 스리랑카 투어의 보조 후원자로 합류

성공적인 클라우드 마이그레이션을 위한 전체 가이드: 전략 및 모범 사례

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

보이지 않는 레이어: 사용자 인터뷰가 대체할 수 없는 자산인 이유

Floki의 Valhalla가 인도 스리랑카 투어의 보조 후원자로 합류

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps