Mga may-akda:  (1) Qian Yang, Zhejiang University, Pantay na kontribusyon. Ang gawaing ito ay isinagawa sa panahon ng internship ni Qian Yang sa Alibaba Group;  (2) Jin Xu, Alibaba Group, Pantay na kontribusyon;  (3) Wenrui Liu, Zhejiang University;  (4) Yunfei Chu, Alibaba Group;  (5) Xiaohuan Zhou, Alibaba Group;  (6) Yichong Leng, Alibaba Group;  (7) Yuanjun Lv, Alibaba Group;  (8) Zhou Zhao, Alibaba Group at Tumutugma kay Zhou Zhao (zhaozhou@zju.edu.cn);  (9) Yichong Leng, Zhejiang University  (10) Chang Zhou, Alibaba Group at Kaugnay ng Chang Zhou (ericzhou.zc@alibaba-inc.com);  (11) Jingren Zhou, Alibaba Group.  Talaan ng mga Link   Abstrak at 1. Panimula   2 Kaugnay na Gawain   3 AIR-Bench at 3.1 Pangkalahatang-ideya   3.2 Foundation Benchmark   3.3 Benchmark ng Chat   3.4 Estratehiya sa Pagsusuri  4 Mga Eksperimento   4.1 Mga Modelo   4.2 Pangunahing Resulta   4.3 Pagsusuri ng Tao at 4.4 Pag-aaral ng Ablation ng Posisyonal na Pagkiling   5 Konklusyon at Sanggunian   Isang Detalyadong Resulta ng Foundation Benchmark   3.2 Foundation Benchmark    Nakakolekta kami ng mahigit 19k na sample ng data para sa dimensyon ng pundasyon, na sumasaklaw sa 19 na magkakaibang subtask. Ang data source at statistics  Pinagmulan ng Data.  ay ibinigay sa Talahanayan 1. Upang matiyak ang isang patas at komprehensibong pagsusuri ng bawat kakayahan, nilalayon namin ang pantay na pamamahagi ng mga problemang nauugnay sa iba't ibang kakayahan sa panahon ng proseso ng pangongolekta ng data. Nakuha ang lahat ng audio source mula sa orihinal na dev o mga subset ng pagsubok upang maiwasan ang pagtagas ng data.    Ang query Q ay nabuo sa pamamagitan ng pagsasama-sama ng isang tanong q at mga pagpipilian ng kandidato C. Para sa tanong na q, pangunahing bumubuo kami ng mga tanong sa pamamagitan ng GPT-4 (OpenAI, 2023), maliban sa mga gawain sa QA dahil ang mga dataset ay likas na naglalaman ng mga tanong at maaari naming direktang muling- gamitin ang mga ito. Sa partikular, idinisenyo namin ang prompt para sa natatanging gawain at nagbibigay ng tatlong tanong bilang mga demonstrasyon. Kasunod nito, ang GPT-4 ay bumubuo ng mga karagdagang magkakaibang tanong batay sa mga input na ito. Ang mga nabuong tanong ay manu-manong sinusuri, at 50 iba't ibang tanong ang pinipili para sa bawat gawain. Ang pagkakaiba-iba sa format ng tanong ay naglalayong suriin ang kakayahan ng modelo na sundin ang mga tagubilin sa halip na maging labis na umaasa sa mga partikular na template. Para sa bawat tanong, bubuo pa kami ng mga pagpipilian ng kandidato C mula sa iba't ibang mapagkukunan: 1) Para sa mga gawaing may mga pagpipilian sa orihinal na mga dataset tulad ng AVQA (Yang et al., 2022), direkta naming muling ginagamit ito; 2) Para sa mga gawain sa pag-uuri, random kaming pumili ng mga opsyon mula sa paunang natukoy na hanay ng mga kategorya upang magsilbing mga pagpipilian ng kandidato; 3) Para sa iba pang mga gawain, sinenyasan namin ang GPT-4 na direktang bumuo ng mga pagpipilian ng kandidato, na binubuo ng isang tamang opsyon at tatlong maling opsyon. Hinihikayat namin ang mga maling opsyong ito na maging katulad ng tama, na ginagawang mas mapaghamong ang solong pagpipiliang gawain. Ang reference na sagot ay ang gintong tamang pagpipilian. Upang maiwasan ang pagkiling sa posisyon, ang mga pagpipilian ng kandidato ay random na binabasa Single-choice na Query at Sanggunian.  Ang papel na ito ay   sa ilalim ng CC BY 4.0 DEED na lisensya. makukuha sa arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

Ang audio na ito ay ginawa sa orihinal na wika ng kuwento!

AIR-Bench Foundation: Mahigit sa 19k Mga Sample ng Data para sa Comprehensive Audio Evaluation

About Author

MGA KOMENTO

HANG TAGS

ANG ARTIKULONG ITO AY IPINAKITA SA

Related Stories

Hosting a DNS domain on the blockchain

COVID-19: We Need More Than Data, We Need Insights!

Getting intimate with Ethereum tokens

State of the Noonion: The Year of Profitability and Product Renaissance

Hosting a DNS domain on the blockchain

COVID-19: We Need More Than Data, We Need Insights!

Getting intimate with Ethereum tokens

State of the Noonion: The Year of Profitability and Product Renaissance

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps