paint-brush
د AIR-Bench بنسټ: د جامع آډیو ارزونې لپاره له 19k څخه ډیر ډیټا نمونېلخوا@benchmarking

د AIR-Bench بنسټ: د جامع آډیو ارزونې لپاره له 19k څخه ډیر ډیټا نمونې

ډېر اوږد؛ لوستل

د AIR-Bench بنسټ بینچمارک د 19k نمونو په کارولو سره 19 آډیو دندې ارزوي. GPT-4 متنوع پوښتنې رامینځته کوي، د کاندید انتخابونو سره چې د ماډلونو ننګونې لپاره ډیزاین شوي.
featured image - د AIR-Bench بنسټ: د جامع آډیو ارزونې لپاره له 19k څخه ډیر ډیټا نمونې
Benchmarking in Business Technology and Software HackerNoon profile picture
0-item

لیکوالان:

(1) Qian Yang، Zhejiang پوهنتون، مساوي ونډه. دا کار د علی بابا ګروپ کې د کیان یانګ د انټرنشپ پرمهال ترسره شو؛

(2) جین سو، علی بابا ګروپ، مساوي ونډه؛

(3) وینروی لیو، د جیانګ پوهنتون؛

(4) یونفی چو، علی بابا ګروپ؛

(5) Xiaohuan Zhou، علی بابا ګروپ؛

(6) ییچونګ لینګ، علی بابا ګروپ؛

(7) Yuanjun Lv، علی بابا ګروپ؛

(8) ژو ژاؤ، علی بابا ګروپ او د ژو ژاؤ سره ورته والی ([email protected]

(9) Yichong Leng، Zhejiang پوهنتون

(10) چانګ ژو، د علی بابا ګروپ او د چانګ ژو سره ورته والی ([email protected]

(11) Jingren Zhou، علی بابا ګروپ.

د لینکونو جدول

لنډیز او 1. پیژندنه

2 اړونده کار

3 AIR-Bench او 3.1 عمومي کتنه

3.2 د بنسټ بنچمارک

3.3 د چیټ بنچمارک

3.4 د ارزونې ستراتیژي

4 تجربې

4.1 ماډلونه

4.2 اصلي پایلې

4.3 د انسان ارزونه او 4.4 د موقعیتي تعصب د خلاصون مطالعه

5 پایله او حوالې

د فاؤنڈیشن بنچمارک تفصيلي پایلې

3.2 د بنسټ بنچمارک

د معلوماتو سرچینه. موږ د بنسټ ابعاد لپاره له 19k څخه ډیر ډیټا نمونې راټولې کړې ، چې 19 مختلف فرعي دندې پکې شاملې دي. د معلوماتو سرچینه او احصایې


جدول 1: د بنسټ بنچمارک احصایې.


جدول 2: د چیٹ بنچمارک احصایې او مثالونه.


په جدول 1 کې چمتو شوي دي. د دې لپاره چې د هرې وړتیا عادلانه او هراړخیزه ارزونه یقیني کړو، موږ موخه دا وه چې د معلوماتو راټولولو پروسې په جریان کې د مختلفو وړتیاو پورې اړوند ستونزو مساوي ویش. ټولې آډیو سرچینې د اصلي dev یا ازموینې فرعي سیټونو څخه ترلاسه شوي ترڅو د معلوماتو لیک کیدو مخه ونیسي.


د واحد انتخاب پوښتنه او حواله. پوښتنه Q د پوښتنې q او د کاندید انتخابونو C سره یوځای کولو سره رامینځته کیږي. د q پوښتنې لپاره، موږ په عمده توګه د GPT-4 (OpenAI, 2023) له لارې پوښتنې رامینځته کوو، د QA دندو پرته، ځکه چې ډیټاسیټونه په طبیعي ډول پوښتنې لري او موږ کولی شو مستقیم بیا وګرځوو. دوی وکاروئ. په ځانګړې توګه، موږ د ځانګړي کار لپاره پرامپټ ډیزاین کوو او د مظاهرې په توګه درې پوښتنې وړاندې کوو. وروسته بیا، GPT-4 د دې معلوماتو پراساس اضافي متنوع پوښتنې رامینځته کوي. تولید شوي پوښتنې په لاسي ډول بیاکتنه کیږي، او د هرې دندې لپاره 50 مختلف پوښتنې غوره شوي. د پوښتنې په بڼه کې د بدلون موخه دا ده چې د موډل د وړتیا ارزونه وکړي چې لارښوونې تعقیب کړي نه دا چې په ځانګړو ټیمپلیټونو باندې ډیر تکیه وکړي. د هرې پوښتنې لپاره، موږ د مختلفو سرچینو څخه د کاندید انتخابونه C پیدا کوو: 1) د اصلي ډیټاسیټونو لکه AVQA (Yang et al., 2022) کې د انتخابونو لپاره، موږ په مستقیم ډول بیا کاروو؛ 2) د ډلبندۍ دندو لپاره، موږ په تصادفي ډول د انتخاب شوي کټګوریو څخه انتخاب کوو چې د کاندید انتخابونو په توګه خدمت وکړي. 3) د نورو دندو لپاره، موږ GPT-4 ته لارښوونه کوو چې د کاندید انتخابونه مستقیم تولید کړي، چې یو سم انتخاب او درې غلط انتخابونه لري. موږ دا غلط انتخابونه هڅوو چې سم ورته ورته وي، د واحد انتخاب دنده نوره ننګونه کوي. د حوالې ځواب د سرو زرو سم انتخاب دی. د موقف د تعصب څخه د مخنیوي لپاره، د کاندید انتخابونه په تصادفي ډول بدلیږي


دا پاڼه د CC BY 4.0 DEED جواز لاندې په آرکسیو کې شتون لري .