لیکوالان:  (1) Qian Yang، Zhejiang پوهنتون، مساوي ونډه. دا کار د علی بابا ګروپ کې د کیان یانګ د انټرنشپ پرمهال ترسره شو؛  (2) جین سو، علی بابا ګروپ، مساوي ونډه؛  (3) وینروی لیو، د جیانګ پوهنتون؛  (4) یونفی چو، علی بابا ګروپ؛  (5) Xiaohuan Zhou، علی بابا ګروپ؛  (6) ییچونګ لینګ، علی بابا ګروپ؛  (7) Yuanjun Lv، علی بابا ګروپ؛  (8) ژو ژاؤ، علی بابا ګروپ او د ژو ژاؤ سره ورته والی (zhaozhou@zju.edu.cn)؛  (9) Yichong Leng، Zhejiang پوهنتون  (10) چانګ ژو، د علی بابا ګروپ او د چانګ ژو سره ورته والی (ericzhou.zc@alibaba-inc.com)؛  (11) Jingren Zhou، علی بابا ګروپ.  د لینکونو جدول   لنډیز او 1. پیژندنه   2 اړونده کار   3 AIR-Bench او 3.1 عمومي کتنه   3.2 د بنسټ بنچمارک   3.3 د چیټ بنچمارک   3.4 د ارزونې ستراتیژي  4 تجربې   4.1 ماډلونه   4.2 اصلي پایلې   4.3 د انسان ارزونه او 4.4 د موقعیتي تعصب د خلاصون مطالعه   5 پایله او حوالې   د فاؤنڈیشن بنچمارک تفصيلي پایلې   3.2 د بنسټ بنچمارک    موږ د بنسټ ابعاد لپاره له 19k څخه ډیر ډیټا نمونې راټولې کړې ، چې 19 مختلف فرعي دندې پکې شاملې دي. د معلوماتو سرچینه او احصایې  د معلوماتو سرچینه.  په جدول 1 کې چمتو شوي دي. د دې لپاره چې د هرې وړتیا عادلانه او هراړخیزه ارزونه یقیني کړو، موږ موخه دا وه چې د معلوماتو راټولولو پروسې په جریان کې د مختلفو وړتیاو پورې اړوند ستونزو مساوي ویش. ټولې آډیو سرچینې د اصلي dev یا ازموینې فرعي سیټونو څخه ترلاسه شوي ترڅو د معلوماتو لیک کیدو مخه ونیسي.    پوښتنه Q د پوښتنې q او د کاندید انتخابونو C سره یوځای کولو سره رامینځته کیږي. د q پوښتنې لپاره، موږ په عمده توګه د GPT-4 (OpenAI, 2023) له لارې پوښتنې رامینځته کوو، د QA دندو پرته، ځکه چې ډیټاسیټونه په طبیعي ډول پوښتنې لري او موږ کولی شو مستقیم بیا وګرځوو. دوی وکاروئ. په ځانګړې توګه، موږ د ځانګړي کار لپاره پرامپټ ډیزاین کوو او د مظاهرې په توګه درې پوښتنې وړاندې کوو. وروسته بیا، GPT-4 د دې معلوماتو پراساس اضافي متنوع پوښتنې رامینځته کوي. تولید شوي پوښتنې په لاسي ډول بیاکتنه کیږي، او د هرې دندې لپاره 50 مختلف پوښتنې غوره شوي. د پوښتنې په بڼه کې د بدلون موخه دا ده چې د موډل د وړتیا ارزونه وکړي چې لارښوونې تعقیب کړي نه دا چې په ځانګړو ټیمپلیټونو باندې ډیر تکیه وکړي. د هرې پوښتنې لپاره، موږ د مختلفو سرچینو څخه د کاندید انتخابونه C پیدا کوو: 1) د اصلي ډیټاسیټونو لکه AVQA (Yang et al., 2022) کې د انتخابونو لپاره، موږ په مستقیم ډول بیا کاروو؛ 2) د ډلبندۍ دندو لپاره، موږ په تصادفي ډول د انتخاب شوي کټګوریو څخه انتخاب کوو چې د کاندید انتخابونو په توګه خدمت وکړي. 3) د نورو دندو لپاره، موږ GPT-4 ته لارښوونه کوو چې د کاندید انتخابونه مستقیم تولید کړي، چې یو سم انتخاب او درې غلط انتخابونه لري. موږ دا غلط انتخابونه هڅوو چې سم ورته ورته وي، د واحد انتخاب دنده نوره ننګونه کوي. د حوالې ځواب د سرو زرو سم انتخاب دی. د موقف د تعصب څخه د مخنیوي لپاره، د کاندید انتخابونه په تصادفي ډول بدلیږي د واحد انتخاب پوښتنه او حواله.  دا پاڼه د CC BY 4.0 DEED جواز لاندې   . په آرکسیو کې شتون لري

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

دا غږ د کیسې په اصلي ژبه تولید شوی!

د AIR-Bench بنسټ: د جامع آډیو ارزونې لپاره له 19k څخه ډیر ډیټا نمونې

About Author

تبصرې

hang tags

دا مقاله په کې وړاندې شوې وه

Related Stories

Tran Hung is HackerNoon's Altcoin Champion of 2021

We Need to Hear Both the Good and Bad Sides of Tech - Interview with Charlie G

د اونۍ د HackerNoon پروژې: InfoFusion هابونه، Firefox مدیریت سیشن کنټرولر، NoteOCR

Thrilled to be Recognized as 'HackerNoon Contributor of the Year - WORK'

Tran Hung is HackerNoon's Altcoin Champion of 2021

We Need to Hear Both the Good and Bad Sides of Tech - Interview with Charlie G

د اونۍ د HackerNoon پروژې: InfoFusion هابونه، Firefox مدیریت سیشن کنټرولر، NoteOCR

Thrilled to be Recognized as 'HackerNoon Contributor of the Year - WORK'

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps