لیکوالان:
(1) Qian Yang، Zhejiang پوهنتون، مساوي ونډه. دا کار د علی بابا ګروپ کې د کیان یانګ د انټرنشپ پرمهال ترسره شو؛
(2) جین سو، علی بابا ګروپ، مساوي ونډه؛
(3) وینروی لیو، د جیانګ پوهنتون؛
(4) یونفی چو، علی بابا ګروپ؛
(5) Xiaohuan Zhou، علی بابا ګروپ؛
(6) ییچونګ لینګ، علی بابا ګروپ؛
(7) Yuanjun Lv، علی بابا ګروپ؛
(8) ژو ژاؤ، علی بابا ګروپ او د ژو ژاؤ سره ورته والی ([email protected])؛
(9) Yichong Leng، Zhejiang پوهنتون
(10) چانګ ژو، د علی بابا ګروپ او د چانګ ژو سره ورته والی ([email protected])؛
(11) Jingren Zhou، علی بابا ګروپ.
4 تجربې
4.3 د انسان ارزونه او 4.4 د موقعیتي تعصب د خلاصون مطالعه
د فاؤنڈیشن بنچمارک تفصيلي پایلې
د معلوماتو سرچینه. موږ د بنسټ ابعاد لپاره له 19k څخه ډیر ډیټا نمونې راټولې کړې ، چې 19 مختلف فرعي دندې پکې شاملې دي. د معلوماتو سرچینه او احصایې
په جدول 1 کې چمتو شوي دي. د دې لپاره چې د هرې وړتیا عادلانه او هراړخیزه ارزونه یقیني کړو، موږ موخه دا وه چې د معلوماتو راټولولو پروسې په جریان کې د مختلفو وړتیاو پورې اړوند ستونزو مساوي ویش. ټولې آډیو سرچینې د اصلي dev یا ازموینې فرعي سیټونو څخه ترلاسه شوي ترڅو د معلوماتو لیک کیدو مخه ونیسي.
د واحد انتخاب پوښتنه او حواله. پوښتنه Q د پوښتنې q او د کاندید انتخابونو C سره یوځای کولو سره رامینځته کیږي. د q پوښتنې لپاره، موږ په عمده توګه د GPT-4 (OpenAI, 2023) له لارې پوښتنې رامینځته کوو، د QA دندو پرته، ځکه چې ډیټاسیټونه په طبیعي ډول پوښتنې لري او موږ کولی شو مستقیم بیا وګرځوو. دوی وکاروئ. په ځانګړې توګه، موږ د ځانګړي کار لپاره پرامپټ ډیزاین کوو او د مظاهرې په توګه درې پوښتنې وړاندې کوو. وروسته بیا، GPT-4 د دې معلوماتو پراساس اضافي متنوع پوښتنې رامینځته کوي. تولید شوي پوښتنې په لاسي ډول بیاکتنه کیږي، او د هرې دندې لپاره 50 مختلف پوښتنې غوره شوي. د پوښتنې په بڼه کې د بدلون موخه دا ده چې د موډل د وړتیا ارزونه وکړي چې لارښوونې تعقیب کړي نه دا چې په ځانګړو ټیمپلیټونو باندې ډیر تکیه وکړي. د هرې پوښتنې لپاره، موږ د مختلفو سرچینو څخه د کاندید انتخابونه C پیدا کوو: 1) د اصلي ډیټاسیټونو لکه AVQA (Yang et al., 2022) کې د انتخابونو لپاره، موږ په مستقیم ډول بیا کاروو؛ 2) د ډلبندۍ دندو لپاره، موږ په تصادفي ډول د انتخاب شوي کټګوریو څخه انتخاب کوو چې د کاندید انتخابونو په توګه خدمت وکړي. 3) د نورو دندو لپاره، موږ GPT-4 ته لارښوونه کوو چې د کاندید انتخابونه مستقیم تولید کړي، چې یو سم انتخاب او درې غلط انتخابونه لري. موږ دا غلط انتخابونه هڅوو چې سم ورته ورته وي، د واحد انتخاب دنده نوره ننګونه کوي. د حوالې ځواب د سرو زرو سم انتخاب دی. د موقف د تعصب څخه د مخنیوي لپاره، د کاندید انتخابونه په تصادفي ډول بدلیږي
دا پاڼه د CC BY 4.0 DEED جواز لاندې په آرکسیو کې شتون لري .