អ្នកនិពន្ធ៖
(1) Qian Yang, សាកលវិទ្យាល័យ Zhejiang, ការរួមចំណែកស្មើគ្នា។ ការងារនេះត្រូវបានធ្វើឡើងក្នុងអំឡុងពេលកម្មសិក្សារបស់ Qian Yang នៅក្រុមហ៊ុន Alibaba Group;
(2) Jin Xu ក្រុមហ៊ុន Alibaba Group ការរួមចំណែកស្មើគ្នា;
(3) Wenrui Liu សាកលវិទ្យាល័យ Zhejiang;
(4) Yunfei Chu, Alibaba Group;
(5) Xiaohuan Zhou ក្រុមហ៊ុន Alibaba Group;
(6) Yichong Leng ក្រុមហ៊ុន Alibaba Group;
(7) Yuanjun Lv ក្រុមហ៊ុន Alibaba Group;
(8) Zhou Zhao ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នាទៅនឹង Zhou Zhao ([email protected]);
(9) Yichong Leng សាកលវិទ្យាល័យ Zhejiang
(10) Chang Zhou ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នានឹង Chang Zhou ([email protected]);
(11) Jingren Zhou ក្រុមហ៊ុន Alibaba Group ។
3 AIR-Bench និង 3.1 ទិដ្ឋភាពទូទៅ
4 ការពិសោធន៍
4.3 ការវាយតម្លៃរបស់មនុស្ស និង 4.4 ការសិក្សា Ablation of Positional Bias
5 សេចក្តីសន្និដ្ឋាន និងឯកសារយោង
លទ្ធផលលម្អិតនៃស្តង់ដារមូលដ្ឋាន
ប្រភពទិន្នន័យ។ យើងបានប្រមូលគំរូទិន្នន័យជាង 19k សម្រាប់វិមាត្រគ្រឹះ ដោយរួមបញ្ចូលកិច្ចការរងចំនួន 19 ផ្សេងៗគ្នា។ ប្រភពទិន្នន័យ និងស្ថិតិ
ត្រូវបានផ្តល់ជូនក្នុងតារាងទី 1។ ដើម្បីធានាបាននូវការវាយតម្លៃប្រកបដោយយុត្តិធម៌ និងទូលំទូលាយនៃសមត្ថភាពនីមួយៗ យើងមានគោលបំណងសម្រាប់ការចែកចាយសូម្បីតែបញ្ហាដែលទាក់ទងនឹងសមត្ថភាពផ្សេងៗគ្នាក្នុងអំឡុងពេលដំណើរការប្រមូលទិន្នន័យ។ ប្រភពសំឡេងទាំងអស់ត្រូវបានទទួលពីឧបករណ៍អភិវឌ្ឍន៍ដើម ឬសំណុំរងសាកល្បង ដើម្បីការពារការលេចធ្លាយទិន្នន័យ។
សំណួរជ្រើសរើសតែមួយ និងឯកសារយោង។ សំណួរ Q ត្រូវបានបង្កើតឡើងដោយការភ្ជាប់សំណួរ q និងជម្រើសបេក្ខជន C. សម្រាប់សំណួរ q យើងបង្កើតសំណួរជាចម្បងតាមរយៈ GPT-4 (OpenAI, 2023) លើកលែងតែសម្រាប់កិច្ចការ QA ចាប់តាំងពីសំណុំទិន្នន័យមានសំណួរ ហើយយើងអាចដោយផ្ទាល់ឡើងវិញ ប្រើពួកវា។ ជាពិសេស យើងរចនាប្រអប់បញ្ចូលសម្រាប់កិច្ចការដាច់ដោយឡែក និងផ្តល់សំណួរបីជាការបង្ហាញ។ ជាបន្តបន្ទាប់ GPT-4 បង្កើតសំណួរចម្រុះបន្ថែមដោយផ្អែកលើធាតុចូលទាំងនេះ។ សំណួរដែលបានបង្កើតត្រូវបានពិនិត្យដោយដៃ ហើយសំណួរចំនួន 50 ត្រូវបានជ្រើសរើសសម្រាប់កិច្ចការនីមួយៗ។ ភាពប្រែប្រួលនៅក្នុងទម្រង់សំណួរមានគោលបំណងវាយតម្លៃសមត្ថភាពរបស់គំរូក្នុងការធ្វើតាមការណែនាំជាជាងការពឹងផ្អែកខ្លាំងពេកលើគំរូជាក់លាក់។ សម្រាប់សំណួរនីមួយៗ យើងបង្កើតជម្រើសបេក្ខជន C បន្ថែមទៀតពីប្រភពផ្សេងៗគ្នា៖ 1) សម្រាប់កិច្ចការដែលមានជម្រើសនៅក្នុងសំណុំទិន្នន័យដើមដូចជា AVQA (Yang et al., 2022) យើងប្រើវាឡើងវិញដោយផ្ទាល់។ 2) សម្រាប់កិច្ចការចាត់ថ្នាក់ យើងជ្រើសរើសជម្រើសដោយចៃដន្យពីសំណុំនៃប្រភេទដែលបានកំណត់ទុកជាមុន ដើម្បីបម្រើជាជម្រើសបេក្ខជន។ 3) សម្រាប់កិច្ចការផ្សេងទៀត យើងជម្រុញ GPT-4 ដើម្បីបង្កើតជម្រើសបេក្ខជនដោយផ្ទាល់ ដែលរួមមានជម្រើសត្រឹមត្រូវមួយ និងជម្រើសមិនត្រឹមត្រូវចំនួនបី។ យើងលើកទឹកចិត្តឱ្យជម្រើសមិនត្រឹមត្រូវទាំងនេះស្រដៀងនឹងជម្រើសត្រឹមត្រូវ ដែលធ្វើឱ្យកិច្ចការជម្រើសតែមួយកាន់តែពិបាក។ ចម្លើយយោងគឺជាជម្រើសត្រឹមត្រូវពណ៌មាស។ ដើម្បីជៀសវាងការលំអៀងមុខតំណែង ជម្រើសបេក្ខជនត្រូវបានសាប់ដោយចៃដន្យ
ក្រដាសនេះ មាននៅលើ arxiv ក្រោមអាជ្ញាប័ណ្ណ CC BY 4.0 DEED ។