អ្នកនិពន្ធ៖  (1) Qian Yang, សាកលវិទ្យាល័យ Zhejiang, ការរួមចំណែកស្មើគ្នា។ ការងារនេះត្រូវបានធ្វើឡើងក្នុងអំឡុងពេលកម្មសិក្សារបស់ Qian Yang នៅក្រុមហ៊ុន Alibaba Group;  (2) Jin Xu ក្រុមហ៊ុន Alibaba Group ការរួមចំណែកស្មើគ្នា;  (3) Wenrui Liu សាកលវិទ្យាល័យ Zhejiang;  (4) Yunfei Chu, Alibaba Group;  (5) Xiaohuan Zhou ក្រុមហ៊ុន Alibaba Group;  (6) Yichong Leng ក្រុមហ៊ុន Alibaba Group;  (7) Yuanjun Lv ក្រុមហ៊ុន Alibaba Group;  (8) Zhou Zhao ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នាទៅនឹង Zhou Zhao (zhaozhou@zju.edu.cn);  (9) Yichong Leng សាកលវិទ្យាល័យ Zhejiang  (10) Chang Zhou ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នានឹង Chang Zhou (ericzhou.zc@alibaba-inc.com);  (11) Jingren Zhou ក្រុមហ៊ុន Alibaba Group ។  តារាងតំណភ្ជាប់   អរូបី និង 1. សេចក្តីផ្តើម   2 ការងារពាក់ព័ន្ធ   3 AIR-Bench និង 3.1 ទិដ្ឋភាពទូទៅ   3.2 ស្តង់ដារមូលដ្ឋាន   3.3 Chat Benchmark   3.4 យុទ្ធសាស្រ្តវាយតម្លៃ  4 ការពិសោធន៍   4.1 ម៉ូដែល   4.2 លទ្ធផលចម្បង   4.3 ការវាយតម្លៃរបស់មនុស្ស និង 4.4 ការសិក្សា Ablation of Positional Bias   5 សេចក្តីសន្និដ្ឋាន និងឯកសារយោង   លទ្ធផលលម្អិតនៃស្តង់ដារមូលដ្ឋាន   3.2 ស្តង់ដារមូលដ្ឋាន    យើងបានប្រមូលគំរូទិន្នន័យជាង 19k សម្រាប់វិមាត្រគ្រឹះ ដោយរួមបញ្ចូលកិច្ចការរងចំនួន 19 ផ្សេងៗគ្នា។ ប្រភពទិន្នន័យ និងស្ថិតិ  ប្រភពទិន្នន័យ។  ត្រូវបានផ្តល់ជូនក្នុងតារាងទី 1។ ដើម្បីធានាបាននូវការវាយតម្លៃប្រកបដោយយុត្តិធម៌ និងទូលំទូលាយនៃសមត្ថភាពនីមួយៗ យើងមានគោលបំណងសម្រាប់ការចែកចាយសូម្បីតែបញ្ហាដែលទាក់ទងនឹងសមត្ថភាពផ្សេងៗគ្នាក្នុងអំឡុងពេលដំណើរការប្រមូលទិន្នន័យ។ ប្រភពសំឡេងទាំងអស់ត្រូវបានទទួលពីឧបករណ៍អភិវឌ្ឍន៍ដើម ឬសំណុំរងសាកល្បង ដើម្បីការពារការលេចធ្លាយទិន្នន័យ។    សំណួរ Q ត្រូវបានបង្កើតឡើងដោយការភ្ជាប់សំណួរ q និងជម្រើសបេក្ខជន C. សម្រាប់សំណួរ q យើងបង្កើតសំណួរជាចម្បងតាមរយៈ GPT-4 (OpenAI, 2023) លើកលែងតែសម្រាប់កិច្ចការ QA ចាប់តាំងពីសំណុំទិន្នន័យមានសំណួរ ហើយយើងអាចដោយផ្ទាល់ឡើងវិញ ប្រើពួកវា។ ជាពិសេស យើងរចនាប្រអប់បញ្ចូលសម្រាប់កិច្ចការដាច់ដោយឡែក និងផ្តល់សំណួរបីជាការបង្ហាញ។ ជាបន្តបន្ទាប់ GPT-4 បង្កើតសំណួរចម្រុះបន្ថែមដោយផ្អែកលើធាតុចូលទាំងនេះ។ សំណួរដែលបានបង្កើតត្រូវបានពិនិត្យដោយដៃ ហើយសំណួរចំនួន 50 ត្រូវបានជ្រើសរើសសម្រាប់កិច្ចការនីមួយៗ។ ភាពប្រែប្រួលនៅក្នុងទម្រង់សំណួរមានគោលបំណងវាយតម្លៃសមត្ថភាពរបស់គំរូក្នុងការធ្វើតាមការណែនាំជាជាងការពឹងផ្អែកខ្លាំងពេកលើគំរូជាក់លាក់។ សម្រាប់សំណួរនីមួយៗ យើងបង្កើតជម្រើសបេក្ខជន C បន្ថែមទៀតពីប្រភពផ្សេងៗគ្នា៖ 1) សម្រាប់កិច្ចការដែលមានជម្រើសនៅក្នុងសំណុំទិន្នន័យដើមដូចជា AVQA (Yang et al., 2022) យើងប្រើវាឡើងវិញដោយផ្ទាល់។ 2) សម្រាប់កិច្ចការចាត់ថ្នាក់ យើងជ្រើសរើសជម្រើសដោយចៃដន្យពីសំណុំនៃប្រភេទដែលបានកំណត់ទុកជាមុន ដើម្បីបម្រើជាជម្រើសបេក្ខជន។ 3) សម្រាប់កិច្ចការផ្សេងទៀត យើងជម្រុញ GPT-4 ដើម្បីបង្កើតជម្រើសបេក្ខជនដោយផ្ទាល់ ដែលរួមមានជម្រើសត្រឹមត្រូវមួយ និងជម្រើសមិនត្រឹមត្រូវចំនួនបី។ យើងលើកទឹកចិត្តឱ្យជម្រើសមិនត្រឹមត្រូវទាំងនេះស្រដៀងនឹងជម្រើសត្រឹមត្រូវ ដែលធ្វើឱ្យកិច្ចការជម្រើសតែមួយកាន់តែពិបាក។ ចម្លើយយោងគឺជាជម្រើសត្រឹមត្រូវពណ៌មាស។ ដើម្បីជៀសវាងការលំអៀងមុខតំណែង ជម្រើសបេក្ខជនត្រូវបានសាប់ដោយចៃដន្យ សំណួរជ្រើសរើសតែមួយ និងឯកសារយោង។  ក្រដាសនេះ   ក្រោមអាជ្ញាប័ណ្ណ CC BY 4.0 DEED ។ មាននៅលើ arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Benchmarking.tech

Read My Stories

Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

Benchmarking's blog

សំឡេងនេះផលិតជាភាសាដើមនៃរឿង!

មូលនិធិ AIR-Bench៖ គំរូទិន្នន័យជាង 19k សម្រាប់ការវាយតម្លៃសំឡេងដ៏ទូលំទូលាយ

About Author

មតិយោបល់

ព្យួរស្លាក

អត្ថបទនេះត្រូវបានបង្ហាញនៅក្នុង

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps