paint-brush
មូលនិធិ AIR-Bench៖ គំរូទិន្នន័យជាង 19k សម្រាប់ការវាយតម្លៃសំឡេងដ៏ទូលំទូលាយដោយ@benchmarking
ប្រវត្តិសាស្ត្រថ្មី។

មូលនិធិ AIR-Bench៖ គំរូទិន្នន័យជាង 19k សម្រាប់ការវាយតម្លៃសំឡេងដ៏ទូលំទូលាយ

ដោយ Benchmarking2m2024/10/16
Read on Terminal Reader

យូរ​ពេក; អាន

គោលការណ៍ជាមូលដ្ឋានរបស់ AIR-Bench វាយតម្លៃកិច្ចការសំឡេងចំនួន 19 ដោយប្រើគំរូជាង 19k ។ GPT-4 បង្កើត​សំណួរ​ចម្រុះ ដោយ​មាន​ជម្រើស​បេក្ខជន​ដែល​បាន​រចនា​ឡើង​ដើម្បី​ប្រជែង​នឹង​គំរូ។
featured image - មូលនិធិ AIR-Bench៖ គំរូទិន្នន័យជាង 19k សម្រាប់ការវាយតម្លៃសំឡេងដ៏ទូលំទូលាយ
Benchmarking HackerNoon profile picture
0-item

អ្នកនិពន្ធ៖

(1) Qian Yang, សាកលវិទ្យាល័យ Zhejiang, ការរួមចំណែកស្មើគ្នា។ ការងារនេះត្រូវបានធ្វើឡើងក្នុងអំឡុងពេលកម្មសិក្សារបស់ Qian Yang នៅក្រុមហ៊ុន Alibaba Group;

(2) Jin Xu ក្រុមហ៊ុន Alibaba Group ការរួមចំណែកស្មើគ្នា;

(3) Wenrui Liu សាកលវិទ្យាល័យ Zhejiang;

(4) Yunfei Chu, Alibaba Group;

(5) Xiaohuan Zhou ក្រុមហ៊ុន Alibaba Group;

(6) Yichong Leng ក្រុមហ៊ុន Alibaba Group;

(7) Yuanjun Lv ក្រុមហ៊ុន Alibaba Group;

(8) Zhou Zhao ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នាទៅនឹង Zhou Zhao ([email protected]);

(9) Yichong Leng សាកលវិទ្យាល័យ Zhejiang

(10) Chang Zhou ក្រុមហ៊ុន Alibaba Group និងត្រូវគ្នានឹង Chang Zhou ([email protected]);

(11) Jingren Zhou ក្រុមហ៊ុន Alibaba Group ។

តារាងតំណភ្ជាប់

អរូបី និង 1. សេចក្តីផ្តើម

2 ការងារពាក់ព័ន្ធ

3 AIR-Bench និង 3.1 ទិដ្ឋភាពទូទៅ

3.2 ស្តង់ដារមូលដ្ឋាន

3.3 Chat Benchmark

3.4 យុទ្ធសាស្រ្តវាយតម្លៃ

4 ការពិសោធន៍

4.1 ម៉ូដែល

4.2 លទ្ធផលចម្បង

4.3 ការវាយតម្លៃរបស់មនុស្ស និង 4.4 ការសិក្សា Ablation of Positional Bias

5 សេចក្តីសន្និដ្ឋាន និងឯកសារយោង

លទ្ធផលលម្អិតនៃស្តង់ដារមូលដ្ឋាន

3.2 ស្តង់ដារមូលដ្ឋាន

ប្រភពទិន្នន័យ។ យើងបានប្រមូលគំរូទិន្នន័យជាង 19k សម្រាប់វិមាត្រគ្រឹះ ដោយរួមបញ្ចូលកិច្ចការរងចំនួន 19 ផ្សេងៗគ្នា។ ប្រភពទិន្នន័យ និងស្ថិតិ


តារាងទី 1: ស្ថិតិនៃស្តង់ដារគ្រឹះ។


តារាងទី 2៖ ស្ថិតិ និងឧទាហរណ៍នៃគោលការជជែក។


ត្រូវបានផ្តល់ជូនក្នុងតារាងទី 1។ ដើម្បីធានាបាននូវការវាយតម្លៃប្រកបដោយយុត្តិធម៌ និងទូលំទូលាយនៃសមត្ថភាពនីមួយៗ យើងមានគោលបំណងសម្រាប់ការចែកចាយសូម្បីតែបញ្ហាដែលទាក់ទងនឹងសមត្ថភាពផ្សេងៗគ្នាក្នុងអំឡុងពេលដំណើរការប្រមូលទិន្នន័យ។ ប្រភពសំឡេងទាំងអស់ត្រូវបានទទួលពីឧបករណ៍អភិវឌ្ឍន៍ដើម ឬសំណុំរងសាកល្បង ដើម្បីការពារការលេចធ្លាយទិន្នន័យ។


សំណួរជ្រើសរើសតែមួយ និងឯកសារយោង។ សំណួរ Q ត្រូវបានបង្កើតឡើងដោយការភ្ជាប់សំណួរ q និងជម្រើសបេក្ខជន C. សម្រាប់សំណួរ q យើងបង្កើតសំណួរជាចម្បងតាមរយៈ GPT-4 (OpenAI, 2023) លើកលែងតែសម្រាប់កិច្ចការ QA ចាប់តាំងពីសំណុំទិន្នន័យមានសំណួរ ហើយយើងអាចដោយផ្ទាល់ឡើងវិញ ប្រើពួកវា។ ជាពិសេស យើងរចនាប្រអប់បញ្ចូលសម្រាប់កិច្ចការដាច់ដោយឡែក និងផ្តល់សំណួរបីជាការបង្ហាញ។ ជាបន្តបន្ទាប់ GPT-4 បង្កើតសំណួរចម្រុះបន្ថែមដោយផ្អែកលើធាតុចូលទាំងនេះ។ សំណួរដែលបានបង្កើតត្រូវបានពិនិត្យដោយដៃ ហើយសំណួរចំនួន 50 ត្រូវបានជ្រើសរើសសម្រាប់កិច្ចការនីមួយៗ។ ភាពប្រែប្រួលនៅក្នុងទម្រង់សំណួរមានគោលបំណងវាយតម្លៃសមត្ថភាពរបស់គំរូក្នុងការធ្វើតាមការណែនាំជាជាងការពឹងផ្អែកខ្លាំងពេកលើគំរូជាក់លាក់។ សម្រាប់សំណួរនីមួយៗ យើងបង្កើតជម្រើសបេក្ខជន C បន្ថែមទៀតពីប្រភពផ្សេងៗគ្នា៖ 1) សម្រាប់កិច្ចការដែលមានជម្រើសនៅក្នុងសំណុំទិន្នន័យដើមដូចជា AVQA (Yang et al., 2022) យើងប្រើវាឡើងវិញដោយផ្ទាល់។ 2) សម្រាប់កិច្ចការចាត់ថ្នាក់ យើងជ្រើសរើសជម្រើសដោយចៃដន្យពីសំណុំនៃប្រភេទដែលបានកំណត់ទុកជាមុន ដើម្បីបម្រើជាជម្រើសបេក្ខជន។ 3) សម្រាប់កិច្ចការផ្សេងទៀត យើងជម្រុញ GPT-4 ដើម្បីបង្កើតជម្រើសបេក្ខជនដោយផ្ទាល់ ដែលរួមមានជម្រើសត្រឹមត្រូវមួយ និងជម្រើសមិនត្រឹមត្រូវចំនួនបី។ យើងលើកទឹកចិត្តឱ្យជម្រើសមិនត្រឹមត្រូវទាំងនេះស្រដៀងនឹងជម្រើសត្រឹមត្រូវ ដែលធ្វើឱ្យកិច្ចការជម្រើសតែមួយកាន់តែពិបាក។ ចម្លើយយោងគឺជាជម្រើសត្រឹមត្រូវពណ៌មាស។ ដើម្បីជៀសវាងការលំអៀងមុខតំណែង ជម្រើសបេក្ខជនត្រូវបានសាប់ដោយចៃដន្យ


ក្រដាសនេះ មាននៅលើ arxiv ក្រោមអាជ្ញាប័ណ្ណ CC BY 4.0 DEED ។


L O A D I N G
. . . comments & more!

About Author

Benchmarking HackerNoon profile picture
Benchmarking@benchmarking
Setting the standard, elevating performance, and illuminating the path to excellence through informed comparisons.

ព្យួរស្លាក

អត្ថបទនេះត្រូវបានបង្ហាញនៅក្នុង...