paint-brush
AIR-Bench Foundation: ልዕሊ 19k ናሙናታት ዳታ ንኹለመዳያዊ ገምጋም ድምጺ@benchmarking

AIR-Bench Foundation: ልዕሊ 19k ናሙናታት ዳታ ንኹለመዳያዊ ገምጋም ድምጺ

ኣዝዩ ነዊሕ፤ ንምንባብ

ናይ AIR-Bench መሰረት መዐቀኒ ልዕሊ 19k ናሙናታት ብምጥቃም 19 ናይ ድምጺ ዕማማት ይግምግም። GPT-4 ዝተፈላለዩ ሕቶታት የመንጩ፣ ሕጹያት ምርጫታት ንሞዴላት ንምፍታሕ ዝተዳለዉ እዩ።
featured image - AIR-Bench Foundation: ልዕሊ 19k ናሙናታት ዳታ ንኹለመዳያዊ ገምጋም ድምጺ
Benchmarking in Business Technology and Software HackerNoon profile picture
0-item

ጸሓፍቲ፤

(1) ቺያን ያንግ፡ ዩኒቨርሲቲ ዠጂያንግ፡ ማዕረ ኣበርክቶ። እዚ ስራሕ ቺያን ያንግ ኣብ ጉጅለ ዓሊባባ ኣብ ዝሰርሓሉ ዝነበረ እዋን ዝተኻየደ እዩ፤

(2) ጂን ዙ፡ ጉጅለ ዓሊባባ፡ ማዕረ ኣበርክቶ፤

(3) ወንሩይ ሊዩ፡ ዩኒቨርሲቲ ዠጂያንግ፤

(4) ዩንፈይ ቹ፡ ጉጅለ ዓሊባባ፤

(5) ሻኦሁዋን ዞው፡ ጉጅለ ዓሊባባ፤

(6) ይቾንግ ሌንግ፡ ጉጅለ ዓሊባባ፤

(7) ዩዋንጁን Lv፡ ጉጅለ ዓሊባባ፤

(8) ዞው ዛኦ፡ ጉጅለ ዓሊባባን ምስ ዞው ዛኦ ዝጽሕፍን ([email protected])፤

(9) ይቾንግ ሌንግ፡ ዩኒቨርሲቲ ዠጂያንግ

(10) ቻንግ ዞው፡ ጉጅለ ዓሊባባን ምስ ቻንግ ዞው ዝሰማማዕን ([email protected])፤

(11) ጂንግረን ዞው፡ ጉጅለ ዓሊባባ።

ሰሌዳ መላግቦታት

ጽማቝን 1. መእተዊን።

2 ተዛማዲ ስራሕ

3 AIR-Bench ከምኡ’ውን 3.1 ሓፈሻዊ ትዕዝብቲ

3.2 መሰረት መዐቀኒ

3.3 ናይ ቻት መዐቀኒ

3.4 ስትራተጂ ገምጋም

4 ፈተነታት

4.1 ሞዴላት

4.2 ቀንዲ ውፅኢታት

4.3 ገምጋም ደቂ ሰባትን 4.4 መፅናዕቲ ምቑራፅ ፖዚሽናል ወገናውነትን።

5 መደምደምታን መወከሲታትን

ዝርዝር ውጽኢት ናይ ፋውንዴሽን መዐቀኒ

3.2 መሰረት መዐቀኒ

ምንጪ መረዳእታ። ንመሰረት መለክዒ ልዕሊ 19k ናሙናታት ዳታ ኣኪብና፣ 19 ዝተፈላለዩ ንኡሳን ዕማማት ዘጠቓለለ እዩ። ምንጪ ዳታን ስታቲስቲክስን


ሰንጠረዥ 1፡ ስታቲስቲክስ ናይቲ መሰረት መዐቀኒ።


ሰንጠረዥ 2፡ ስታቲስቲክስን ኣብነታትን ናይቲ ናይ ቻት መዐቀኒ።


ኣብ ሰሌዳ ቁፅሪ 1 ተዋሂቦም ኣለዉ።ናይ ነፍሲ ወከፍ ዓቕሚ ፍትሓውን ኩለመዳያውን ገምጋም ንምርግጋፅ ኣብ መስርሕ ምእካብ መረዳእታ ምስ ዝተፈላለዩ ክእለታት ዝተኣሳሰሩ ፀገማት ምዕሩይ ምክፍፋል ዕላማ ጌርና ኢና። ኩሎም ምንጪ ድምጺ ካብቶም ኦሪጅናል dev ወይ test subsets ዝተረኽቡ ኮይኖም ዳታ ምፍሳስ ንምክልኻል እዩ።


ሓደ ምርጫ ዘለዎ ሕቶን መወከስን ። ሕቶ Q ንሓደ ሕቶ qን ሕጹያት ምርጫታት Cን ብምትእስሳር ዝፍጠር እዩ።ንሕቶ q፡ ብቐንዱ ሕቶታት ብመንገዲ GPT-4 (OpenAI, 2023) ንሃንጽ፡ ብዘይካ ዕማማት QA፡ እቶም ዳታሴታት ብባህሪኦም ሕቶታት ስለዘለዎምን ብቐጥታ ዳግማይ ተጠቐመሎም። ብፍላይ ድማ ነቲ ፍሉይ ዕማም ዝኸውን ምልክት ንነድፎን ሰለስተ ሕቶታት ከም መርኣያ ነቕርብን። ብድሕሪኡ GPT-4 ካብዞም እታዎታት መሰረት ብምግባር ተወሳኺ ዝተፈላለዩ ሕቶታት የመንጩ። እቶም ዝፍጠሩ ሕቶታት ብኢድ ይግምገሙ፣ ንነፍሲ ወከፍ ዕማም ድማ 50 ዝተፈላለዩ ሕቶታት ይምረጹ። እቲ ተለዋዋጢነት ኣብ ቅርጺ ሕቶ፡ እቲ ሞዴል ኣብ ፍሉያት ቅጥዕታት ካብ መጠን ንላዕሊ ካብ ምጽጋዕ፡ መምርሒታት ናይ ምኽታል ዓቕሙ ንምግምጋም ዝዓለመ እዩ። ንነፍሲ ወከፍ ሕቶ፡ ብዝያዳ ሕጹያት ምርጫታት C ካብ ዝተፈላለዩ ምንጭታት ነመንጩ፡ 1) ኣብ ከም AVQA ዝኣመሰሉ መበቆላውያን ዳታሴታት ምርጫታት ዘለዎም ዕማማት (Yang et al., 2022)፡ ብቐጥታ ዳግማይ ንጥቀመሉ፤ 2) ንዕማማት ምደባ፡ ካብቲ ኣቐዲሙ ዝተወሰነ ስብስብ ምድባት ከም ሕጹያት ምርጫታት ከገልግሉ ዝኽእሉ ኣማራጺታት ብዘይ መደብ ንመርጽ፤ 3) ንኻልኦት ዕማማት፡ GPT-4 ብቐጥታ ሕጹያት ምርጫታት ንኽፈጥር ንጽዕር፡ እዚ ድማ ሓደ ቅኑዕ ኣማራጺን ሰለስተ ዘይቅኑዓት ኣማራጺታትን ዝሓቖፈ እዩ። እዞም ዘይቅኑዓት ኣማራጺታት ነቲ ቅኑዕ ክመስሉ ነተባብዕ፣ እዚ ድማ ነቲ ብሓደ ምርጫ ዝግበር ዕማም ዝያዳ በዳሂ ይገብሮ። እቲ መወከሲ መልሲ ወርቃዊ ቅኑዕ ምርጫ እዩ። ንናይ መርገጺ ወገናውነት ንምክልኻል፡ ምርጫታት ሕጹያት ብዘይ መደብ ይሕወሱ