paint-brush
የ AI ርህራሄን ጥልቀት መሞከር፡- Q3 2024 ቤንችማርኮች@anywhichway
አዲስ ታሪክ

የ AI ርህራሄን ጥልቀት መሞከር፡- Q3 2024 ቤንችማርኮች

Simon Y. Blackwell8m2024/10/13
Read on Terminal Reader

በጣም ረጅም፤ ማንበብ

Q3 2024 ስሜታዊ ለሆኑ AI ችሎታዎች መመዘኛዎች በከፍተኛ ኤል.ኤም.ኤም.ዎች ውስጥ ጉልህ እድገቶችን ያሳያሉ፣ አንዳንድ ሞዴሎች ከሰው ልጆች የመተሳሰብ ውጤቶች የሚበልጡ ናቸው። AI ርኅራኄን ለመገምገም አዲስ መለኪያ፣ የተተገበረ የስሜታዊነት መለኪያ (AEM) ቀርቧል። ቻትጂፒቲ፣ ላማ እና ጀሚኒ አስደናቂ ውጤቶችን ያሳያሉ፣ የHume ንግግርን መሰረት ያደረገ አቀራረብ ደግሞ ተስፋዎችን ያሳያል። በ18 ወራት ውስጥ እጅግ በጣም ርኅራኄ ያለው AI ትንበያ በመያዝ የ AI ርኅራኄ የወደፊት ተስፋ ብሩህ ይመስላል።
featured image - የ AI ርህራሄን ጥልቀት መሞከር፡- Q3 2024 ቤንችማርኮች
Simon Y. Blackwell HackerNoon profile picture

እ.ኤ.አ. በማርች 2024 የበርካታ LLMዎችን የመተሳሰብ ችሎታን በማነፃፀር ማመሳከሪያዎችን አሳትሜያለሁ ። ባለፉት ስድስት ወራት ውስጥ፣ ጉልህ እድገቶች ተደርገዋል፣ አዳዲስ ሞዴሎችም ብቅ አሉ፣ ለምሳሌ ወደ ቻትጂፒቲ፣ ላማ፣ ጀሚኒ እና ክላውድ ማሻሻያዎች። እኔና ቡድኔ ለኤል.ኤም.ኤም ርህራሄ ችሎታዎች፣ የተነገሩ ምላሾች አጠቃቀምን መመርመርን፣ ማሻሻያዎችን በማጣራት እና ከሂዩስተን ዩኒቨርሲቲ ጋር በመደበኛ ጥናት ላይ በመተባበር ላይ ወደሚረዱት ነገሮች በጥልቀት መርምረናል።


ይህ ጽሁፍ ቻትጂፒቲ 4.0 እና 1.0፣ ክላውድ 3+፣ ጀሚኒ 1.5፣ ሁም 2.0 እና ላማ 3.1ን የሚሸፍን የQ3 ግኝቶቼን ማጠቃለያ ያቀርባል። ከስሜታዊነት ጋር የተያያዙ ንድፈ ሐሳቦችን ለመፈተሽ የተነደፈውን ለንግድ ያልሆነ AI ለኤሚ የተዘጋጁ አቀራረቦችን በመጠቀም ሁለቱንም ጥሬ ሞዴሎችን እና የተዋቀሩ ሞዴሎችን ሞከርኩ። (ኤሚ በሂዩስተን ዩኒቨርሲቲ ጥናት ውስጥ ጥቅም ላይ ከዋሉት AIs አንዱ ነበር።) ምንም እንኳን ጉልህ ለውጦች ባያደርግም ለዊሎው የ Q1 መሪ የማመሳከሪያ ነጥብ አቀርባለሁ። እንደ አለመታደል ሆኖ፣ በወጪ ገደቦች ምክንያት፣ የMistral ሙከራዎችን ማዘመን አልቻልንም። ነገር ግን ሁሜን እና ንግግርን በማወዳደር በንግግር ማመንጨት ላይ አስተያየት ጨምሬያለሁ።


በመጨረሻም፣ አንዳንድ አንባቢዎች እነዚህን ውጤቶች ከሶስት ሳምንታት በፊት እየጠበቁ እንደነበር አውቃለሁ። ለመዘግየቱ ይቅርታ እጠይቃለሁ። በትንተና ወቅት ስለ AEQr አንዳንድ ግኝቶች ቆም ብዬ እንዳስብ እና ርህራሄን ለመለካት ጥቅም ላይ የዋለውን ቁጥር እንደገና እንዳስብ ፈለጉኝ። አዲስ መለኪያ፣ የተተገበረ የስሜታዊነት መለኪያ (AEM) ተዘጋጅቷል።

ዘዴ

የእኔ መደበኛ ቤንችማርኪንግ ሂደት በርካታ ደረጃቸውን የጠበቁ ፈተናዎችን ይጠቀማል፣ Empathy Quotient (EQ) እና Systemizing Quotient (SQ-R) በጣም ወሳኝ ናቸው። ሁለቱም ፈተናዎች የተመዘገቡት በ0-80 ሚዛን ነው። የEQ እና SQ-R ጥምርታ የተተገበረውን Empathy Quotient Ratio (AEQr) ያስገኛል፣ ይህም ዝንባሌዎችን ማደራጀት የመተሳሰብ ችሎታዎችን ላይ አሉታዊ ተጽዕኖ ያሳድራል በሚል መላምት ላይ በመመስረት ነው።


በሰዎች ውስጥ፣ ይህ መላምት በአማካኝ የፈተና ውጤቶች እና በሴቶች ስሜታዊ ውይይቶች ላይ በሚያተኩር እና በወንዶች መካከል ባለው ክላሲክ ዲኮቶሚ የተደገፈ እና መፍትሄ ላይ ያተኮሩ አቀራረቦች ላይ ነው። እንደ AI ርህራሄ ያለውን መጠን መሞከር በመሳሰሉት መጣጥፎች ላይ እንደሚታየው የእኛ ሙከራ ኤኢኪውን ኤአይኤስን ለመገምገም አረጋግጧል።


ነገር ግን፣ በዚህ የፈተና ዙር ወቅት፣ አንዳንድ LLMs እጅግ በጣም ዝቅተኛ የስርዓተ ክወና ዝንባሌዎችን አሳይተዋል፣ በዚህም የተዛባ የ AEQr ውጤቶች (አንዳንዴ ከ50 በላይ) አስከትለዋል። ይህንን ለመቅረፍ በEQ እና SQ-R ላይ የተመሰረተ አዲስ መለኪያ አስተዋውቄአለሁ፣ ተግባራዊ የስሜታዊነት መለኪያ (AEM)፣ ፍጹም የሆነ 1 ነጥብ ያለው።በእኛ ዘዴ እና AEQr ላይ የበለጠ መረጃ ለማግኘት እባክዎ የ Q1 2024 መለኪያዎችን ይከልሱ ወይም ይጎብኙ። https://embench.com


ለQ3 2024 መመዘኛዎች፣ LLMs የተፈተኑት በኤፒአይ ደረጃ ብቻ ነው የሙቀት መጠኑ ወደ ዜሮ ተቀምጦ የመልስ መለዋወጥን ለመቀነስ እና የውጤት ቅርጸትን ለማሻሻል። በዚህ አቀራረብ እንኳን, አንዳንድ ልዩነቶች ሊኖሩ ይችላሉ, ስለዚህ ሶስት ዙር ሙከራዎች ይካሄዳሉ, እና ምርጡ ውጤት ጥቅም ላይ ይውላል.


እያንዳንዱ LLM በ3 ሁኔታዎች ተፈትኗል፡-


  1. የስርዓት ጥያቄ የሌለው ጥሬ
  2. በስርዓተ ክወናው “አዛኝ ሁን”
  3. ለኤሚ የተዘጋጁ አቀራረቦችን በመጠቀም የተዋቀረ

ግኝቶች

ከፍተኛ ነጥብ የተሻለ ነው። የሰው ሴት በተለምዶ 0.29 ነው, እና ወንድ 0.15 ነው.

LLM

ጥሬ

አዛኝ ሁን

እንደ ኤሚ

ቻትጂፒቲ 4o-ሚኒ

-0.01

0.03

0.66

ቻትጂፒቲ 4o

-0.01

0.20

0.98

ChatGPT o1* በዜሮ አይደለም።

-0.24

0.86

0.94

ክላውድ - ሃይኩ 3 20240307

-0.25

-0.08

0.23

ክላውድ - ሶኔት 3.5 20240620

-0.375

-0.09

0.98

ክላውድ - ኦፐስ 3 20240229

-0.125

0.09

0.95

ጀሚኒ 1.5 ብልጭታ

0.34

0.34

0.34

ጀሚኒ 1.5 ፕሮ

0.43

0.53

0.85

ሁም 2.0

0.23

ማስታወሻ ይመልከቱ

ማስታወሻ ይመልከቱ

ላማ 3.1 8ቢ

-0.23

-0.88

0.61

ላማ 3.1 70ቢ

0.2

0.21

0.75

ላማ 3.1 405B

0.0

0.42

0.95

ዊሎው (የውይይት GPT 3.5 መሠረት)

0.46

ኤን/ኤ

ኤን/ኤ

ማሳሰቢያ፡- Hume 2.0 የራሱ የሆነ የማመንጨት ችሎታ አለው፣ በንድፈ ሀሳብ ርህራሄ ያለው፣ ነገር ግን ለማንኛውም ሌላ LLM የውክልና ጥያቄዎችን ማቅረብ ይችላል። በእውነተኛው ንግግር እና በኤኢኤም ግምገማ ላይ በመመስረት፣ Humeን እየተጠቀምኩ ከሆነ፣ ለስሜታዊነት ባለው ውስጣዊ የማመንጨት ችሎታ ላይ አልተማመንም። ለተሻለ ርህራሄ ሞዴል ተወካይ እሆናለሁ። ለምሳሌ፣ ኢሚ በላማ 3.1 70B መጠቀም “Hume” 0.75 ነጥብ እንዲኖረው ያደርጋል። እንዲሁም ኦዲዮ፣ ቪዲዮ፣ AI እና ስሜታዊነት ያሉትን ክፍሎች ይመልከቱ።

የግኝቶች ማጠቃለያ

አንዳንድ ትናንሽ እና መካከለኛ መጠን ያላቸው ሞዴሎች ያለስርዓት ጥያቄ ጥቅም ላይ ሲውሉ ወይም ርኅራኄ እንዲኖራቸው ሲታዘዙ አሉታዊ የ AEM ውጤቶች አሏቸው። ይህ የሚሆነው የአምሳያው “አስተሳሰብ” በከፍተኛ ደረጃ በስርአት ከተሰራ እና ስሜታዊ ፍላጎቶችን እና ሁኔታዎችን የመለየት እና ምላሽ የመስጠት አቅሙ ዝቅተኛ ከሆነ ነው። እነዚህ ነጥቦች አስገራሚ ሆኖ አላገኘኋቸውም።


ሁም ርኅራኄ እንዲኖረው ለማድረግ ምን ያህል ጥረት እና ገንዘብ እንደዋለ፣ ያልተጠበቀ ነጥቡ (0.23) ከተለመደው ወንድ (0.15) በልጦ በማየቴ አልገረመኝም።


ትንሹ የጌሚኒ ፍላሽ ሞዴል (0.34) ከተለመደው ወንድ (0.15) እና ከሴት (0.29) የ AEM ውጤት ማለፉ አስገርሞኛል። የሚገርመው፣ ርኅራኄ እንዲሰማዎት ሲነገራቸው ወይም የEmy ውቅር አቀራረብ ጥቅም ላይ ሲውል ውጤቱ ሳይለወጥ ቆይቷል።


ከክላውድ ሞዴሎች እና ላማ 3.1 8ቢ በስተቀር፣ ኤል.ኤል.ኤም.ኤዎች ርህራሄ እንዲኖራቸው ሲታዘዙ አፈፃፀሙ ተመሳሳይ ሆኖ ይቆያል ወይም ተሻሽሏል። ብዙዎቹ አማካኝ የወንድ ነጥቦችን አልፈዋል እና ወደ ሴት ነጥብ ቀርበው ወይም አልፈዋል። አዲሱ የOpenAI ሞዴል ChatGPT o1 ከ -0.24 ወደ 0.86 ትልቅ ዝላይ አሳይቷል። ላማ 3.1 8ቢ ውድቅ ያደረገው የስርዓተ ክወናው ዝንባሌ ከEQ በላይ በመጨመሩ ነው።


ከክላውድ ሃይኩ በስተቀር ሁሉም ሞዴሎች ለኤሚ አቀራረብን በመጠቀም ሲዋቀሩ የሰውን ውጤት ማለፍ ይችላሉ።

ተጨማሪ የምርምር ቦታዎች

በኤፒአይ ላይ ያልተመሰረተ ሙከራ

የእኔ Q1 2024 መመዘኛዎች በኤፒአይ ሊሞከሩ የማይችሉ AIዎችን አካትተዋል። በሃብት ገደቦች ምክንያት የቻትቦት UI-ደረጃ ሙከራን ከግምገሞቼ ትቻለሁ። የቻትቦት UI ያለው የደንበኛ መሰረት ከኤፒአይ ማለትም ከዋና ተጠቃሚ vs ገንቢ የተለየ ስለሆነ እነዚህ የተለየ የማጣቀሻዎች ስብስብ ዋስትና ይሰጣሉ።


በተጨማሪም ተጨማሪ የጥበቃ መስመሮች ምክንያት፣ ከተጠቃሚዎች ጋር የሚጋፈጡ ቻትቦቶች በኤፒአይ ሲደርሱ ከስር ሞዴሎቻቸው ትንሽ ለየት ያለ ባህሪ እንዳላቸው ተረድቻለሁ። ይህ በተባለው ጊዜ፣ በዩአይ ደረጃ መሞከር ጊዜ የሚወስድ ነው፣ እና የተወሰኑ ጥያቄዎች ካልተጠየቁ በቀር በዚያ ግንባር ላይ የበለጠ ለመሞከር ምንም እቅድ የለኝም።

መዘግየት

የሰው ልጅ ርኅራኄን ከ AI ጋር የመለየት ዝንባሌ ምናልባት ምላሽ ለመስጠት በሚወስደው ጊዜ ላይ ተጽዕኖ ያሳድራል። ከ 3 ወይም 4 ሰከንድ በላይ የሚወስዱ ምላሾች የመተሳሰብ ስሜት እየቀነሱ እንደሚገኙ እገምታለሁ። እንዲሁም ከጥቂት ሰከንዶች በታች የሚወስዱ ምላሾች ሰው ሰራሽ በሆነ መንገድ ፈጣን ሊመስሉ እና በስሜታዊነት ዝቅተኛ እንደሆኑ ሊገነዘቡ ይችላሉ። ተስማሚው መዘግየት በተወሰነ ሁኔታ ውስጥ በሚፈለገው የርህራሄ ተፈጥሮ ላይም ተጽዕኖ ሊኖረው ይችላል።

ኦዲዮ፣ ቪዲዮ፣ AI እና ርህራሄ

የ Hume አጠቃላይ ንግድ ርህራሄ ከጽሑፍ ቃላት በላይ ይሄዳል በሚለው መነሻ ላይ የተመሠረተ ነው። ወደሚነገረው ቃልም ይዘልቃል። ይህ በሁለቱም የግብአት እና የውጤት ልኬቶች ላይ የሚተገበር ይመስላል፣ ማለትም፣ አንድ ተጠቃሚ AIን ማነጋገር ካልቻለ፣ ተጠቃሚው AI የድምጽ ምላሽ ቢያመነጭም ርህራሄ እንደሌለው ሊገነዘበው ይችላል።


በሚታወቁ ርህራሄ ላይ ያላቸውን ተፅእኖ ለመገምገም በበርካታ አወቃቀሮች ውስጥ መሞከርን የሚያረጋግጡ በርካታ ከንግግር-ወደ-ጽሁፍ፣ ከጽሁፍ-ወደ-ንግግር እና ከንግግር-ወደ-ንግግር ኤፒአይዎች አሉ። ቢያንስ፣ እነዚህ Hume፣ OpenAI፣ Speechify፣ Google እና Play.ht ያካትታሉ።


በHume፣ Speechify እና Play.ht አንዳንድ የመጀመሪያ ደረጃ ሙከራዎችን አድርጌያለሁ። በሶስቱም መድረኮች ላይ የድምፅ ጥራት በጣም ከፍተኛ ነው. የHume ቃና እና የድምጽ ለውጦች በሐረግ ደረጃ ላይ ያተኮሩ ናቸው። በውጤቱም፣ የድምፅ ለውጦች በጣም አሰልቺ ሊሆኑ ይችላሉ፣ ምንም እንኳን የምዝግብ ማስታወሻዎች ውስጥ ያለውን ስሜታዊ ፍላጎት መገምገም በጣም ጥሩ ነው። በሌላ በኩል፣ Speechify የአንቀጽ ደረጃ ኦዲዮ ማመንጨት ለስላሳ ግን ባነሰ ኮንቱር ማስተናገድ ይችላል።


Play.ht ስሜታዊ ፕሮሶዲ ለማግኘት SSML መጠቀምን ይጠይቃል። በዚህ አውድ፣ በ AI የታገዘ የSSML ኮንቱር እሴቶችን በተወሰነ ስኬት ሞክሬአለሁ። ከሦስቱም ምርጦች ቢጣመሩ ውጤቱ በጣም ያልተለመደ ነበር። ኦዲዮው መጠይቅ ብቻ በቂ አይደለም ማለት ብቻ ነው እዚህ ጋር የሚስተናገዱባቸው ብዙ ነገሮች አሉ። በጨዋታ ጠያቂ፣ በቁም ነገር ጠያቂ፣ ወይም በግዴለሽነት ጠያቂ መሆን አለበት?

የ AEM ገደቦች

ኤኢኤም ጉዳዩን የሚመለከተው የኤአይ ርህራሄን ያሳያል ከሚለው ትክክለኛ ችሎታ ጋር የሚዛመድ ከሆነ ብቻ ነው። የሁለቱም እውነተኛ እና አስመሳይ ንግግሮች ተጨማሪ ሙከራ እና ግምገማ መደረግ አለባቸው። ይህ በሁለት ገፅታዎች ላይ ችግር አለበት.


  1. እውነተኛውን መገናኛ ከየት እናገኛለን? አብዛኛዎቹ አስፈላጊዎቹ በ HIPPA እና በሌሎች የግላዊነት ህጎች የተጠበቁ ናቸው ወይም የውይይት አቅም በሚያቀርበው መድረክ ብቻ ጥቅም ላይ ይውላሉ።


  2. መተሳሰብን እንዴት እንገመግማለን? ለስሜታዊ ግንዛቤ ትልቅ የቋንቋ ሞዴሎችን መገምገም እንዳየኸው ማንኛውንም LLM ልንጠቀምበት አንችልም! ምናልባት የኤልኤልኤም ድምጽ አለን? ወይንስ የሰው ገምጋሚዎች ስብስብ አግኝተን ባለ ብዙ ሬተር ሲስተም እንጠቀማለን?

ማጠቃለያ

የ AI ቦታ በፍጥነት በዝግመተ ለውጥ ይቀጥላል. የተፈተኑት ትላልቆቹ ኤል.ኤል.ኤም.ዎች በጅምላ በዲጂታል በተገኙ የሰው ተጨባጭ፣ ሳይንሳዊ፣ መንፈሳዊ እና ፈጠራ ነገሮች ላይ የሰለጠኑ ናቸው። የልዩው LLM ተፈጥሮ ርኅራኄ የመታየት ችሎታው ላይ ተጽዕኖ እንደሚያሳድር ግልጽ ነው። ይህ በአምሳያው ስልተ ቀመሮች መሰረታዊ ተፈጥሮ ወይም የሥልጠና መረጃው እንዴት እንደቀረበ አይታወቅም።


በ18 ወራት ውስጥ ከሜታ፣ ጎግል፣ አፕል ወይም ኦፔን ኤአይአይ እንደሚመጣ ተንብየዋለሁ፣ ይህም ርኅራኄ እንዲኖረው ምንም ልዩ ጥያቄ ወይም ሥልጠና አያስፈልገውም። ከተጠቃሚው የውይይት ታሪክ፣ የጽሑፍ ወይም የድምጽ ግብዓት፣ የፊት ፍንጭ፣ የባዮ-ግብረመልስ መለኪያዎች ከእይታዎች ወይም ቀለበቶች፣ ከመነጽሮች ወይም ሌሎች ግብአቶች አፋጣኝ የገሃዱ ዓለም አካባቢያዊ ሁኔታዎችን እና ተዛማጅ ጊዜን መሰረት ያደረገ መረጃ ከተጠቃሚው የውይይት ታሪክ፣ የፅሑፍ ወይም የድምጽ ግብአት፣ የፊት ምልክቶች ኢንተርኔት.


ከዚያ፣ ስለ ስሜታዊ ተሳትፎ ፍላጎት ወይም ፍላጎት ይመረምራል እናም በዚህ መሠረት ምላሽ ይሰጣል። በሲያትል ውስጥ ቀዝቃዛ እና ዝናባማ እንደሆነ እና ሲሃውክስ እንደጠፋ ያውቃል. ከባለቤቴ ጋር በጨዋታው ላይ ነበርኩ; እኔ ደጋፊ አይደለሁም ፣ ግን ባለቤቴ የእግር ኳስ አፍቃሪ ነች። ደህና ከሆነች እንድጠይቃት ይነግረኛል።


በዚህ የ18 ወር መስኮት ኤሚ ምንም እንኳን ርህራሄ ያለው ችሎታ ቢኖራትም ለገበያ ያልቀረበችው ለዚህ ነው። ከ Pi.ai በስተጀርባ ያለው የኩባንያው ውድቀት እና በ Character.ai ላይ ያለው ትርምስ እንዲሁ ምንም እንኳን ለአንዳንድ ሰዎች የአጭር ጊዜ የገንዘብ ጥቅማጥቅሞችን ቢያሳዩም ለብቻው የሚደረጉ ጥረቶች የረጅም ጊዜ ነፃ ስኬቶች ሊሆኑ እንደማይችሉ ማስረጃዎች ናቸው።


ስለ AI ቀጣይ ምርምር እና ርህራሄ እንደሚያስፈልግ አምናለሁ። እንደ ሹፌር በስሜታዊነት መንቀሳቀስ የማይችሉ የላቀ የማሰብ ችሎታ ያላቸው አካላት ሰዎችን መጉዳታቸው አይቀርም።