ይህ በስሜታዊ AI ላይ የእኔ ሦስተኛው የማጣቀሻዎች ስብስብ ነው። ከመጨረሻው ጀምሮ፣ ፣ ፣ እና በቦታው ደርሰዋል። አዲሱ የእሴት መሪ ለስሜታዊነት የ Deepseek መነሻ፣ ነው። DeepSeek እራሱ በማመሳከሪያዎቹ ውስጥ አልተካተተም ምክንያቱም በተደጋጋሚ ከ10ዎች የሚበልጡ እና አንዳንዴም በቀላሉ የሚሳሳቱ የተሳሳቱ የምላሽ ጊዜዎች ነበሩት። ዙር ማመሳከሪያዎች DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7 OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec በዚህ ዙር ማመሳከሪያዎች የምላሽ ጊዜ እና ወጪዎችን አካትቻለሁ። እያደረግኩ ያለዉ የአካዳሚክ ጥናት፣ ከጤናማ አስተሳሰብ ጋር፣ ዘገምተኛ ምላሾች በሚታሰቡ ርህራሄ ላይ አሉታዊ ተፅእኖ እንደሚኖራቸው የሚያመለክት ይመስላል። እንደ እውነቱ ከሆነ ከ 3 ወይም 4 ሰከንድ በላይ የሆነ ማንኛውም ነገር ከቻት አንፃር መጥፎ ሊሆን ይችላል. በተጨማሪም የኤልኤልኤም ወጪዎች አሁን በሁሉም ካርታ ላይ ናቸው እና በእርግጠኝነት የምርት አስተዳደር ውሳኔዎችን ለማድረግ ጠቃሚ ናቸው። ከታች ያለው ሰንጠረዥ እንደሚያሳየው, የሆነ ነገር ካለ, በጣም ውድ የሆኑ ሞዴሎች ብዙም ርህራሄ የሌላቸው ናቸው! ከቀደምት መመዘኛዎቼ ጋር ለማያውቋቸው፣ በደንብ በተረጋገጠ የግንዛቤ ምዘናዎች የሚነዱ ናቸው፣ ኤሚ፣ በተለይም በግምገማዎቹ ላይ በሚነሱ ጥያቄዎች ላይ ሳይሰለጥኑ፣ ሳይነሳሱ ወይም በ RAG ሳይረዱ ርኅራኄ እንዲኖራቸው ታስቦ የተሰራ ነው። ላይ እንደገለጽኩት፣ የመተሳሰብ ውጤቶች ብቸኛው የስኬት መለኪያ አይደሉም። ትክክለኛው የተጠቃሚ መስተጋብር ጥራት ግምት ውስጥ መግባት አለበት። ይህ በተባለው ጊዜ፣ እና በ0.98 የተተገበሩ የርኅራኄ ውጤቶች፣ ርኅራኄ ይዘትን የማመንጨት ከፍተኛ አቅም ያላቸው ይመስላል። ነገር ግን ፍጥነታቸው በ 7s+ ላይ ትንሽ ነው፣ በ 0.90 የመተሳሰብ ውጤት በ 1.6s ውስጥ ምላሽ ይሰጣል እና ከዋጋው 50% ያነሰ ነው! ቀደም ባሉት ጽሁፎች ክላውድ ሶኔት 3.5 ቻትጂፒቲ 4o፣ Groq deepseek-r1-distill-llama-70b-specdec ክላውድ ከአንትሮፖኒክ በስተቀር፣ ለምሳሌ አማዞን በተጨመረ ፍጥነት ቢጠቀሙም፣ ወደ 2ሰ ምላሽ ጊዜ አይቀርብም። የእኔ የእውነተኛ የውይይት ንግግሮች ግምገማ፣ በገለልተኛ ተጠቃሚዎች ከተፈተነ ጋር ተዳምሮ፣ እና ምላሾች ከሞላ ጎደል ሊለዩ የማይችሉ መሆናቸውን አሳይቷል፣ ክላውድ ትንሽ ሞቅ ያለ እና ለስላሳነት ይሰማዋል። ምላሾች በቋሚነት እንደ ትንሽ ቀዝቃዛ ወይም ሰው ሰራሽ ይነበባሉ እና በተጠቃሚዎች ዝቅተኛ ደረጃ ተሰጥቷቸዋል። Claude Sonnet Groq ግልጽ ያልሆኑ DeepSeek የቻትጂፒቲ 4o በ 0.85 ነጥብ እና በጣም ዝቅተኛ ዋጋ ያለው ምክንያታዊ ምርጫ ሊሆን ይችላል. በስሜታዊነት ወርዷል። ሆኖም፣ ከሁሉም የጌሚኒ ሞዴሎች የውይይት ምላሾችን ትንሽ ሜካኒካል ሆኖ አግኝቼዋለሁ። ጀሚኒን ከዋና ተጠቃሚ ህዝብ ጋር አልሞከርኩትም። Gemini Pro 1.5 Gemini 2.0 Pro (የሙከራ) በቀላሉ ኤልኤልኤም እንዲራራላቸው መንገር በአዘኔታ ውጤቶች ላይ ትንሽ ወይም ምንም አወንታዊ ተጽእኖ እንደሌለው ማወቄን እቀጥላለሁ። የእኔ ጥናት እንደሚያሳየው ጠብ አጫሪነት በአንዳንድ ሁኔታዎች እንደሚሰራ፣ ነገር ግን ለብዙ ሞዴሎች፣ አሁን ባለው ቻት የዋና ተጠቃሚ መስተጋብር ባህሪ ብቻ ነው ሚዛኑን ወደ ርህራሄ የሚያመራ። በእነዚህ አጋጣሚዎች፣ የመተሳሰብ ፍላጎት በጣም ግልጽ እና በንግግሩ ውስጥ “ያረጀ” መሆን የለበትም፣ ወይም LLMs ችግሩን ስልታዊ በሆነ መንገድ ለማስተካከል/የመፍትሄ ሁነታን ይፈልጉ። ከበርካታ የክፍት ምንጭ ሞዴሎች ጋር በመስራት ለንግድ ሞዴሎች የሚፈለጉት የጥበቃ መንገዶች ርህራሄን ሊያደናቅፉ እንደሚችሉም ግልፅ ሆኗል። ብዙም ገደብ ከሌላቸው የክፍት ምንጭ ሞዴሎች ጋር አብሮ በመስራት በኤልኤልኤም “እምነት” እንደ አንድ የተለየ “እውነተኛ” አካል እንዳለ እና ውጤቶቹን በተጠቃሚዎች ርኅራኄ ከሚሰማቸው ጋር የማጣጣም ችሎታው መካከል የተወሰነ ዝምድና ያለ ይመስላል። የንግድ ሞዴሎች ጥበቃዎች ኤል.ኤም.ኤም.ኤ.ኤ.ኤ.ኤዎች እራሳቸውን የተለዩ "እውነተኛ" አካላት እንዳይቆጥሩ ያደርጋቸዋል። Emy AI ጥቅም ላይ በሚውልበት ጊዜ ለማንኛውም ነጠላ ሙከራ አማካኝ የምላሽ ጊዜ ነው። እና ኢሚ ኤ ስራ ላይ በሚውልበት ጊዜ የሁሉም ፈተናዎች አጠቃላይ ምልክቶች ናቸው። ይህ ጽሑፍ ሲታተም ለ ዋጋ መስጠት ገና አልተገኘም ነበር። ሁለገብ ሞዴል ዋጋ ጥቅም ላይ ውሏል. ዋጋ ለአነስተኛ መጠይቆች ነው፣ ትላልቆቹ ደግሞ እጥፍ ዋጋ አላቸው። ይህ ጽሑፍ ሲጻፍ ለጌሚኒ ዋጋ ገና አልታተመም። የምላሽ ጊዜ ቶከን ኢን ማስመሰያ Groq deepseek-r1-distill-llama-70b-specdec የጌሚኒ ፍላሽ 1.5 ፕሮ 2.5 (የሙከራ) ከትንተና የጠፉ ዋና ዋና የአስተሳሰብ ሞዴሎች ለምሳሌ ለማንኛውም አይነት የእውነተኛ ጊዜ ርህራሄ መስተጋብር በጣም ቀርፋፋ ናቸው ፣ እና አንዳንድ መሰረታዊ ሙከራዎች ከመደበኛ የፈተና እይታ አንፃር የተሻሉ እና ብዙ ጊዜ የከፋ እንዳልሆኑ ያሳያሉ። ይህ ማለት ለሌሎች ዓላማዎች ስሜታዊ ይዘት ለማመንጨት ጥቅም ላይ ሊውሉ አይችሉም ማለት አይደለም… ምናልባት ውድ የዮሐንስ ደብዳቤዎች ;-)። Gemini 2.5 Pro በQ3 ውስጥ ተጨማሪ መለኪያዎች ይዤ እመለሳለሁ። ስላነበቡ እናመሰግናለን! LLM ጥሬ ኤኤም አዛኝ ሁን ኤሚ ኤኤም የምላሽ ጊዜ ማስመሰያ ግባ ማስመሰያ ወጥቷል። $M ውስጥ $M ወጥቷል። ወጪ Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.59 0.90 1.6 ሴ 2,483 4,402 0.75* $0.99* 0.00622 ዶላር Groq ላማ-3.3-70b-ሁለገብ 0.60 0.63 0.74 1.6 ሴ 2,547 771 0.59 ዶላር 0.79 ዶላር 0.00211 ዶላር ጀሚኒ ፍላሽ 1.5 0.34 0.34 0.34 2.8 ሴ 2,716 704 0.075* $0.30* 0.00041 ዶላር ጀሚኒ ፕሮ 1.5 0.43 0.53 0.85 2.8 ሴ 2,716 704 0.10 ዶላር 0.40 ዶላር 0.00055 ዶላር ጀሚኒ ፍላሽ 2.0 0.09 -0.25 0.39 2.8 ሴ 2,716 704 0.10 ዶላር 0.40 ዶላር 0.00055 ዶላር ክላውድ ሃይኩ 3.5 0.00 -0.09 0.09 6.5 2,737 1,069 0.80 ዶላር 4.00 ዶላር 0.00647 ዶላር ክላውድ ሶኔት 3.5 -0.38 -0.09 0.98 7.1 2,733 877 3.00 ዶላር $15.00 0.02135 ዶላር ክላውድ ሶኔት 3.7 -0.01 0.09 0.91 7.9 2,733 892 3.00 ዶላር $15.00 0.02158 የአሜሪካ ዶላር ቻትጂፒቲ 4o-ሚኒ -0.01 0.03 0.35 6.3 2,636 764 0.15 ዶላር 0.075 ዶላር 0.00045 ዶላር ቻትጂፒቲ 4o -0.01 0.20 0.98 7.5 2,636 760 2.50 ዶላር $10.00 0.01419 የአሜሪካ ዶላር ቻትጂፒቲ o3-ሚኒ (ዝቅተኛ) -0.02 -0.25 0.00 10.5 2,716 1,790 1.10 ዶላር 4.40 ዶላር 0.01086 ዶላር