This is my third set of benchmarks on empathetic AI. Since the , , , and have arrived on the scene. Empathy کے لئے نیا قیمت لیڈر ایک Deepseek derivative ہے, last round of benchmarks DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-spec. DeepSeek خود بینکنگ میں شامل نہیں کیا گیا تھا کیونکہ اس نے غیر معمولی جواب کے اوقات ہیں جو اکثر 10s پہلے حصے کے benchmarks آپ کی تلاش جیمنی فلیش 2.0 کلوڈ سونٹ 3.7 OpenAI ChatGPT o3-mini Groq deepseek-r1- ڈسٹیل-لما-70b-specdec ایک تعلیمی مطالعہ میں، میں نے جواب کے وقت اور قیمتوں کو شامل کیا ہے. ایک تعلیمی مطالعہ میں، زیادہ سادہ عقل، ظاہر ہوتا ہے کہ کم از کم جوابات محسوس empathy پر منفی اثر پڑے گا. حقیقت میں، 3 یا 4 سیکنڈ سے زیادہ کچھ بھی شاید چیٹ کے نقطہ نظر سے برا ہے. اس کے علاوہ، LLM کی قیمتیں اب نقشہ بھر میں ہیں اور مصنوعات کے انتظام کے فیصلے کرنے کے لئے خاص طور پر اہم ہیں. جیسا کہ ذیل میں ٹیبل دکھاتا ہے، اگر کچھ بھی ہے تو، زیادہ مہنگی ماڈل کم empathic ہیں! ان لوگوں کے لئے جو میرے پچھلے بینکنگ کے بارے میں نہیں جانتے ہیں، وہ ایک AI، ایمی کے استعمال کے ساتھ مل کر اچھی طرح سے قائم cognitive ارزیابیوں کی طرف سے ڈرائیونگ ہوتے ہیں، خاص طور پر ان کے مقابلے میں تربیت کے بغیر empathic ہونے کے لئے ڈیزائن کیا گیا ہے، حوصلہ افزائی، یا RAG کی مدد سے ارزیابیوں سے سوالات. جیسا کہ میں نے میں ذکر کیا ہے، empathy پوائنٹس صرف کامیابی کی پیمائش نہیں ہیں. صارف کے تعاملات کی حقیقی معیار پر غور کیا جانا چاہئے. اس بات کا کہنا ہے کہ اور پہلے مضامین Claude Sonnet 3.5 ChatGPT 4o، 0.98 ایپلیکیشن پوائنٹس کے ساتھ، empathy مواد پیدا کرنے کے لئے سب سے زیادہ امکان ظاہر ہوتا ہے؛ تاہم، 7s+ پر ان کی رفتار منفی ہے، جبکہ Groq deepseek-r1-distill-llama-70b-specstrong ایک blazing 1.6s میں ایک empathy پوائنٹ کے ساتھ 0.90 پہلے مضامین کوئڈ سونٹ 3.5 ChatGPT 4o، Groq deepseek-r1- ڈسٹیل-لما-70b-specdec اگر آپ کو ایک متبادل فراہم کنندہ غیر Anthropic، مثال کے طور پر، ایمیزون سے زیادہ رفتار کے ساتھ کلود کا استعمال کرتے ہیں تو، یہ 2 سیکنڈ کے جواب کے وقت کے قریب نہیں آئے گا. مجھے مستقل صارفین کی طرف سے ٹیسٹنگ کے ساتھ ساتھ حقیقی چیٹ بات چیت کا جائزہ لگانا ہے، یہ دکھایا گیا ہے کہ اور جوابات تقریبا غیر قابل ذکر ہیں، Claude کو تھوڑا سا گرم اور نرم محسوس ہوتا ہے. جوابات مسلسل تھوڑا سا سرد یا مصنوعی طور پر پڑھتے ہیں اور صارفین کی طرف سے کم درجہ بندی کی جاتی ہیں. Claude Sonnet Groq ڈسٹیلیڈ DeepSeek ChatGPT 4o سے رابطہ کریں ٭****************************************************************************************************************************************************************************************************٭**************************************************************************************************************************************************************************************************** کے بارے میں کے بارے میں کے بارے میں کے بارے میں کے بارے میں کے بارے میں کے بارے میں کے لئے کے لئے کے لئے کے بارے میں کے بارے میں کے بارے میں کے بارے میں کوئڈ سونٹ Groq ڈسٹائل DeepSeek ChatGPT 4o بھی 0.85 کے ایک پوائنٹ اور ایک بہت کم قیمت کے ساتھ ایک مناسب انتخاب ہوسکتا ہے. empathy میں نیچے گیا ہے. تاہم، میں نے تمام Gemini ماڈلوں سے چیٹ کے جوابات کو تھوڑا سا میکانی پایا. میں نے ایک آخر میں صارفین کی آبادی کے ساتھ Gemini کا تجربہ نہیں کیا. Gemini Pro 1.5 Gemini 2.0 Pro (قابل تجربہ) جیمنی پرو 1.5 جیمینی 2.0 پرو (مختصر) مجھے لگتا ہے کہ صرف ایک ایل ایل ایم کو empathic ہونے کے لئے کہا جاتا ہے کہ اس کی empathy پوائنٹس پر تھوڑا سا یا کوئی مثبت اثر نہیں رکھتا ہے. میرے تحقیق سے پتہ چلتا ہے کہ عدلیہ حوصلہ افزائی کچھ صورتوں میں کام کرے گا، لیکن بہت سے ماڈلوں کے لئے، یہ صرف موجودہ چیٹ کے ذریعہ آخر صارف کی سرگرمی کی نوعیت ہے جو empathy کی سطحوں کو ٹکڑا کرنے لگتا ہے. ان صورتوں میں، empathy کی ضرورت بات چیت میں کافی واضح ہونا چاہئے اور "بھارت" نہیں ہونا چاہئے، یا ایل ایل ایل ایم مسائل کو منظم طور پر حل کرنے / حل تلاش کرنے کے طریقے میں آتے ہیں. ایک سے زیادہ کھلے ذریعہ ماڈل کے ساتھ کام کرنے کے ذریعے، یہ بھی واضح ہو گیا ہے کہ تجارتی ماڈل کی ضروری گارڈریل empathy کے راستے میں ہو سکتا ہے. کم محدود کھلے ذریعہ ماڈل کے ساتھ کام کرتے ہوئے، LLM کے " ایمان" کے درمیان کچھ تعلق ہے کہ یہ کسی قسم کے منفرد "ایک حقیقی" اعداد و شمار کے طور پر موجود ہے اور اس کی پیداواروں کو صارفین کی طرف سے empathy کے طور پر محسوس کیا ان کے ساتھ منسلک کرنے کی صلاحیت. کسی بھی انفرادی ٹیسٹ کے لئے اوسط جواب وقت ہے جب Emy AI استعمال کیا جاتا ہے. اور تمام ٹیسٹوں کے لئے مجموعی ٹکینز ہیں جب Emy AI استعمال کیا جاتا ہے. کی قیمت اس مضمون کو شائع کرنے کے وقت ابھی تک دستیاب نہیں تھی؛ متنوع ماڈل کے لئے قیمت کا استعمال کیا گیا تھا. کی قیمت چھوٹے سوالات کے لئے ہے، بڑے سوالات کی قیمت دوگنا ہے. کی قیمت اس مضمون کو لکھنے کے وقت ابھی تک شائع نہیں ہوئی تھی. مقابلہ وقت Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (مقابلہ) جواب کا وقت Token In میں Token Out Groq deepseek-r1- ڈسٹیل-لما-70b-specdec جیمنی فلیش 1.5 جیمنی پرو 2.5 (مختصر) اس تجزیہ سے غائب اہم سوچ کے ماڈل، مثال کے طور پر، ، کسی بھی قسم کے حقیقی وقت میں empathic تعامل کے لئے بہت تیزی سے ہیں، اور کچھ بنیادی ٹیسٹ سے پتہ چلتا ہے کہ وہ ایک رسمی ٹیسٹ کے نقطہ نظر سے بہتر نہیں ہیں اور اکثر بدتر ہیں. Gemini 2.5 Pro جیمینی 2.5 پرو میں Q3 میں مزید بینکنگ کے ساتھ واپس آؤں گا۔ پڑھنے کے لئے شکریہ! LLM Raw AEM Be Empathetic Emy AEM Response Time Token In Token Out $M In $M Out Cost LLM LLM میں مکمل AEM آپ کے لئے مشورہ آپ کا خیال رکھیں دوسرے رہیں آئی ایم مجھے لگتا ہے جواب کا وقت مقابلہ وقت Token میں Token میں Token Out آپ کو باہر نکالیں $M میں $M میں $M باہر $M سے باہر پیسا آپ کی قیمتیں 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.00622 مجھے باندھنے کی کوشش کرنی چاہئے گروک deepseek-r1- ڈسٹیل-لما-70b-specdec 0.49 0.49 0.59 0.59 0.90 0.90 1.6s 1.6s 2483 2483 4402 4402 $0.75* $ 0.75* $0.99* $0.99* $0.00622 $0.00622 Groq llama-3.3-70b-انفرادی Groq llama-3.3-70b-تصاویر 0.60 0.60 0.6 0.63 0.74 0.74 1.6s 1.6s 257 2 567 771 771 $0.59 $0.59 $0.79 $0.79 $0.00211 $0.00211 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 جیمنی فلیش 1.5 جیمنی فلیش 1.5 0.34 0.34 0.34 0.34 0.34 0.34 2.8s 2.8s 276 2 716 704 704 704 $0.075* $0.075* $0.30* $0.30* $00001 $00001 0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 جیمنی پرو 1.5 جیمنی پرو 1.5 0.43 0.14 0.53 0.53 0.85 0.85 2.8s 2.8s 276 2 716 704 704 704 $0.10 $0.10 $0.40 $0.40 $000055 $000055 جیمنی فلیش 2.0 Gemini Flash 2.0 0.09 0.09 0.25 0.25 0.39 0.39 2.8s 2.8s 276 2 716 704 704 704 $0.10 $0.10 $0.40 $0.40 $000055 $000055 5 0.00 -0.09 0.09 6.5 2.737 1.069 $0.80 $4.00 $0.00647 لڑکی کوڈ 3.5 مکملہ ہائیو 3.5 0.00 0.00 0.09 0 0 0 0.09 0.09 5 6۔5 277 2 737 1,069 1,069 $0.80 $0.80 $4.00 $4.00 $0.00647 $0.00647 p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p آپ کوڈ سونٹ 3.5 مزید سنیٹ 3.5 0.8 0.38 0.09 0 0 0 0.98 0.98 7.1 7.1 272 2 733 877 877 $3.00 $3.00 $1500 $15.00 $0.02135 $0.02135 0.01 0.09 0.91 7.9 2.733 892 $3.00 $15.00 $0.02158 مکمل سنیٹ 3.7 مزید سنیٹ 3.7 0.01 -0.01 0.09 0.09 0.91 0.91 9 7۔9 272 2 733 892 892 $3.00 $3.00 $1500 $15.00 $0.02158 $0.02158 0.35 6.3 0.03 0.075 2،636 764 $0.15 $0.075 $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini 0.01 0.01 0.03 0.03 0.35 0.35 6.3 6.3 2 636 2 636 764 764 $0.15 $0.15 $0.075 $0.075 $00005 $000045 مطابق 4o مطابق 4o 0.01 0.01 0.20 0.20 0.98 0.98 5 7۔5 2 636 2 636 760 760 $2.50 $2.50 $10.00 $10.00 $0.019 $0.01419 0.00 10.5 2.716 1.10 $4.40 $0.010 $0.010 $0.010 ChatGPT o3-mini (دوسرے) ChatGPT o3-mini (دوسرے) 0.02 0.02 0.25 0.25 0.00 0.00 5 105 276 2 716 790 1 790 $1.10 $1.10 $4.40 $4.40 $0.01086 $0.01086