यह सहानुभूति आईआई पर मेरे तीसरे बेंचमार्क सेट है. , , , और दृश्य पर पहुंच गए हैं. सहानुभूति के लिए नया मूल्य नेता एक डीपसेक उत्प्रेरक है, . डीपसेक स्वयं बेंचमार्क में शामिल नहीं पहले बेंचमार्क के दौर DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specstrong पिछले दौर के बेंचमार्क गहरी खोज जीमिनी फ्लैश 2.0 क्लाउड सोननेट 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec बेंचमार्क के इस दौर में, मैंने प्रतिक्रिया समय और लागत को शामिल किया है। एक अकादमिक अध्ययन जो मैंने किया है, प्लस सामान्य बुद्धि, यह इंगित करता है कि धीमी प्रतिक्रियाएं धारणात्मक सहानुभूति पर नकारात्मक प्रभाव डालती हैं। वास्तव में, 3 या 4 सेकंड से अधिक कुछ भी शायद चैट परिप्रेक्ष्य से बुरा है। इसके अलावा, एलएलएम लागत अब पूरे नक्शे में हैं और निश्चित रूप से उत्पाद प्रबंधन निर्णय लेने के लिए प्रासंगिक हैं। मेरे पिछले संदर्भों के बारे में अज्ञात लोगों के लिए, वे एक एआई, एमी के उपयोग के साथ जुड़े अच्छी तरह से स्थापित संज्ञानात्मक मूल्यांकनों से प्रेरित होते हैं, जो विशेष रूप से मूल्यांकन से सवालों के साथ प्रशिक्षित किए बिना सहानुभूति रखने के लिए डिज़ाइन किए गए हैं, प्रोत्साहित किए जाते हैं या आरएजी-सहायता करते हैं। जैसा कि मैंने , सहानुभूति स्कोर सफलता का एकमात्र माप नहीं हैं. उपयोगकर्ता बातचीत की वास्तविक गुणवत्ता को ध्यान में रखा जाना चाहिए. यह कहा जाता है, और 0.98 लागू सहानुभूति स्कोर के साथ, सहानुभूति सामग्री उत्पन्न करने के लिए सबसे अधिक संभावना का प्रतिनिधित्व करते हैं; हालांकि, 7s+ पर उनकी गति marginal है, जबकि पहले लेखों में उल्लेख किया है Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specstrong पहले लेख क्लाउड सोनेट 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec यदि आप एंथ्रोपिक के अलावा एक वैकल्पिक प्रदाता से बढ़ी हुई गति के साथ क्लाउड का उपयोग करते हैं, उदाहरण के लिए, अमेज़ॅन, यह 2 सेकंड की प्रतिक्रिया समय के करीब नहीं आएगा। मेरी वास्तविक चैट संवादों की समीक्षा, स्वतंत्र उपयोगकर्ताओं द्वारा परीक्षण के साथ जोड़ा गया है, ने दिखाया है और प्रतिक्रियाएं लगभग अविश्वसनीय हैं, जबकि Claude बस थोड़ा गर्म और नरम महसूस करता है। Claude Sonnet Groq डिस्टिलेटेड DeepSeek क्लाउड सोनेट Groq डिस्टिलेटेड DeepSeek ChatGPT 4o भी 0.85 का एक स्कोर और बहुत कम लागत के साथ एक उचित विकल्प हो सकता है। सहानुभूति में गिर गया है. हालांकि, मैंने सभी Gemini मॉडल से चैट प्रतिक्रियाओं को थोड़ा यांत्रिक पाया है. मैंने अंत उपयोगकर्ता आबादी के साथ Gemini का परीक्षण नहीं किया है. Gemini Pro 1.5 Gemini 2.0 Pro (प्रयोगात्मक) यह भी पढ़ें: एडब्ल्यूएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएक्सएएचपीएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएएए जेमिनी प्रो 1.5 जेमिनी 2.0 प्रो (अनुसंधान) मैं अभी भी पाता हूं कि बस एक एलएलएम को सहानुभूति देने के लिए कहने से उसके सहानुभूति स्कोर पर कम या कोई सकारात्मक प्रभाव नहीं पड़ता है। मेरे शोध से पता चलता है कि आक्रामक प्रोत्साहन कुछ मामलों में काम करेगा, लेकिन कई मॉडलों के लिए, यह वर्तमान चैट के माध्यम से अंत उपयोगकर्ता भागीदारी की प्रकृति है जो सहानुभूति के लिए पैमाने को खींचने लगता है। कुछ ओपन सोर्स मॉडल के साथ काम के माध्यम से, यह भी स्पष्ट हो गया है कि वाणिज्यिक मॉडल के लिए आवश्यक गार्डरेल्स सहानुभूति के रास्ते में हो सकते हैं. कम प्रतिबंधित ओपन सोर्स मॉडल के साथ काम करते हुए, ऐसा लगता है कि एलएलएम के "विश्वास" के बीच कुछ सहानुभूति है कि यह कुछ अलग "वास्तविक" इकाई के रूप में मौजूद है और इसके अपने आउटपुट को उपयोगकर्ताओं द्वारा सहानुभूति के रूप में माना जाने वाले लोगों के साथ समायोजित करने की क्षमता। किसी भी एकल परीक्षण के लिए औसत प्रतिक्रिया समय है जब एमी एआई का उपयोग किया जाता है. और सभी परीक्षणों के लिए कुल टोकन हैं जब एमी एआई का उपयोग किया जाता है. के लिए मूल्य अभी तक उपलब्ध नहीं था जब यह लेख प्रकाशित किया गया था; बहुमुखी मॉडल के लिए मूल्य का उपयोग किया गया था. के लिए मूल्य छोटे प्रश्नों के लिए है, बड़े प्रश्नों की लागत दोगुनी है. के लिए मूल्य अभी तक प्रकाशित नहीं हुआ था जब यह लेख लिखा गया Response Time Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (प्रयोगात्मक) प्रतिक्रिया समय टोकन में टोकन आउट Groq deepseek-r1-distill-llama-70b-specdec जीमिनी फ्लैश 1.5 Gemini Pro 2.5 (विश्व परीक्षण) विश्लेषण से गायब होने वाले प्रमुख सोच मॉडल, उदाहरण के लिए, , किसी भी प्रकार के वास्तविक समय में सहानुभूतिपूर्ण बातचीत के लिए बहुत धीमी हैं, और कुछ बुनियादी परीक्षणों से पता चलता है कि वे औपचारिक परीक्षण परिप्रेक्ष्य से बेहतर नहीं हैं और अक्सर बदतर नहीं हैं। Gemini 2.5 प्रो जेमिनी 2.5 प्रो मैं Q3 में अधिक संदर्भों के साथ वापस आऊंगा। LLM Raw AEM Token Out Emy AEM Response Time Token In Token Out $M In $M Out Cost LLM एलएलएम रू एईएम अमेरिकी एजेंट उपयोगी हो उपयोगी हो इम एईएम इम एईएम प्रतिक्रिया समय रिकॉर्ड समय Token में Token में Token Out Token Out $M में $M में $M बाहर $M बाहर आधारित मूल्य उत्पादित करें 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.00622 Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.49 0.59 0.59 0.90 0.90 1.6s 1.6s 2,483 2 483 4,402 402 $0.75* $0.75 * $0.99* $0.99 * $0.00622 $0.00622 Groq llama-3.3-70b-versatile 0.60 0.63 0.74 1.6s 2,547 771 $0.59 $0.79 $0.00211 Groq llama-3.3-70b-versatile Groq llama-3.3-70b-versatile 0.60 0.60 0.63 0.63 0.74 0.74 1.6s 1.6s 2,547 2,547 771 771 $0.59 $0.59 $0.79 $0.79 $0.00211 $0.00211 2.8s 0.34 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 जैमिनी फ्लैश 1.5 जीमिनी फ्लैश 1.5 0.34 0.34 0.34 0.34 0.34 0.34 2.8s 2.8s 2,716 2 716 704 704 $0.075* $0.075* $0.30* $0.30 * $000041 $000041 2.8s 0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 जैमनी प्रो 1.5 जैमनी प्रो 1.5 0.43 0.43 0.53 0.53 0.85 0.85 2.8s 2.8s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $000055 $000055 2.8s 0.09 -0.25 0.39 2.8s 2.716 704 $0.10 $0.40 $0.00055 जैमिनी फ्लैश 2.0 जीमिनी फ्लैश 2.0 0.09 0.09 0.25 0.25 0.39 0.39 2.8s 2.8s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $000055 $000055 0.00 -0.09 0.09 6.5 2,737 1,069 $0.80 $4.00 $0.00647 अमेरिकन एलर्जी 3.5 शैम सिंह 3.5 0.00 0.00 -0.02 0 0 0 0.09 0.09 6.5 6.5 2,737 2 737 1,069 1,069 $0.80 $0.80 $4.00 $4.00 $0.00647 $0.00647 -0.38 -0.09 0.98 7.1 2.733 877 $3.00 $15.00 $0.02135 डब्ल्यूएक्सएनयूएमएक्स प्रेम कॉन्फ्रेंस 3.5 0.38 0.38 -0.02 0 0 0 0.98 0.98 7.1 7.1 2.733 2 733 877 877 $3.00 $3.00 $15.00 $15.00 $0.02135 $0.02135 0.01 0.09 0.91 7.9 2.733 892 $3.00 $15.00 $0.02158 डब्ल्यूएक्सएनयूएमएक्स मैंने सोनट 3.7 -0.01 0.01 0.09 0.09 0.91 0.91 7.9 7.9 2.733 2 733 892 892 $3.00 $3.00 $15.00 $15.00 $0.02158 $0.02158 0.35 0.01 0.03 0.35 6.3 2.636 764 $0.15 $0.075 $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini -0.01 0.01 0.03 0.03 0.35 0.35 6.3 6.3 2,636 2 636 764 764 $0.15 $0.15 $0.075 $0.075 $000045 $000045 -0.01 0.20 0.98 7.5 2.636 760 $2.50 $10.00 $0.01419 ChatGPT 4o चैटजीपी 4o -0.01 0.01 0.20 0.20 0.98 0.98 7.5 7.5 2,636 2 636 760 760 $2.50 $2.50 $10.00 $10.00 $0.01419 $0.01419 0.00 0.02 -0.25 0.00 10.5 2.716 1.790 $1.10 $4.40 $0.01086 ChatGPT o3-mini (कम) ChatGPT o3-mini (कम) -0.02 0.02 0.25 0.25 0.00 0.00 5 5 और 2,716 2 716 1,790 1,790 $1.10 $1.10 $4.40 $4.40 $0.01086 $0.01086