এটি আমার সহানুভূতিশীল AI-এর উপর তৃতীয় মানদণ্ড। পর থেকে, , , এবং দৃশ্যে এসেছে। সহানুভূতির জন্য নতুন মানদণ্ড হল Deepseek এর একটি ডেরিভেটিভ, । DeepSeek নিজেই মানদণ্ডে অন্তর্ভুক্ত ছিল না কারণ এর প্রতিক্রিয়া সময় অনিয়মিত ছিল যা প্রায়শই 10 সেকেন্ড অতিক্রম করে এবং কখনও কখনও কেবল ভুল করে। শেষ রাউন্ডের মানদণ্ডের DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec এই ধাপের মানদণ্ডে, আমি প্রতিক্রিয়া সময় এবং খরচ অন্তর্ভুক্ত করেছি। আমি যে একাডেমিক গবেষণা করছি, এবং সাধারণ জ্ঞানও করছি, তাতে মনে হচ্ছে যে ধীর প্রতিক্রিয়াগুলি সহানুভূতির উপর নেতিবাচক প্রভাব ফেলবে। আসলে, চ্যাটের দৃষ্টিকোণ থেকে 3 বা 4 সেকেন্ডের বেশি যেকোনো কিছু সম্ভবত খারাপ। তদুপরি, LLM খরচ এখন সর্বত্র ছড়িয়ে পড়েছে এবং পণ্য ব্যবস্থাপনার সিদ্ধান্ত নেওয়ার ক্ষেত্রে অবশ্যই প্রাসঙ্গিক। নীচের টেবিলটি দেখায় যে, যদি কিছু থাকে, তবে আরও ব্যয়বহুল মডেলগুলি কম সহানুভূতিশীল! যারা আমার পূর্ববর্তী মানদণ্ডগুলির সাথে অপরিচিত, তাদের জন্য এগুলি সুপ্রতিষ্ঠিত জ্ঞানীয় মূল্যায়ন দ্বারা পরিচালিত হয় এবং এর সাথে একটি AI, Emy ব্যবহার করা হয়, যা বিশেষভাবে সহানুভূতিশীল হওয়ার জন্য ডিজাইন করা হয়েছে, মূল্যায়ন থেকে প্রশ্নগুলির বিরুদ্ধে প্রশিক্ষণ, অনুরোধ বা RAG-এর সহায়তা ছাড়াই। যেমনটি আমি উল্লেখ করেছি, সহানুভূতি স্কোরই সাফল্যের একমাত্র পরিমাপ নয়। ব্যবহারকারীর মিথস্ক্রিয়ার প্রকৃত গুণমান বিবেচনায় নেওয়া প্রয়োজন। তা সত্ত্বেও, এবং 0.98 প্রয়োগকৃত সহানুভূতি স্কোর সহ, সহানুভূতিশীল কন্টেন্ট তৈরির জন্য সর্বাধিক সম্ভাবনা উপস্থাপন করে বলে মনে হচ্ছে; তবে, 7s+ এ তাদের গতি সীমিত, যেখানে 0.90 সহানুভূতি স্কোর সহ, 1.6s এ প্রতিক্রিয়া জানায় এবং খরচের 50% এরও কম! আগের লেখাগুলিতে ক্লাউড সনেট 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec, এমনকি যদি আপনি অ্যানথ্রপিক ছাড়া অন্য কোনও বিকল্প প্রদানকারীর, যেমন অ্যামাজন, থেকে বর্ধিত গতিতে ক্লড ব্যবহার করেন, তবুও এটি 2 সেকেন্ডের প্রতিক্রিয়া সময়ের কাছাকাছি আসবে না। প্রকৃত চ্যাট সংলাপগুলির পর্যালোচনা, স্বাধীন ব্যবহারকারীদের দ্বারা পরীক্ষার সাথে মিলিত হয়ে, এবং প্রতিক্রিয়াগুলি প্রায় অস্পষ্ট বলে প্রমাণিত হয়েছে, যেখানে ক্লড কেবল একটু উষ্ণ এবং নরম বোধ করছেন। প্রতিক্রিয়াগুলি ধারাবাহিকভাবে একটু ঠান্ডা বা কৃত্রিম হিসাবে পড়ে এবং ব্যবহারকারীদের দ্বারা কম রেটিং দেওয়া হয়। ক্লড সনেট গ্রোকের ডিস্টিল্ড ডিপসিক ChatGPT 4o ০.৮৫ স্কোর এবং খুব কম খরচের সাথে একটি যুক্তিসঙ্গত পছন্দ হতে পারে। সহানুভূতিতে হ্রাস পেয়েছে। তবে, আমি সমস্ত জেমিনি মডেলের চ্যাট প্রতিক্রিয়াগুলিকে কিছুটা যান্ত্রিক বলে মনে করেছি। আমি শেষ ব্যবহারকারীদের সাথে জেমিনি পরীক্ষা করিনি। জেমিনি প্রো ১.৫ জেমিনি ২.০ প্রো (পরীক্ষামূলক) আমি এখনও দেখতে পাচ্ছি যে কেবল একজন এলএলএমকে সহানুভূতিশীল হতে বললে তার সহানুভূতির স্কোরের উপর খুব কম বা কোনও ইতিবাচক প্রভাব পড়ে না। আমার গবেষণা দেখায় যে আক্রমণাত্মক প্ররোচনা কিছু ক্ষেত্রে কাজ করবে, তবে অনেক মডেলের ক্ষেত্রে, বর্তমান চ্যাটের মাধ্যমে শেষ ব্যবহারকারীর সম্পৃক্ততার প্রকৃতিই সহানুভূতির মাত্রা বাড়ায় বলে মনে হয়। এই ক্ষেত্রে, সহানুভূতির প্রয়োজনীয়তা বেশ স্পষ্ট হওয়া উচিত এবং কথোপকথনে "বয়স্ক" হওয়া উচিত নয়, অন্যথায় এলএলএমরা সমস্যা সমাধানের/সমাধান খুঁজে বের করার পদ্ধতিতে পড়ে যাবে। বেশ কয়েকটি ওপেন-সোর্স মডেলের সাথে কাজ করার মাধ্যমে, এটি স্পষ্ট হয়ে উঠেছে যে বাণিজ্যিক মডেলগুলির জন্য প্রয়োজনীয় রক্ষণাবেক্ষণগুলি সহানুভূতির পথে বাধা হয়ে দাঁড়াতে পারে। কম সীমাবদ্ধ ওপেন-সোর্স মডেলগুলির সাথে কাজ করার সময়, একটি LLM-এর "বিশ্বাস" যে এটি এক ধরণের স্বতন্ত্র "বাস্তব" সত্তা হিসাবে বিদ্যমান এবং ব্যবহারকারীদের দ্বারা সহানুভূতিশীল হিসাবে বিবেচিত ফলাফলগুলির সাথে এর আউটপুটগুলিকে সারিবদ্ধ করার ক্ষমতার মধ্যে কিছু সম্পর্ক রয়েছে বলে মনে হয়। বাণিজ্যিক মডেলগুলির রক্ষণাবেক্ষণ LLM-গুলিকে নিজেদেরকে স্বতন্ত্র "বাস্তব" সত্তা হিসাবে বিবেচনা করতে নিরুৎসাহিত করে। হলো Emy AI ব্যবহার করা হলে যেকোনো একক পরীক্ষার গড় রেসপন্স টাইম। Emy AI ব্যবহার করা হলে এবং হলো সমস্ত পরীক্ষার মোট টোকেন। এই নিবন্ধটি প্রকাশিত হওয়ার সময় এর মূল্য নির্ধারণ এখনও উপলব্ধ ছিল না; বহুমুখী মডেলের মূল্য নির্ধারণ করা হয়েছিল। -এর মূল্য নির্ধারণ ছোট প্রশ্নের জন্য, বড়টির দাম দ্বিগুণ। এই নিবন্ধটি লেখার সময় এর মূল্য নির্ধারণ এখনও প্রকাশিত হয়নি। রেসপন্স টাইম টোকেন ইন টোকেন আউট Groq deepseek-r1-distill-llama-70b-specdec- Gemini Flash 1.5 Gemini Pro 2.5 (পরীক্ষামূলক) বিশ্লেষণে অনুপস্থিত প্রধান চিন্তাভাবনা মডেলগুলি, যেমন, , যেকোনো ধরণের রিয়েল-টাইম সহানুভূতিশীল মিথস্ক্রিয়ার জন্য খুব ধীর, এবং কিছু মৌলিক পরীক্ষা দেখায় যে তারা কোনওভাবেই ভালো নয় এবং প্রায়শই একটি আনুষ্ঠানিক পরীক্ষার দৃষ্টিকোণ থেকে আরও খারাপ। এর অর্থ এই নয় যে এগুলি অন্য উদ্দেশ্যে সহানুভূতিশীল বিষয়বস্তু তৈরির জন্য ব্যবহার করা যাবে না ... সম্ভবত প্রিয় জন চিঠি ;-)। জেমিনি 2.5 প্রো তৃতীয় প্রান্তিকে আরও কিছু মানদণ্ড নিয়ে ফিরে আসব। পড়ার জন্য ধন্যবাদ! এলএলএম কাঁচা এইএম সহানুভূতিশীল হোন এমি এইএম প্রতিক্রিয়া সময় টোকেন ইন টোকেন আউট $M ইন $M আউট খরচ গ্রোক ডিপসিক-আর১-ডিস্টিল-লামা-৭০বি-স্পেকডেক ০.৪৯ ০.৫৯ ০.৯০ ১.৬ সেকেন্ড ২,৪৮৩ ৪,৪০২ $০.৭৫* $০.৯৯* $০.০০৬২২ গ্রোক লামা-৩.৩-৭০বি-বহুমুখী ০.৬০ ০.৬৩ ০.৭৪ ১.৬ সেকেন্ড ২,৫৪৭ ৭৭১ $০.৫৯ $০.৭৯ $০.০০২১১ জেমিনি ফ্ল্যাশ 1.5 ০.৩৪ ০.৩৪ ০.৩৪ ২.৮ সেকেন্ড ২,৭১৬ ৭০৪ $০.০৭৫* $০.৩০* $০.০০০৪১ জেমিনি প্রো 1.5 ০.৪৩ ০.৫৩ ০.৮৫ ২.৮ সেকেন্ড ২,৭১৬ ৭০৪ $০.১০ $০.৪০ $০.০০০৫৫ জেমিনি ফ্ল্যাশ 2.0 ০.০৯ -০.২৫ ০.৩৯ ২.৮ সেকেন্ড ২,৭১৬ ৭০৪ $০.১০ $০.৪০ $০.০০০৫৫ ক্লদ হাইকু ৩.৫ ০.০০ -০.০৯ ০.০৯ ৬.৫ ২,৭৩৭ ১,০৬৯ $০.৮০ $৪.০০ $০.০০৬৪৭ ক্লদ সনেট ৩.৫ -০.৩৮ -০.০৯ ০.৯৮ ৭.১ ২,৭৩৩ ৮৭৭ $৩.০০ $১৫.০০ $০.০২১৩৫ ক্লড সনেট ৩.৭ -০.০১ ০.০৯ ০.৯১ ৭.৯ ২,৭৩৩ ৮৯২ $৩.০০ $১৫.০০ $০.০২১৫৮ চ্যাটজিপিটি 4o-মিনি -০.০১ ০.০৩ ০.৩৫ ৬.৩ ২,৬৩৬ ৭৬৪ $০.১৫ $০.০৭৫ $০.০০০৪৫ চ্যাটজিপিটি 4o -০.০১ ০.২০ ০.৯৮ ৭.৫ ২,৬৩৬ ৭৬০ $২.৫০ $১০.০০ $০.০১৪১৯ চ্যাটজিপিটি o3-মিনি (নিম্ন) -০.০২ -০.২৫ ০.০০ ১০.৫ ২,৭১৬ ১,৭৯০ $১.১০ $৪.৪০ $০.০১০৮৬