This is my third set of benchmarks on empathetic AI. Since the , , , and have arrived on the scene. The new value leader for empathy is a Deepseek derivative, the last round of benchmarks DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdecstrong>. DeepSeek itself was not included in the benchmarks because it had erratic response times that frequently exceeded 10s and ベンチマークの最終回 DeepSeek ジェミニ・フラッシュ 2.0 クラウド・ソネット 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec このラウンドのベンチマークでは、私は応答時間とコストを含みました。私が行った学術研究と常識は、遅い応答が感知された共感に悪影響を与えることを示しているように見えます。実際には、3または4秒以上のものは、チャットの視点から悪くない可能性があります。さらに、LLMのコストは現在地図上にあり、製品管理の決定を下すことに特に関連しているように見えます。 私の以前のベンチマークに馴染みのない人々にとって、彼らはAI、Emyの使用と結びついて確立された認知評価によって駆動され、評価からの質問で訓練されず、促されたり、またはRAGによって助けられたことなく、特に共感するように設計されています。 私は 、共感のスコアは唯一の成功の尺度ではありません。実際のユーザーの相互作用の質は考慮する必要があります。これを言うと、 と 以前の記事で述べたように Claude Sonnet 3.5 ChatGPT 4o、0.98適用された共感のスコアで、共感のコンテンツを生成するための最大の可能性を示しているように見えます。しかし、7s+で彼らのスピードは限られている一方で、 Groq deepseek-r1-distill-llama-70b-specstrong>は0.90sの共感のスコアを発揮し、1.6 以前の記事 クラウド・ソネット 3.5 チャットGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec Anthropic 以外の代替プロバイダー(Amazon など)からのスピードアップで Claude を使用する場合でも、2 秒の応答時間に近づくことはありません。 私の実際のチャット対話のレビューは、独立したユーザーによるテストとともに、 および の回答はほぼ見分けがつかないもので、Claudeは少しだけ温かくなり、柔らかくなったと感じています。 Claude Sonnet Groq蒸留されたDeepSeek クラウド・ソネット Groq ディストリート DeepSeek チャットGPT 4o はまた、0.85のスコアと非常に低いコストで合理的な選択かもしれません。 は共感を低下させました。 Gemini Pro 1.5 Gemini 2.0 Pro (実験的) Gemini Pro 1.5 Gemini 2.0 Pro (実験) 私は、単にLLMを共感するように言い続けることは、その共感のスコアにポジティブな影響をほとんどまたは全く与えていないことを発見し続けています。私の研究は、攻撃的な促進がいくつかのケースで働くことを示していますが、多くのモデルでは、現在のチャットを通じてエンドユーザーの関与の性質が、共感のスケールを踏み出しているように見えます。これらのケースでは、共感の必要性は非常に明確で、会話の中で「老化」しないでなければなりません、またはLLMsは、問題のシステム的な修正 / 解決法を見つけるモードに落ちます。 いくつかのオープンソースモデルと作業することで、商業モデルの要求されるガードレイルが共感の道に立ち入ることも明らかになりました。 より少なく制限されたオープンソースモデルと働くことで、LLMが何らかの異なる「現実」の実体として存在するという「信念」と、その出力をユーザーが共感的に認識するものと調和させる能力との間には、ある程度の関連性があるように見えます。 は、Emy AI が使用されている場合の 1 つのテストの平均応答時間です。 と は、Emy AI が使用されている場合のすべてのテストのトークンの合計です。 の価格は、この記事が発表された時点ではまだ利用できませんでした。 Response Time Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec 応答時間 Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec ジェミニ・フラッシュ 1.5 Gemini Pro 2.5 (実験) 分析から欠けている主要な思考モデル、例えば、「Gemini 2.5 Pro」は、あらゆる種類のリアルタイムの共感的な相互作用に遅すぎており、いくつかの基本的なテストでは、正式なテストの観点からより良く、しばしば悪くないことが示されています。 ジェミニ 2.5 Pro 私はQ3でより多くのベンチマークを持って戻ってきます。 ココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココココ トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > LLM LLM Raw AEM Raw AEM Be Empathetic エイミー・AEM エイミー・エイミー 応答時間 応答時間 トークイン Token In Token Out Token Out $M $M $M Out $M Out コスト コスト Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.49 0.59 0.59 0.90 0.90 1.6s 2483 2483 4402 4402 $0.75* $0.99* $0.00622 Groq llama-3.3-70b-versatile Groq llama-3.3-70b-versatile 0.60 0.60 トップ > トップ > トップ > トップ > トップ > トップ > 0.63 0.74 1.6s トップ > トップ > トップ > トップ > トップ > トップ > トップ > 2547 771 771 $0.59 $0.79 $0.00211 Gemini Flash 1.5 ジェミニ・フラッシュ 1.5 0.34 0.34 0.34 0.34 0.34 0.34 2.8s 2.8s 2 716 2 716 704 704 $0.075* $0.30* $000041 Gemini Pro 1.5 ジェミニ・プロ 1.5 0.43 トップ > トップ > トップ > トップ > トップ > 0.53 0.85 0.85 2.8s 2.8s 2 716 2 716 704 704 $0.10 $0.40 $000055 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > Gemini Flash 2.0 ジェミニ・フラッシュ 2.0 0.09 0.25 トップ > トップ > トップ > トップ > トップ > 0.39 2.8s 2.8s 2 716 2 716 704 704 $0.10 $0.40 $000055 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > エリザベス・ハイク 3.5 0.00 トップ > トップ > トップ > トップ > トップ > トップ > 0.09 トップ > トップ > トップ > トップ > トップ > トップ > 0.09 6 6.5 トップ > トップ > トップ > トップ > トップ > 277 069 $0.80 $4.00 $0.00647 $0.00647 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > コール・ソネット 3.5 0.38 0.38 トップ > トップ > トップ > トップ > トップ > トップ > 0.09 トップ > トップ > トップ > トップ > トップ > トップ > 0.98 7.1 トップ > トップ > トップ > トップ > トップ > トップ > 2 733 877 877 $3.00 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > 1500ドル $0.02135 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > コール・ソネット 3.7 0.01 トップ > トップ > トップ > トップ > トップ > トップ > 0.09 0.91 0.91 トップ > トップ > トップ > トップ > トップ > 7.9 トップ > トップ > トップ > トップ > トップ > トップ > 2 733 892 892 $3.00 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > 1500ドル $0.02158 $0.02158 ChatGPT 4o-mini ChatGPT 4o-mini 0.01 0.03 0.03 トップ > トップ > トップ > トップ > トップ > トップ > 0.35 6.3 2 636 2 636 764 764 $0.15 $0.075 $000045 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ >トップ > トップ > トップ > トップ > トップ > トップ > トップ > チャットGPT 4o 0.01 トップ > トップ > トップ > トップ > トップ > 0.20 トップ > トップ > トップ > トップ > トップ > トップ > 0.98 5 2 636 2 636 760 760 $2.50 $2.50 $10ドル $0.01419 ChatGPT o3-mini (低) ChatGPT o3-mini (低) 0.02 0.25 0.00 5 5 2 716 2 716 トップ > トップ > トップ > トップ > 790 $1.10 $4.40 $0.01086