Strona główna > Claude Sonnet Moje badania pokazują, że agresywne zachęcanie będzie działać w niektórych przypadkach, ale dla wielu modeli jest to ściśle charakter zaangażowania użytkownika końcowego za pośrednictwem bieżącego czatu, który wydaje się doprowadzić do skali do empatii. W tych przypadkach potrzeba empatii musi być dość jasna i nie „zestarzała się” w rozmowie, lub LLM wpadają w systematyczny tryb rozwiązywania problemu / znalezienia rozwiązania. To jest mój trzeci zestaw benchmarks na temat empatycznej AI. Ponieważ , , , i pojawiły się na scenie. Nowym liderem wartości dla empatii jest pochodna Deepseek, ostatnia runda benchmarks DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-spec. DeepSeek sam nie został uwzględniony w benchmarks, ponieważ miał erratyczne czasy odpowiedzi, które często Strona główna » Gemini Flash 2.0 ostatnia runda ocen referencyjnych Wyszukiwanie głębokie Claude Sonnet w wersji 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-dystill-llama-70b-specdec W tej rundzie punktów odniesienia uwzględniłem czas reakcji i koszty. Badanie akademickie, które przeprowadziłem, a także zdrowy rozsądek, wydaje się wskazywać, że powolne reakcje będą miały negatywny wpływ na postrzeganą empatię. W rzeczywistości wszystko ponad 3 lub 4 sekundy jest prawdopodobnie złe z perspektywy czatu. Ponadto koszty LLM są teraz na całej mapie i są szczególnie istotne dla podejmowania decyzji dotyczących zarządzania produktami. Jak pokazuje poniższa tabela, jeśli coś, droższe modele są mniej empatyczne! Dla tych, którzy nie są zaznajomieni z moimi poprzednimi wskaźnikami, są one napędzane przez dobrze ugruntowane oceny poznawcze w połączeniu z użyciem sztucznej inteligencji, Emy, zaprojektowane specjalnie, aby być empatycznym bez przeszkolenia, zachęcania lub wspomagania RAG z pytaniami z ocen. Jak już wspomniałem w , wyniki empatii nie są jedyną miarą sukcesu. Należy wziąć pod uwagę rzeczywistą jakość interakcji użytkowników. Mówiąc o tym, i z 0.98 zastosowanymi wynikami empatii, wydaje się przedstawiać największy potencjał do generowania treści empatycznych; jednak ich prędkość w 7s+ jest marginalna, podczas gdy wcześniejszych artykułach Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-spec z wynikiem empatii 0,90s w blazing 1.6s i wcześniejsze artykuły Clude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-dystill-llama-70b-specdec Nawet jeśli używasz Claude z zwiększonymi prędkościami od innego dostawcy niż Anthropic, np. Amazon, nie zbliży się do 2 sekund czasu reakcji. są prawie nie do odróżnienia, a Claude czuje się po prostu nieco cieplejszy i miękki. są konsekwentnie czytane jako trochę zimne lub sztuczne i są oceniane niżej przez użytkowników. i Groq destylowane DeepSeek Moja recenzja rzeczywistych dialogów czatowych, w połączeniu z testowaniem przez niezależnych użytkowników, wykazała, że odpowiedzi Claude Sonnet Odpowiedzi ChatGPT 4o Groq destylowany DeepSeek CzatGPT 4o może być również rozsądnym wyborem z wynikiem 0,85 i bardzo niskim kosztem. spadł w empatii.Strona główna » Gemini Pro 1.5 Gemini Pro 1.5 Gemini 2.0 Pro (eksperymentalny) Gemini 2.0 Pro (eksperymentalny) Przez pracę z kilkoma modelami open-source, stało się również oczywiste, że warstwy wymagane przez modele komercyjne mogą stać się przeszkodą dla empatii. Pracując z mniej ograniczonymi modelami open-source, wydaje się, że istnieje pewna korelacja między „wierzą” LLM, że istnieje jako pewnego rodzaju odrębny „prawdziwy” podmiot i jego zdolność do dostosowania swoich wyników do tych postrzeganych przez użytkowników jako empatyczne. to średni czas reakcji dla dowolnego pojedynczego testu, gdy używany jest Emy AI. i to łączne tokeny dla wszystkich testów, gdy używany jest Emy AI. Ceny za nie były jeszcze dostępne w momencie opublikowania tego artykułu; cena za wszechstronny model była używana. Ceny za są dla małych zapytań, większe kosztują dwa razy. Ceny za nie zostały jeszcze opublikowane w momencie napisania tego artykułu. Czas reakcji Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (eksperymentalny) Czas reakcji Token In Strona główna » Gemini Flash 1.5 Główne modele myślenia brakujące z analizy, np. Gemini 2.5 Pro, są zbyt powolne dla jakiegokolwiek rodzaju interakcji empatycznej w czasie rzeczywistym, a niektóre podstawowe testy pokazują, że nie są lepsze, a często gorsze z formalnej perspektywy testowej.Strona główna » Gemini 2.5 Pro Pp Wygrał się Groq deepseek-r1-dystill-llama-70b-specdec Gemini Pro 2.5 (eksperymentalny) Wrócę z kolejnymi referencjami w Q3.Dziękuję za przeczytanie! < LLM Raw AEM Bądź empatyczny Emy AEM Odpowiedź Token In Token Out $M In $M Out Cost LLM LLM w języku polskim Raw AEM Rzeszów Śląski Bądź empatyczny Być empatycznym Emy AEM Edytuj Edytuj Czas reakcji Czas reakcji Token W Token W Token Out Token Out $M W $M W $M Wyjść $M Wyjść Koszt Koszty 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.00622 Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-dystill-llama-70b-specdec 0.049 0,49 0.059 0,59 0.090 0 0 0 1.6s 1 s 2,483 2 483 4,402 4402 $0.75* $ 0,75* $0.99* 0,99 zł* $0.00622 $ 0.00622 Groq llama-3.3-70b-versatile 0.60 0.63 0.74 1.6s 2,547 771 $0.59 $0.79 $0.00211 Groq llama-3.3-70b-versatile Groq llama-3.3-70b-wielozadaniowy 0.60 0 0 0 0.063 0,63 0.07 0,74 1.6s 1 s 2,547 2 570 771 771 $0.59 0,59 zł $0.79 $0.79 $0.00211 $0.00211 Twin Flash 1.5 0.34 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 Flash Gemini 1.5 Zwiastun Gemini Flash 1.5 0.034 0,34 0.034 0,34 0.034 0,34 2.8s 2.8 s 2,716 2 716 704 704 $0.075* $0.075* $0.30* $0.30* $0.00041 $0 00041 Jemini Pro 1.5 0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 Rozdział 1.5 Rozwiązanie Gemini Pro 1.5 0.03 0,43 0.053 0,53 0.08 0,85 2.8s 2.8 s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0 00055 Twin Flash 2.0 0.09 -0.25 0.39 2.8s 2.716 704 $0.10 $0.40 $0.00055 Flash Gemini 2.0 Zwiastun Gemini Flash 2.0 0.07 0 09 0.25 0,25 0.039 0,39 2.8s 2.8 s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0 00055 p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p Rzeczpospolita PiS 3.5 Mikołaj Piłsudski 3.5 0.00 0,00 0.07 0.07 0.07 0 09 6.5 6 p 2,737 2 737 1,069 1 069 $0.80 80 zł $4.00 4 zł $0.00647 $0.00647 p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p>p Książka Piosenkarka 3.5 Książka Claude Sonnet 3.5 0.38 0.38 0.07 0.07 0.98 0 0 0 7.1 7.1 2,733 2 733 877 877 $3.00 3.00 zł $15.00 15 zł $0.02135 $0.02135 0.91 0.01 0.09 0.91 7.9 2,733 892 $3.00 $15.00 $0.02158 Stanowisko Słoneczne 3.7 Książka Claude Sonnet 3.7 -0.01 0.01 0.07 0 09 0.091 0,91 7.9 7 p 2,733 2 733 892 882 $3.00 3.00 zł $15.00 15 zł $0.02158 $0.02158 0.03 0.03 0.035 0.075 0.00045 $0.15 $0.075 $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini -0.01 0.01 0.03 0.03 0.03 0,35 6.3 6 p 2 636 2 636 764 764 $0.15 $0,5 zł $0.075 0.075 zł $0.00045 $0 00045 0.01 0.20 0.98 7.5 2.636 760 $2.50 $10.00 $0.01419 CzatGPT 4o CzatGPT 4o -0.01 0.01 0.20 0 0 0 0.98 0 0 0 7.5 5 p 2 636 2 636 760 760 $2.50 2,5 zł $10.00 10 zł $0.01419 $0 01419 0.00 0.02 0.00 10.5 2.716 1.790 $1.10 $4.40 $0.01086 ChatGPT o3-mini (niski) ChatGPT o3-mini (niski) -0.02 0.02 0.25 0,25 0.00 0,00 5 5 p 2,716 2 716 1,790 1 790 $1.10 $1.10 $4.40 $ 4.40 $0.01086 $0.01086