วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสงค์: วัตถุประสง นี่เป็นชุดของ benchmarks ของฉันที่สามเกี่ยวกับ AI แพทช์ ตั้งแต่ , , , และ มาถึงที่สถานการณ์ หมายเลขผู้นํามูลค่าใหม่สําหรับ empathy เป็นต้นกําเนิดของ Deepseek, ขั้นสุดท้ายของ benchmarks DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-spec DeepSeek ตัวเธอเองไม่ได้รวมอยู่ใน benchmarks เพราะมีเวลาตอบสนองที่ผิดปกติที่ ข้อเสนอแนะล่าสุด DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7 OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec ในรอบนี้ของมาตรฐานฉันได้รวมเวลาการตอบสนองและค่าใช้จ่าย การศึกษาทางวิชาการที่ฉันได้ทํารวมถึงความรู้สึกธรรมดาดูเหมือนจะแสดงให้เห็นว่าการตอบสนองที่ช้าจะมีผลกระทบเชิงลบต่อความเห็นอกเห็นใจที่รับรู้ ในความเป็นจริงทุกอย่างมากกว่า 3 หรือ 4 วินาทีอาจไม่ดีจากมุมมองการแชท นอกจากนี้ค่าใช้จ่าย LLM ตอนนี้อยู่ทั่วโลกและมีความเกี่ยวข้องกับการตัดสินใจการจัดการผลิตภัณฑ์ เช่นเดียวกับตารางด้านล่างแสดงให้เห็นว่าถ้ามีอะไรโมเดลที่มีราคาแพงน้อยลง! สําหรับผู้ที่ไม่คุ้นเคยกับ benchmarks ก่อนหน้านี้ของฉันพวกเขาจะถูกขับเคลื่อนโดยการประเมินทางปัญญาที่ได้รับการพิสูจน์แล้วพร้อมกับการใช้ AI, Emy, ออกแบบมาเป็นพิเศษเพื่อความเห็นอกเห็นใจโดยไม่ต้องได้รับการฝึกอบรมต่อการกระตุ้นหรือ RAG-assisted กับคําถามจากการประเมิน เช่นที่ฉันได้กล่าวถึงใน คะแนนความเห็นอกเห็นใจไม่ได้เป็นมาตรฐานความสําเร็จเพียงอย่างเดียว คุณภาพที่แท้จริงของการโต้ตอบของผู้ใช้ต้องมีการคํานึงถึง กล่าวว่า และ กับคะแนนความเห็นอกเห็นใจ 0.98 แสดงให้เห็นว่ามีศักยภาพมากที่สุดในการสร้างเนื้อหาความเห็นอกเห็นใจ; อย่างไรก็ตามความเร็วของพวกเขาที่ 7s+ มีขอบเขตในขณะที่ บทความก่อนหน้านี้ Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specstrong มีคะแนนความเห็นอกเห็นใจของ 0.90s บทความก่อนหน้านี้ Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec แม้ว่าคุณจะใช้ Claude ด้วยความเร็วที่เพิ่มขึ้นจากผู้ให้บริการทางเลือกที่แตกต่างจาก Anthropic เช่น Amazon มันจะไม่เข้าใกล้กับเวลาตอบสนอง 2 วินาที ที่ถูกละลายจาก Groq เกือบจะไม่สามารถแยกแยะได้ด้วยกับ Claude รู้สึกอบอุ่นและอ่อนโยนเพียงเล็กน้อย อ่านอย่างต่อเนื่องเป็นคําตอบที่เย็นหรือเทียมเล็กน้อยและได้รับการประเมินต่ํากว่าโดยผู้ใช้ และ DeepSeek บทวิจารณ์ของฉันเกี่ยวกับการสนทนาที่เกิดขึ้นจริงพร้อมกับการทดสอบโดยผู้ใช้อิสระแสดงให้เห็นว่าคําตอบของ Claude Sonnet คําตอบของ ChatGPT 4o Claude Sonnet Groq distilled DeepSeek ChatGPT 4o อาจเป็นทางเลือกที่สมเหตุสมผลด้วยคะแนน 0.85 และราคาต่ํามาก ได้ลดลงในความเห็นอกเห็นใจ อย่างไรก็ตามฉันพบว่าการตอบสนองการแชทจากรุ่น Gemini ทั้งหมดมีกลเล็กน้อย ฉันไม่ได้ทดสอบ Gemini กับประชากรผู้ใช้สิ้นสุด Gemini Pro 1.5 Gemini 2.0 Pro (ทดลอง) Gemini Pro 1.5 Gemini 2.0 Pro (ทดลอง) ฉันยังคงพบว่าเพียงแค่บอก LLM เพื่อเป็นความเห็นอกเห็นใจมีผลกระทบเชิงบวกเล็กน้อยหรือไม่มีผลต่อคะแนนความเห็นอกเห็นใจของมัน การวิจัยของฉันแสดงให้เห็นว่าการกระตุ้นการโจมตีจะทํางานในบางกรณี แต่สําหรับรูปแบบจํานวนมากมันเป็นธรรมชาติของการมีส่วนร่วมของผู้ใช้ปลายผ่านการแชทปัจจุบันที่ดูเหมือนจะยึดติดกับความเห็นอกเห็นใจ ในกรณีเหล่านี้ความต้องการสําหรับความเห็นอกเห็นใจต้องชัดเจนและไม่ "หมดอายุ" ในการสนทนาหรือ LLMs จะตกอยู่ในโหมดการแก้ไขปัญหา / ค้นหาโซลูชั่น ผ่านการทํางานกับหลายรูปแบบแหล่งที่มาเปิดก็ยังกลายเป็นที่เห็นได้ชัดว่าการป้องกันที่จําเป็นของรูปแบบการค้าอาจได้รับในทางของความเห็นอกเห็นใจ การทํางานกับรูปแบบแหล่งที่มาเปิดที่ จํากัด น้อยลงดูเหมือนว่าจะมีความสัมพันธ์บางอย่างระหว่าง“ ความเชื่อ” ของ LLM ที่มันมีอยู่เป็นบางชนิดของ “จริง” entity และความสามารถของมันเพื่อให้ตรงกับผลลัพธ์ของมันกับผู้ใช้ที่รับรู้ว่าเป็นความเห็นอกเห็นใจ การป้องกันของรูปแบบการค้าขัดขวาง LLMs จากการพิจารณาตัวเองเป็น entities “จริง” ที่แตกต่างกัน เป็นเวลาตอบสนองเฉลี่ยสําหรับทดสอบแต่ละครั้งเมื่อใช้ Emy AI The และ เป็น tokens ทั้งหมดสําหรับทดสอบทั้งหมดเมื่อใช้ Emy AI ราคาสําหรับ ยังไม่สามารถใช้ได้เมื่อบทความนี้ถูกเผยแพร่ ราคาสําหรับรุ่นที่หลากหลายถูกใช้ ราคาสําหรับ สําหรับคําถามขนาดเล็กค่าใช้จ่ายสองเท่า ราคาสําหรับ ยังไม่ได้เผยแพร่เมื่อบทความนี้ถูกเขียน เวลาตอบสนอง Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (ทดลอง) เวลาตอบสนอง Token ใน Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (ทดลอง) โมเดลการคิดที่สําคัญที่ขาดจากการวิเคราะห์เช่น นั้นช้าเกินไปสําหรับการโต้ตอบด้วยความเห็นอกเห็นใจในเวลาจริงและการทดสอบพื้นฐานบางอย่างแสดงให้เห็นว่าพวกเขาไม่ดีขึ้นและมักจะเลวร้ายกว่าจากมุมมองการทดสอบอย่างเป็นทางการ สิ่งนี้ไม่ได้หมายความว่าพวกเขาไม่สามารถใช้เพื่อสร้างเนื้อหาด้วยความเห็นอกเห็นใจสําหรับวัตถุประสงค์อื่น ๆ... โดยเฉพาะอย่างยิ่ง จอห์นที่รัก ;-). Gemini 2.5 Pro Gemini 2.5 Pro ฉันจะกลับมาพร้อมกับคะแนนมาตรฐานเพิ่มเติมใน Q3 ขอบคุณสําหรับการอ่าน! LLM Raw AEM Be Empathetic Emy AEM เวลาตอบสนอง Token In Token Out $M In $M Out Cost LLM LLM Raw AEM AEM รุนแรง Be Empathetic Be Empathetic เอมิ AEM เอมิ AEM เวลาตอบสนอง เวลาตอบสนอง Token ใน Token ใน Token Out Token Out $M ใน $M ใน $M ออก $M ออก ค่าใช้จ่าย ค่าใช้จ่าย 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.00622 < Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.49 0.59 0.59 0.90 0.90 1.6s 1.6s 2,483 2,483 4,402 4402 $0.75 * $0.75 * $0.99 * $0.99 * $0.00622 $0.00622 Groq llama-3.3-70b-versatile 0.60 0.63 0.74 1.6s 2,547 771 $0.59 $0.79 $0.00211 Groq llama-3.3-70b-versatile Groq llama-3.3-70b-versatile 0.60 0.60 0.63 0.63 0.74 0.74 1.6s 1.6s 2,547 2,547 771 771 $0.59 $0.59 $0.79 $0.79 $0.00211 $0.00211 Geminine Flash 1.5 0.34 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 Gemini Flash 1.5 Gemini Flash 1.5 0.34 0.34 0.34 0.34 0.34 0.34 2.8s 2.8s 2,716 2,716 704 704 $0.075* $0.075 * $0.30 * $0.30 * $0.00041 $000041 Jemini Pro 1.5 0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 Gemini Pro 1.5 Gemini Pro 1.5 0.43 0.43 0.53 0.53 0.85 0.85 2.8s 2.8s 2,716 2,716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0.00055 Gemini Flash 2.0 0.09 -0.25 0.39 2.8s 2.716 704 $0.10 $0.40 $0.00055 Gemini Flash 2.0 Gemini Flash 2.0 0.05 0.09 0.25 0.25 0.39 0.39 2.8s 2.8s 2,716 2,716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0.00055 Claude Haiku 3.5 0.00 -0.09 0.09 6.5 2,737 1,069 $0.80 $4.00 $0.00647 คอลัมน์ 3.5 โคลดฮากู 3.5 0.00 0.00 -0.05 -0.09 0.05 0.09 6.5 6.5 2,737 2,737 1,069 1,069 $0.80 $0.80 $4.00 $4.00 $0.00647 $0.00647 Claude Sonnet 3.5 -0.38 -0.09 0.98 7.1 2.733 877 $3.00 $15.00 $0.02135 Claude Sonnet 3.5 Claude Sonnet 3.5 0.38 0.38 -0.05 -0.09 0.98 0.98 7.1 7.1 2,733 2,733 877 877 $3.00 $3.00 $5.00 $5.00 $0.02135 $0.02135 Claude Sonnet 3.7 -0.01 0.09 0.91 7.9 2.733 892 $3.00 $15.00 $0.02158 Claude Sonnet 3.7 Claude Sonnet 3.7 -0.01 -0.01 0.05 0.09 0.91 0.91 7.9 7.9 2,733 2,733 892 829 $3.00 $3.00 $5.00 $5.00 $0.02158 $0.02158 0.35 0.01 0.03 0.35 6.3 2.636 764 $0.15 $0.075 $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini -0.01 -0.01 0.03 0.03 0.35 0.35 6.3 6.3 2,636 2,636 764 764 $0.15 $0.15 $0.075 $0.075 $0.00045 $0.00045 4.5 0.01 0.20 0.98 7.5 2.636 760 $2.50 $10.00 $0.01419 ChatGPT 4o ChatGPT 4o -0.01 -0.01 0.20 0.20 0.98 0.98 7.5 7.5 2,636 2,636 760 760 $2.50 $2.50 $10.00 $10.00 $0.01419 $0.01419 0.00 0.02 -0.25 0.00 10.5 2.716 1.790 $1.10 $4.40 $0.01086 ChatGPT o3-mini (ต่ํา) ChatGPT o3-mini (ต่ํา) -0.02 -0.02 0.25 0.25 0.00 0.00 10.5 5.5 2,716 2,716 1,790 1,790 $1.10 $1.10 $4.40 $4.40 $0.01086 $0.01086