Más detalles Mi investigación muestra que la exhortación agresiva funcionará en algunos casos, pero para muchos modelos, es estrictamente la naturaleza del compromiso del usuario final a través del chat actual que parece apuntar las escalas a la empatía. En estos casos, la necesidad de empatía debe ser bastante clara y no “envejecida” en la conversación, o los LLM caen en el modo de solución sistemática del problema / encontrar una solución. Este es mi tercer conjunto de benchmarks sobre inteligencia artificial empática. Desde el , , , y han llegado a la escena. El nuevo líder de valor para la empatía es un derivado de Deepseek, última ronda de benchmarks DeepSeek Gemini Flash 2.0 Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-spec. DeepSeek en sí no fue incluido en los benchmarks porque tenía tiempos de respuesta erráticos que Más información última ronda de benchmarks DeepSeek Flash 2.0 de Gemini Claude Sonnet 3.7, OpenAI ChatGPT o3-mini Groq deepseek-r1-distill-llama-70b-specdec En esta ronda de referencias, he incluido el tiempo de respuesta y los costos. Un estudio académico que he estado haciendo, más el sentido común, parece indicar que las respuestas lentas tendrán un impacto negativo en la empatía percibida. De hecho, cualquier cosa más de 3 o 4 segundos es probablemente malo desde una perspectiva de chat. Además, los costos de LLM están ahora en todo el mapa y son particularmente relevantes para tomar decisiones de gestión de productos. Como muestra la tabla de abajo, si algo, los modelos más caros son menos empáticos! Para aquellos que no están familiarizados con mis referencias anteriores, se impulsan por evaluaciones cognitivas bien establecidas junto con el uso de una IA, Emy, diseñada específicamente para ser empática sin ser entrenada contra, animada o asistida por RAG con preguntas de las evaluaciones. Como he mencionado en , las puntuaciones de empatía no son la única medida de éxito. La calidad real de las interacciones de los usuarios debe tenerse en cuenta. Dicho esto, y con puntuaciones de empatía aplicadas 0.98, parecen presentar el mayor potencial para generar contenido empático; sin embargo, sus velocidades en 7s+ son marginales, mientras que artículos anteriores Claude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specstrong con una puntuación de empatía de 0.90s en un blazing 1.6s y es menos del artículos anteriores Clude Sonnet 3.5 ChatGPT 4o, Groq deepseek-r1-distill-llama-70b-specdec Incluso si utiliza Claude con velocidades aumentadas de un proveedor alternativo distinto de Anthropic, por ejemplo, Amazon, no se acercará a un tiempo de respuesta de 2s. son casi indistinguibles, con Claude sintiéndose sólo un poco más cálido y suave. respuestas se leen consistentemente como un poco frío o artificial y son clasificadas de forma más baja por los usuarios. y de Groq destiladas DeepSeek Mi revisión de los diálogos de chat reales, junto con las pruebas de usuarios independientes, ha mostrado que las respuestas de Claude Sonnet ChatGPT 4o Clude Sonnet Groq destilado DeepSeek ChatGPT 4o también puede ser una elección razonable con una puntuación de 0.85 y un costo muy bajo. ha caído en empatía. Sin embargo, he encontrado las respuestas de chat de todos los modelos Gemini un poco mecánicas. No he probado a Gemini con una población de usuarios finales. Gemini Pro 1.5 Gemini 2.0 Pro (experimental) Gemini Pro 1.5 Gemini 2.0 Pro (experimental) A través del trabajo con varios modelos de código abierto, también se ha vuelto evidente que las guarderías requeridas de los modelos comerciales pueden entrar en el camino de la empatía. Trabajando con modelos de código abierto menos restringidos, parece haber alguna correlación entre la "crenza" de un LLM de que existe como una especie de entidad "real" distinta y su capacidad de alinear sus resultados con aquellos percibidos como empáticos por los usuarios. es el tiempo de respuesta promedio para cualquier prueba única cuando se utiliza el Emy AI. Los y son los tokens totales para todas las pruebas cuando se utiliza el Emy AI. El precio para aún no estaba disponible cuando se publicó este artículo; el precio para el modelo versátil se utilizó. El precio para es para consultas pequeñas, las más grandes cuestan el doble. El precio para aún no se publicó cuando se escribió este artículo. Tempo de respuesta Token In Token Out Groq deepseek-r1-distill-llama-70b-specdec Gemini Flash 1.5 Gemini Pro 2.5 (experimental) Tiempo de respuesta Token En Token Out Groq deepseek-r1-distill-llama-70b-specdec Flash de Gemini 1.5 Gemini Pro 2.5 (experimental) Los principales modelos de pensamiento que faltan del análisis, por ejemplo, , son demasiado lentos para cualquier tipo de interacción empática en tiempo real, y algunas pruebas básicas muestran que no son mejores y a menudo peores desde una perspectiva de prueba formal.Más sobre Gemini 2.5 Pro Gemini 2.5 Pro Volveré con más referencias en el Q3. ¡Gracias por leer! LLM Raw AEM Be Empatético Emy AEM Respuesta Token In Token Out $M In $M Out Cost LLM El LLM Río AEM Río AEM Sé empático Tenemos que ser empáticos Emi AEM Michael AEM Tiempo de respuesta Tempo de respuesta Token En Token En Token Out Token Out $M En $M En $M de salida $M de salida Costo El precio 0.59 0.90 1.6s 2.483 4.402 $0.75* $0.99* $0.006 Groq deepseek-r1-distill-llama-70b-specdec Groq deepseek-r1-distill-llama-70b-specdec 0.49 0.49 0.059 0.59 0.90 0.90 1.6s 1.6s y 2,483 2 483 4,402 4402 $0.75* $ 0.75 * $0.99* $0.99* $0.00622 $0.00622 Groq llama-3.3-70b-versatile 0.60 0.63 0.74 1.6s 2,547 771 $0.59 $0.79 $0.00211 Groq llama-3.3-70b-versátil Groq llama-3.3-70b-versátil 0.60 0,60 0.63 0.06 0.74 0,74 1.6s 1.6s y 2,547 2 425 771 771 $0.59 $0,59 $0.79 $0.79 $0.00211 $0.00211 Jamin Flash 1.5 0.34 0.34 0.34 2.8s 2.716 704 $0.075* $0.30* $0.00041 Flash Gemini 1.5 El flash de Gemini 1.5 0.34 0.34 0.34 0.34 0.34 0.34 2.8s 2.8s 2,716 2 716 704 704 $0.075* $0.075* $0.30* $0.30* $0.00041 $000041 Jamin Pro 1.5 0.43 0.53 0.85 2.8s 2.716 704 $0.10 $0.40 $0.00055 Genius Pro 1.5 Geminino Pro 1.5 0.43 0.03 0.053 0.53 0.85 0,85 2.8s 2.8s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0.00055 GEMINI Flash 2.0 0.09 -0.25 0.39 2.8s 2.716 704 $0.10 $0.40 $0.00055 Flash 2.0 de Gemini Flash 2.0 de Gemini 0.09 0.09 0.25 0.25 0.39 0.39 2.8s 2.8s 2,716 2 716 704 704 $0.10 $0.10 $0.40 $0.40 $0.00055 $0.00055 p>p>p>p>p>p>p>p>p>p>p>p>p>0.00 -0.09 0.09 6.5 2,737 1,069 $0.80 $4.00 $0.00647 Juez de la Rúa 3.5 Michael Gómez 3.5 0.00 0.00 -0.01 0.09 0.09 0.09 6.5 5 5 2,737 2 737 1,069 1,069 $0.80 $0.80 $4.00 $ 4.00 $0.00647 $0.00647 -0.38 -0.09 0.98 7.1 2.733 877 $3.00 $15.00 $0.02135 Juego de Tronos 3.5 Michael Gómez 3.5 0.38 0.38 -0.01 0.09 0.98 0 0 0 7.1 1 1 2,733 2 733 877 787 $3.00 $3.00 $15.00 $1.00 € $0.02135 $0.02135 3.7 0.01 0.09 0.91 7.9 2.733 892 $3.00 $15.00 $0.02158 Juego de Tronos 3.7 Sinopsis de Claude Sonnet 3.7 -0.01 0.01 0.09 0.09 0.91 0.91 7.9 7.9 2,733 2 733 892 892 $3.00 $3.00 $15.00 $1.00 € $0.02158 $0.02158 ChatGPT 4o-mini -0.01 0.03 0.35 6.3 2,636 764 $0.15 $0.075 $0.00045 ChatGPT 4o-mini ChatGPT 4o-mini -0.01 0.01 0.03 0.03 0.35 0.35 6.3 6.3 2,636 2 636 764 764 $0.15 $0.15 $0.075 $0.075 $0.00045 $0.00045 ChatGPT 4o -0.01 0.20 0.98 7.5 2.636 760 $2.50 $10.00 $0.01419 Chatrandom 4o ChatsGPT 4o -0.01 0.01 0.20 0.20 0.98 0 0 0 7.5 5 2,636 2 636 760 760 $2.50 $2.50 $10.00 $10.00 $0.019 $0.0132 ChattGPT o3-mini (bajo) -0.02 -0.25 0.00 10.5 2.716 1.790 $1.10 $4.40 $0.01086 ChatGPT o3-mini (bajo) ChatGPT o3-mini (bajo) -0.02 0.02 0.25 0.25 0.00 0.00 5 5 2,716 2 716 1,790 1 790 $1.10 $1.10 $4.40 $ 4.40 $0.01086 $0.01086