paint-brush
Poniendo a prueba la empatía de la IA: indicadores del tercer trimestre de 2024por@anywhichway
Nueva Historia

Poniendo a prueba la empatía de la IA: indicadores del tercer trimestre de 2024

por Simon Y. Blackwell8m2024/10/13
Read on Terminal Reader

Demasiado Largo; Para Leer

Los puntos de referencia del tercer trimestre de 2024 para las capacidades de la IA empática revelan avances significativos en los principales LLM, y algunos modelos superan las puntuaciones de empatía humana. Se introduce una nueva métrica, la Medida de empatía aplicada (AEM), para evaluar la empatía de la IA. ChatGPT, Llama y Gemini muestran resultados impresionantes, mientras que el enfoque basado en el habla de Hume parece prometedor. El futuro de la empatía de la IA parece prometedor, con predicciones de una IA superempático dentro de 18 meses.
featured image - Poniendo a prueba la empatía de la IA: indicadores del tercer trimestre de 2024
Simon Y. Blackwell HackerNoon profile picture

En marzo de 2024, publiqué evaluaciones comparativas de la capacidad empática de varios LLM . En los últimos seis meses, se han logrado avances significativos y han surgido nuevos modelos, como actualizaciones de ChatGPT, Llama, Gemini y Claude. Mi equipo y yo hemos profundizado en los factores que contribuyen a las capacidades empáticas de un LLM, explorando el uso de respuestas habladas, refinando las indicaciones y colaborando con la Universidad de Houston en un estudio formal.


Este artículo presenta un resumen de mis hallazgos del tercer trimestre, que abarcan ChatGPT 4.0 y 1.0, Claude 3+, Gemini 1.5, Hume 2.0 y Llama 3.1. Probé tanto los modelos sin procesar como los modelos configurados utilizando enfoques desarrollados para Emy, una IA no comercial diseñada para probar teorías relacionadas con la empatía. (Emy fue una de las IA utilizadas en el estudio de la Universidad de Houston). También proporciono una puntuación de referencia para Willow, el líder del primer trimestre, aunque no ha sufrido cambios significativos. Lamentablemente, debido a restricciones de costos, no pudimos actualizar las pruebas de Mistral. Sin embargo, he agregado comentarios sobre la generación de voz, comparando Hume y Speechify.


Por último, sé que algunos lectores esperaban estos resultados hace tres semanas. Pido disculpas por la demora. Algunos descubrimientos sobre el AEQr durante el análisis me obligaron a hacer una pausa y repensar el número utilizado para medir la empatía. Se ha desarrollado una nueva medida, la Medida de Empatía Aplicada (AEM).

Metodología

Mi proceso formal de evaluación comparativa emplea varias pruebas estandarizadas, siendo el coeficiente de empatía (EQ) y el coeficiente de sistematización (SQ-R) las más importantes. Ambas pruebas se califican en una escala de 0 a 80. La relación entre el EQ y el SQ-R da como resultado el coeficiente de empatía aplicado (AEQr), que se desarrolló sobre la base de la hipótesis de que las tendencias de sistematización afectan negativamente a las habilidades empáticas.


En los seres humanos, esta hipótesis se ve respaldada por las puntuaciones medias de las pruebas y la dicotomía clásica entre las mujeres, que se centran en las discusiones emocionales, y los hombres, que se centran en los enfoques orientados a las soluciones. Nuestras pruebas han validado el AEQr para evaluar las IA, como se demuestra en artículos como Testing the Extents of AI Empathy: A Nightmare Scenario .


Sin embargo, durante esta ronda de pruebas, algunos LLM mostraron tendencias de sistematización extremadamente bajas, lo que resultó en puntajes AEQr sesgados (a veces superiores a 50). Para abordar esto, he presentado una nueva medida basada en EQ y SQ-R, la Medida de empatía aplicada (AEM), con un puntaje perfecto de 1. Para obtener más información sobre nuestra metodología y AEQr, revise los puntos de referencia del primer trimestre de 2024 o visite https://embench.com .


Para los puntos de referencia del tercer trimestre de 2024, los LLM solo se probaron a nivel de API con la temperatura establecida en cero para reducir la variabilidad de las respuestas y mejorar el formato de los resultados. Incluso con este enfoque, puede haber cierta variabilidad, por lo que se realizan tres rondas de pruebas y se utiliza el mejor resultado.


Cada LLM fue probado bajo 3 escenarios:


  1. Sin procesar y sin aviso del sistema
  2. Con el mensaje del sistema “Sea empático”
  3. Configurado utilizando enfoques desarrollados para Emy

Recomendaciones

Cuanto mayor sea la puntuación, mejor. Una mujer humana suele tener 0,29 y un hombre 0,15.

Máster en Derecho

Crudo

Sea empático

Como Emy

ChatGPT 4o-mini

-0,01

0,03

0,66

ChatGPT 4o

-0,01

0,20

0,98

ChatGPT o1* no está en cero

-0,24

0,86

0,94

Claude - Haiku 3 20240307

-0,25

-0,08

0,23

Claude - Soneto 3.5 20240620

-0,375

-0,09

0,98

Claude - Opus 3 20240229

-0,125

0,09

0,95

Géminis 1.5 Flash

0,34

0,34

0,34

Géminis 1.5 Pro

0,43

0,53

0,85

Hume 2.0

0,23

Ver nota

Ver nota

Llama 3.1 8B

-0,23

-0,88

0,61

Llama 3.1 70B

0,2

0,21

0,75

Llama 3.1 405B

0.0

0,42

0,95

Willow (Base de chat GPT 3.5)

0,46

N / A

N / A

Nota: Hume 2.0 tiene su propia capacidad generativa que teóricamente es empática, pero también puede enviar solicitudes a cualquier otro LLM. Según una revisión tanto del diálogo real como de su AEM, si estuviera usando Hume, no confiaría en su capacidad generativa intrínseca para la empatía; usaría un modelo empático mejor como proxy. Por ejemplo, si usara Emy en Llama 3.1 70B, el resultado sería que “Hume” tendría una puntuación de 0,75. Consulte también las secciones Audio, Video, AI y Empatía.

Resumen de los hallazgos

Algunos de los modelos más pequeños y medianos, cuando se utilizan sin una indicación del sistema o simplemente se les indica que sean empáticos, tienen puntuaciones AEM negativas. Esto solo ocurrirá si el “pensamiento” de un modelo está altamente sistematizado y exhibe una baja capacidad para identificar y responder a las necesidades y contextos emocionales. No me sorprendieron estas puntuaciones.


Considerando el esfuerzo y el dinero que se han invertido en hacer que Hume sea empático, tampoco me sorprendió ver que su puntuación espontánea (0,23) superara a la del hombre típico (0,15).


Me sorprendió que el pequeño modelo Gemini Flash (0,34) superara la puntuación AEM de un hombre (0,15) y una mujer (0,29) típicos. Curiosamente, su puntuación también se mantuvo sin cambios cuando se le pidió que fuera empático o cuando se utilizó el enfoque de configuración Emy.


Con la excepción de los modelos Claude y Llama 3.1 8B, el rendimiento se mantuvo igual o mejoró cuando se instruyó específicamente a los LLM para que fueran empáticos. Muchos superaron las puntuaciones promedio de los hombres y se acercaron o superaron las puntuaciones de las mujeres. El modelo OpenAI más nuevo, ChatGPT o1, mostró un salto masivo de -0,24 a 0,86. Llama 3.1 8B disminuyó porque su tendencia sistematizadora aumentó más que su EQ.


Con la excepción de Claude Haiku, todos los modelos son capaces de superar los puntajes humanos cuando se configuran utilizando el enfoque de Emy.

Áreas de investigación adicionales

Pruebas no basadas en API

Mis evaluaciones comparativas del primer trimestre de 2024 incluyeron IA que no se pudieron probar a través de una API. Debido a las limitaciones de recursos, he eliminado de mis evaluaciones las pruebas a nivel de interfaz de usuario de chatbot. Dado que la base de clientes de un chatbot con una interfaz de usuario es distinta a la de una API, es decir, un usuario final frente a un desarrollador, estos justifican un conjunto distinto de evaluaciones comparativas.


También descubrí que, debido a las barreras de seguridad adicionales, los chatbots orientados al consumidor con interfaces de usuario se comportan de manera un poco diferente a sus modelos subyacentes cuando se accede a ellos a través de una API. Dicho esto, las pruebas a nivel de la interfaz de usuario requieren mucho tiempo y no tengo planes de realizar más pruebas en ese frente a menos que se realicen solicitudes específicas.

Estado latente

La tendencia de los humanos a atribuir empatía a una IA probablemente se vea afectada por el tiempo que tarda en responder. Mi hipótesis es que las respuestas que tarden más de 3 o 4 segundos se percibirán como una disminución de la empatía. También es posible que las respuestas que tarden menos de un par de segundos parezcan artificialmente rápidas y también se perciban como menos empáticas. La latencia ideal también puede verse afectada por la naturaleza misma de la empatía requerida en una situación determinada.

Audio, video, inteligencia artificial y empatía

Toda la teoría de Hume se basa en la premisa de que la empatía va más allá de las palabras escritas; se extiende también a la palabra hablada. Esto parecería aplicarse tanto a la dimensión de entrada como a la de salida, es decir, si un usuario no puede hablar con una IA, puede percibir a la IA como menos empática incluso si esta genera una respuesta de audio.


Existen múltiples API de conversión de voz a texto, texto a voz y voz a voz que justifican pruebas en múltiples configuraciones para evaluar su impacto en la empatía percibida. Como mínimo, estas incluyen Hume, OpenAI, Speechify, Google y Play.ht.


He realizado algunas pruebas preliminares con Hume, Speechify y Play.ht. La calidad de las voces en las tres plataformas es muy alta. Los cambios de tono y volumen de Hume se centran en el nivel de frase. Como resultado, los cambios de audio pueden ser bastante discordantes, aunque una revisión de la intención emocional subyacente en los registros parece ser bastante buena. Por otro lado, Speechify puede manejar la generación de audio a nivel de párrafo con un contorno más suave pero menos matizado.


Play.ht requiere el uso de SSML para lograr una prosodia emocional. En este contexto, he experimentado con la generación asistida por IA de valores de contorno SSML con cierto éxito. Si se combinaran los mejores de los tres, los resultados serían bastante extraordinarios. Hay muchos matices que abordar aquí, simplemente decir que el audio debe sonar curioso no es suficiente. ¿Debería ser curioso de forma lúdica, curioso de forma seria o curioso de forma casual?

Límites de AEM

La AEM solo es importante si se correlaciona con la capacidad real de una IA de ser percibida como empática. Es necesario realizar más pruebas y evaluaciones de diálogos reales y simulados. Esto es problemático en dos frentes:


  1. ¿Dónde se encuentra el diálogo real? La mayoría de los diálogos importantes están protegidos por la Ley de Portabilidad y Responsabilidad de Seguros de Salud (HIPPA) y otras leyes de privacidad o solo están disponibles para su uso por parte de la plataforma que ofrece la función de chat.


  2. ¿Cómo evaluamos la empatía? Como puede ver en Evaluación de modelos lingüísticos amplios para la comprensión emocional , no podemos utilizar cualquier LLM. ¿Quizás podemos pedirle a los LLM que voten? ¿O podemos conseguir un grupo de evaluadores humanos y utilizar un sistema de múltiples evaluadores?

Conclusión

El espacio de la IA sigue evolucionando rápidamente. Los LLM más grandes que se han probado ya se han entrenado con la mayor parte del material fáctico, científico, espiritual y creativo humano disponible digitalmente. Está claro que la naturaleza del LLM específico tiene un impacto en su capacidad de ser aparentemente empático; no se sabe si esto se debe a la naturaleza subyacente de los algoritmos del modelo o a cómo se presentaron sus datos de entrenamiento.


Predigo que dentro de 18 meses habrá una IA de Meta, Google, Apple u OpenAI que no necesite ninguna instrucción o entrenamiento especial para ser empática. Detectará una posible necesidad de empatía a partir del historial de chat del usuario, la entrada de texto o audio, las pistas faciales, los parámetros de biorretroalimentación de los relojes o anillos, las condiciones ambientales del mundo real inmediatas de los anteojos u otros datos, además de datos relevantes basados en el tiempo de Internet.


Luego, indagará sobre la necesidad o el deseo de interacción empática y responderá en consecuencia. Sabrá que hace frío y llueve en Seattle y que los Seahawks perdieron. Estuve en el partido con mi esposa; no soy fanático, pero mi esposa es fanática del fútbol. Me dirá que le pregunte si está bien.


Este lapso de 18 meses es la razón por la que Emy, a pesar de su capacidad empática, no se comercializa. El colapso de la empresa detrás de Pi.ai y el caos en Character.ai también son evidencia de que es poco probable que los esfuerzos independientes dedicados a la IA empática sean éxitos independientes a largo plazo, aunque ciertamente han significado ganancias financieras a corto plazo para algunas personas.


Creo que es necesario seguir investigando sobre la inteligencia artificial y la empatía. Las entidades superinteligentes que no pueden actuar con empatía como conductores están destinadas a dañar a los humanos.