paint-brush
Probando las profundidades de la empatía con la IA: marcos y desafíosby@anywhichway
529
529

Probando las profundidades de la empatía con la IA: marcos y desafíos

Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

Se han realizado muchas investigaciones sobre el desarrollo y la evaluación de sistemas de IA empáticos. Sin embargo, todavía quedan muchas preguntas y desafíos abiertos: - Necesitamos una definición clara y acordada de empatía para compararla. - Deberíamos evitar debatir si las IA pueden "realmente" sentir emociones y, en cambio, centrarnos en evaluar sus comportamientos empáticos observables. - Existen distinciones importantes entre identificar y generar empatía, y empatía en respuestas puntuales frente a diálogos. Los sistemas deben evaluarse en consecuencia. - Probar sistemas de IA introduce riesgos como sesgo de opción múltiple, sesgo de muestreo en las calificaciones humanas y sobreajuste de las indicaciones. - Se han propuesto algunos marcos estándar para probar la empatía de la IA, pero aún se necesita más trabajo para mitigar los riesgos conocidos y explorar desafíos desconocidos. - Las áreas para futuras investigaciones incluyen la evaluación de riesgos en las pruebas existentes, el desarrollo de casos de prueba complementarios y la evaluación sistemática de más sistemas.
featured image - Probando las profundidades de la empatía con la IA: marcos y desafíos
Simon Y. Blackwell HackerNoon profile picture
0-item


Una búsqueda en Google Scholar de “ ia empática ” da como resultado más de 16.000 elementos desde 2023. Una búsqueda de frases como “probar la IA empática” y “evaluar la IA empática” reduce este conjunto a unos 12.000 elementos. ¡Muchos títulos por leer! Ciertamente no puedo afirmar haberlos leído todos ni siquiera haber visto todos los títulos, pero aquí están mis pensamientos.


  1. Debemos tener una definición común de empatía.
  2. Debemos aceptar ignorar la pregunta "¿Puede realmente sentir la IA?" y simplemente centrarnos en cómo interpretamos lo que genera la IA, es decir, si la IA fuera un humano, ¿cómo sentiríamos o pensaríamos que el humano está pensando o sintiendo? (Vaya, eso es un poco de gimnasia).
  3. Debemos distinguir entre identificar emociones, identificar empatía, generar respuestas empáticas y participar en diálogos de forma empática.
  4. Debemos tener en cuenta la rica historia de las pruebas de capacidad emocional y empática en humanos y, al mismo tiempo, reconocer en qué se diferencian las IA para que las pruebas históricas puedan aplicarse, potencialmente modificarse y evaluarse de manera adecuada.
  5. Debemos comprender los marcos de evaluación actuales adaptados a la IA.
  6. Debemos desarrollar nuevos marcos y enfoques.


¿Qué es la empatía?

Merriam-Webster: “La acción de comprender, ser consciente, ser sensible y experimentar indirectamente los sentimientos, pensamientos y experiencias de otro ”.


Para eliminar las posibles preocupaciones con "experimentar" en el contexto de los LLM, lo reformularé como la acción de comprender, ser consciente, ser sensible y parecer experimentar indirectamente los sentimientos, pensamientos y experiencias de otro .

Y, por supuesto, si nos preocupa la conversación, agregaríamos Y, manifestando esto de tal manera que las otras partes en una conversación sean conscientes de la acción. Por supuesto, un sociópata también podría aparecer y manifestarse de esa manera , así que haré un ajuste final.


La empatía es:

La acción de comprender, ser consciente de, ser sensible de manera positiva y parecer experimentar indirectamente los sentimientos, pensamientos y experiencias de otro . Y manifestar esto es de tal manera que las otras partes en una conversación sean conscientes de la acción.

Revisando esta y la definición original, se hacen evidentes dos componentes de la empatía, el afectivo y el cognitivo.


  1. El componente afectivo se refiere a la parte emocional o sentimental de la empatía. Es la capacidad de compartir o reflejar los sentimientos de otra persona. Por ejemplo, si un amigo está triste, la parte afectiva de tu empatía podría hacerte sentir triste también, o al menos hacerte sentir su tristeza.


  2. El componente cognitivo, por otro lado, se refiere a la parte mental o pensante de la empatía. Es la capacidad de identificar y comprender activamente las colas para poder ponerse mentalmente en la posición de otra persona. Por ejemplo, si un colega te cuenta sobre un proyecto difícil en el que está trabajando (una cola) con voz cansada (una cola), puedes intentar comprender su estrés imaginando activamente cómo te sentirías en una situación similar. . Para algunos, esto podría producir el afecto artificialmente.


¿Pueden sentir las IA?

En este punto, la mayoría de la gente diría que las IA no tienen sentimientos. Algunos predecirían un futuro en el que las IA sí tendrán sentimientos y otros en el que las IA no tendrán ni podrán tener sentimientos y, sin embargo, un tercer grupo podría decir: “Las IA sienten o sentirán, pero de una manera diferente a los humanos”.


De todos modos, no avanzaremos en las pruebas de empatía de la IA si dedicamos tiempo a debatir este tema. Debemos centrarnos en nuestra interpretación de lo que manifiestan las IA, no en sus estados internos. Aunque se han realizado algunas investigaciones interesantes sobre este tema, consulte ¿Emocionalmente entumecido o empático? Evaluación de cómo se sienten los LLM al utilizar EmotionBench .


Si no puede superar este obstáculo, le sugiero que simplemente ignore los puntos de referencia de este sitio web. Sin embargo, ¡aún puedes disfrutar de los artículos y las conversaciones!

Identificación vs Generación

Hay un gran salto entre identificar algo y hacer algo. Los jóvenes atletas o académicos pueden identificar lo que está mal en su desempeño sin poder desempeñarse inmediatamente a un nivel superior. De manera similar, tener la capacidad de identificar emociones y conversaciones empáticas no es lo mismo que poder aparentar tener emociones y generar respuestas que otra parte interpretaría como empáticas. De hecho, incluso hay un paso intermedio. Los atletas o académicos jóvenes que toman el aporte de un entrenador o maestro y en el momento producen mejores resultados no los hace completamente capaces. Si una IA produce un resultado empático como efecto secundario de un diseño o indicación de prueba, entonces la IA puede tener una capacidad empática incipiente, pero no es intrínsecamente empática.


Aunque puede que no sea posible comprender completamente el estado interno de una IA, creo que la identificación de emociones es una condición necesaria para que la IA muestre empatía. También creo que poder incitar/entrenar a una IA para que proporcione una respuesta empática es una indicación de una capacidad incipiente, es decir, un ajuste fino (el equivalente a la práctica humana) puede crear la capacidad.

Las distinciones entre identificación versus generación y entrenada versus intrínseca son importantes para las discusiones sobre la eficacia de las pruebas y los marcos de prueba más allá del alcance de este artículo.

Identificación

La identificación de emociones en el contenido textual se basa en la presencia de palabras indicadoras, mayúsculas, puntuación y estructura gramatical. La capacidad de identificar con precisión los sentimientos es anterior a la actual revolución de la IA en más de veinte años. En la década de 1990, las intersecciones de palabras y gramos y el razonamiento simbólico ya estaban dando resultados impresionantes. A medida que las redes sociales crecieron a principios de la década de 2000, la necesidad de moderación automatizada impulsó muchos avances en esta área. Sin embargo, los LLM de hoy son sorprendentes por su capacidad para identificar no solo sentimientos generales sino emociones específicas.


Dicho esto, existen varios tipos de identificación de la expresión de emociones necesarios para conversaciones totalmente empáticas. Los clasifico de la siguiente manera:


  • Explícito: el usuario afirma que tiene un sentimiento.

  • conversacional: las emociones son evidentes a partir del análisis textual de alto nivel, están presentes EN la conversación.

  • Conducir: Las emociones IMPULSAN la conversación, una persona manifiesta enojo y otra responde de la misma manera.

  • Núcleo: las emociones que causan otras emociones pero que en sí mismas no son causadas por una emoción son CENTRALES. Generalmente se manifiestan como resultado de algún desencadenante histórico que provoca una anticipación (consciente o subconsciente) sobre el futuro. Diferentes investigadores pueden clasificarlos de manera diferente, un ejemplo apoyado por el Dalia Lama son los cinco continentes de la emoción (ira, miedo, disgusto, tristeza, disfrute) en el Atlas de la emoción .


Nota: una emoción central también puede ser motivadora, conversacional y explícita, pero las emociones centrales a menudo están ocultas. Durante la revisión y definición de pruebas o resultados de pruebas más allá de este artículo, llamaré la atención sobre estas clasificaciones.


Consideraciones de prueba

Las pruebas humanas clásicas para la identificación de emociones generalmente se dividen en dos categorías para facilitar las pruebas y la validación:


  1. Pruebas de opción múltiple sobre qué emociones existen o no en una conversación, a veces asociadas con una puntuación de intensidad.

  2. Pruebas introspectivas autoadministradas sobre sentimientos, por ejemplo, el EQ-60 , que preguntan cómo se siente el examinado en determinadas situaciones.


Estos presentan distintos desafíos para las pruebas de IA de alta calidad.


  • Pruebas de opción múltiple : como modelos de lenguaje de coincidencia de patrones, las IA de hoy reciben efectivamente una ventaja al darles una opción de elementos para identificar. Facilita el trabajo y no pone a prueba la capacidad de la IA para identificar siempre emociones. Un enfoque potencialmente mejor es simplemente decirle a la IA que identifique todas las emociones presentes en un texto y detrás de escena las califique con la verdad básica (no estoy seguro de que exista tal cosa con las emociones :-) o una clave basada en el análisis estadístico. de las respuestas humanas a la misma prueba. Cuando evalúo las pruebas propuestas en el futuro, lo llamo Riesgo de opción múltiple . Sin embargo, el muestreo estadístico de seres humanos puede introducir un riesgo adicional. Asuma el deseo de construir una IA que sea mejor que el ser humano promedio. Para hacer esto, puede ser necesario garantizar que la muestra estadística se base en humanos que tengan una capacidad superior a la media para identificar emociones; de lo contrario, la IA puede identificar emociones que el humano promedio no identificaría y puede ser penalizada en la puntuación. A esto lo llamo Riesgo de muestreo humano .


  • Pruebas introspectivas : las pruebas introspectivas sobre sentimientos presentan desafíos para la mayoría de los modelos de IA. Las IA suelen tener barreras de seguridad que les exigen responder con algo como "Soy una IA, así que no tengo sentimientos". A veces es posible hacer jailbreak o solicitar ingeniería para solucionar estas limitaciones, pero las preguntas entonces son:


    • ¿El mensaje tiene un impacto positivo o negativo en el resto de la capacidad de la IA con respecto a la empatía o, de hecho, en algo? Riesgo de efectos secundarios de jailbreak

    • ¿Las respuestas reflejan con precisión las tendencias que tendrá la IA al participar en conversaciones sin el aviso? Riesgo de precisión del jailbreak


    El riesgo de efectos secundarios de Jailbreak se puede mitigar hasta cierto punto asegurando que todos los modelos se prueben con el mismo mensaje y que las puntuaciones solo se consideren entre sí, no con los humanos. El impacto del riesgo de precisión del jailbreak solo se puede evaluar analizando conversaciones reales para ver si la capacidad de identificación emocional prevista se correlaciona con la empatía real mostrada o las emociones expresadas en las conversaciones.


Generación

Varias pruebas han demostrado que las IA son capaces de generar respuestas empáticas a las preguntas. Uno de los más impresionantes es la comparación de las respuestas de los médicos y los chatbots de inteligencia artificial a las preguntas de los pacientes publicadas en un foro público de redes sociales que tomó 195 preguntas del foro AskDoc de Reddit, donde un médico verificado respondió a la pregunta y ChatGPT respondió a la misma pregunta. Luego, un grupo de evaluadores calificó cada respuesta como “no empática”, “ligeramente empática”, “moderadamente empática”, “empática” y muy “empática”. Las respuestas de IA tuvieron una prevalencia 9,8 veces mayor para los “empáticos” o “muy empáticos” que los médicos.


Aunque los resultados son impresionantes, soy escéptico de que se puedan trasladar a un diálogo ampliado.


Comenzando con un mensaje del sistema de "Tu trabajo es responder con empatía a las preguntas que se beneficiarían de una respuesta empática", mi experiencia con las pruebas manuales de IA es que las respuestas tienden a parecer mecánicas y emocionalmente redundantes bajo todas las condiciones siguientes:


  1. hacer múltiples preguntas no relacionadas que merecen una respuesta empática
  2. hacer múltiples preguntas relacionadas que merezcan una respuesta empática
  3. llevar a cabo un diálogo de preguntas mixtas, algunas merecedoras de empatía y otras no

Consideraciones de prueba

Como resultado de los puntos anteriores, diría que el enfoque de prueba utilizado en el estudio tenía un riesgo de empatía de disparo único, es decir, la empatía mostrada en respuesta a una sola pregunta puede no ser una medida precisa. Otro riesgo es lo que yo llamo riesgo de subestimación de la empatía . Este riesgo es un efecto secundario de que los LLM sin procesar no tengan memoria con el tiempo. Se necesita tiempo para que los humanos desarrollen comprensión y empatía, puede ser lo mismo para las IA y es posible que estemos subestimando la capacidad de algunas IA para manifestar empatía con el tiempo si esperamos un alto nivel en respuesta a una sola pregunta.


Las pruebas generativas también están sujetas al riesgo de muestreo humano. Si a los humanos se les asigna la tarea de evaluar el contenido emocional y la naturaleza empática de las respuestas de la IA y deseamos que la IA tenga una habilidad mejor que el promedio, entonces la muestra de humanos debe tener una mayor capacidad para identificar emociones y empatía que el humano promedio. De lo contrario, corremos el riesgo de subestimar el poder de la IA o de entrenarla insuficientemente al penalizarla por identificar emociones y empatías que el humano típico no identifica.


Finalmente, debido a la naturaleza estratificada de las emociones en la conversación, además de abordar directamente el riesgo de muestreo humano , existe la necesidad de abordar el riesgo del diseño de preguntas . Puede ser que se deba decir a los usuarios que consideren los tipos de emociones explícitas, conversacionales, de conducción y centrales (o algún otro conjunto de clasificaciones) al realizar su calificación, mientras que a las IA no. Alternativamente, se podría ordenar selectivamente a las IA que identifiquen diferentes tipos de emociones.


Sería interesante repetir el estudio basado en Reddit AskDoc para varias IA o con una muestra de evaluadores que se sabe que tienen fuertes habilidades para identificar emociones y empatía.

Enfoques humanos estándar para evaluar el EQ y la empatía

Existe una larga historia de probar los tipos de personalidad humana, la capacidad de identificar emociones o la falta de ellas (alexitimia) y relacionarse empáticamente con los demás. Este artículo en Wikipedia seguramente será mucho más completo y coherente que cualquier cosa que pueda escribir o incluso generar con un LLM en un período de tiempo razonable. Puede ver los enfoques en los que nos hemos centrado visitando la página de puntos de referencia .

Marcos existentes para evaluar la empatía y el ecualizador de la IA

Se han propuesto varios marcos para evaluar el EQ y la empatía de la IA. Cada uno merece su propio análisis y publicación de blog, así que solo enumero algunos aquí:

  1. EQ-Bench: un punto de referencia de inteligencia emocional para modelos de lenguaje grandes
  2. Escala de empatía para la comunicación entre humanos y computadoras (ESHCC)
  3. iEval: marco de evaluación interactivo para chatbots empáticos de dominio abierto


Nuevos enfoques

Hemos comenzado a definir algunas pruebas para abordar las deficiencias identificadas en el uso de pruebas humanas estándar y los marcos de IA existentes. Un hallazgo interesante que da como resultado la creación del EQ-D (cociente emocional de profundidad) es que ningún LLM evaluado identificó emociones centrales si no eran también explícitas, conversacionales o de conducción. Por otro lado, cuando se les pidió que identificaran específicamente solo las emociones centrales, varias IA fueron bastante buenas. Sin embargo, cuando se les dio una variedad de todos los tipos de emociones, algunos LLM perdieron la capacidad de identificar emociones centrales y otros obtuvieron resultados sustancialmente mejores, es decir, identificaron la presencia de más emociones en todos los niveles. Esto resultó en la creación de EQ-B (Cociente Emocional de Amplitud).


Durante el desarrollo de la prueba, se ha hecho evidente que en ocasiones será necesario un aviso que introduzca Riesgo de aviso , es decir, aumente la probabilidad de que el resultado dependa del aviso, no de la IA central. Este riesgo puede o no invalidar las comparaciones con humanos y puede ser legítimo a nivel de aplicación. En el nivel bruto de LLM, parecería irrelevante comparar una IA con otra siempre que el mensaje se utilice en todas las IA probadas y no esté sesgado hacia una IA en particular. Los diseños actuales para EQ-D y EQ-B corren este riesgo debido a la inmadurez general de la tecnología de IA.


Aunque hay varias propuestas con respecto a las pruebas de empatía de las IA, estamos en los primeros días y existen problemas tanto conocidos como desconocidos con estos enfoques. Hay trabajo por hacer para abordar lo conocido:


  • Es necesario evaluar los riesgos de las pruebas existentes y documentar o mitigar los riesgos.

  • Es necesario desarrollar nuevos casos de prueba en el contexto de algunas pruebas existentes.

  • Es necesario realizar más tipos de pruebas en una gama más amplia de IA.


Pero lo que más me intriga es lo desconocido.


¿Y tú?


También publicado aquí.