paint-brush
Testando as profundezas da empatia com IA: estruturas e desafiosby@anywhichway
529
529

Testando as profundezas da empatia com IA: estruturas e desafios

Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

Tem havido muita pesquisa sobre o desenvolvimento e avaliação de sistemas de IA empáticos. No entanto, ainda existem muitas questões e desafios em aberto: - Precisamos de uma definição clara e consensual de empatia para testar. - Deveríamos evitar debater se as IAs podem “verdadeiramente” sentir emoções e, em vez disso, concentrar-nos na avaliação dos seus comportamentos empáticos observáveis. - Existem distinções importantes entre identificar e gerar empatia, e empatia em respostas pontuais versus diálogos. Os sistemas devem ser avaliados em conformidade. - Testar sistemas de IA introduz riscos como viés de múltipla escolha, viés de amostragem em classificações humanas e ajuste excessivo às solicitações. - Foram propostas algumas estruturas padrão para testar a empatia da IA, mas ainda é necessário mais trabalho para mitigar riscos conhecidos e explorar desafios desconhecidos. - As áreas para futuras pesquisas incluem a avaliação de riscos em testes existentes, o desenvolvimento de casos de testes complementares e a avaliação sistemática de mais sistemas.
featured image - Testando as profundezas da empatia com IA: estruturas e desafios
Simon Y. Blackwell HackerNoon profile picture
0-item


Uma pesquisa no Google Scholar por “ IA empática ” resulta em mais de 16.000 itens desde 2023. Uma pesquisa por frases como “testando IA empática” e “avaliando IA empática” reduz esse conjunto para cerca de 12.000 itens. Muitos títulos para percorrer! Certamente não posso afirmar que li todos eles ou mesmo olhei todos os títulos, mas aqui estão meus pensamentos.


  1. Devemos ter uma definição comum de empatia.
  2. Devemos concordar em ignorar a questão “A IA pode realmente sentir?” e simplesmente focar em como interpretamos o que a IA gera, ou seja, se a IA fosse um ser humano, como sentiríamos ou pensaríamos que o ser humano está pensando ou sentindo? (Uau, isso é um pouco de ginástica).
  3. Devemos distinguir entre identificar emoções, identificar empatia, gerar respostas empáticas e participar em diálogos de forma empática.
  4. Devemos ter em conta a rica história dos testes de capacidade emocional e empática em humanos, reconhecendo ao mesmo tempo como as IA são diferentes, para que os testes históricos possam ser aplicados, potencialmente modificados e avaliados de forma adequada.
  5. Devemos compreender os atuais quadros de avaliação sintonizados com a IA.
  6. Devemos desenvolver novas estruturas e abordagens.


O que é empatia?

Merriam-Webster: “A ação de compreender, estar ciente, ser sensível e experimentar indiretamente os sentimentos, pensamentos e experiências de outra pessoa ”.


Para eliminar as possíveis preocupações com “experimentar” no contexto dos LLMs, reformularei isso como a ação de compreender, estar ciente, ser sensível e parecer experimentar indiretamente os sentimentos, pensamentos e experiências de outra pessoa .

E, claro, se estivermos preocupados com a conversa, acrescentaríamos: E, manifestando isso de tal forma que as outras partes numa conversa estejam cientes da ação. É claro que um sociopata também pode aparecer e se manifestar dessa forma , então farei um ajuste final.


Empatia é:

A ação de compreender, estar ciente, ser sensível de maneira positiva e parecer vivenciar indiretamente os sentimentos, pensamentos e experiências de outra pessoa . E manifestar isso é de forma que as outras partes da conversa tenham consciência da ação.

Revendo esta e a definição original, dois componentes da empatia tornam-se evidentes, o afetivo e o cognitivo.


  1. O componente afetivo refere-se à parte emocional ou sentimental da empatia. É a capacidade de compartilhar ou espelhar os sentimentos de outra pessoa. Por exemplo, se um amigo está triste, a parte afetiva da sua empatia pode fazer você se sentir triste também, ou pelo menos perceber a tristeza dele.


  2. O componente cognitivo, por outro lado, refere-se à parte mental ou pensante da empatia. É a capacidade de identificar e compreender ativamente as filas para que alguém possa se colocar mentalmente no lugar de outra pessoa. Por exemplo, se um colega lhe contar sobre um projeto difícil em que está trabalhando (uma fila) com uma voz cansada (uma fila), você pode tentar entender o estresse dele imaginando ativamente como se sentiria em uma situação semelhante. . Para alguns, isso pode produzir artificialmente o efeito.


As IAs podem sentir?

Neste ponto, a maioria das pessoas diria que as IAs não têm sentimentos. Alguns preveriam um futuro onde as IAs têm sentimentos e outros onde as IAs não têm e não podem ter sentimentos e ainda um terceiro grupo poderia dizer: “As IAs sentem/irão sentir, mas de uma forma diferente dos humanos”.


Independentemente disso, não faremos progressos nos testes de empatia da IA se gastarmos tempo debatendo este tópico. Devemos concentrar-nos na nossa interpretação do que as IAs manifestam, e não nos seus estados internos. Embora tenha havido algumas pesquisas interessantes sobre este tópico, consulte Emocionalmente Entorpecido ou Empático? Avaliando como os LLMs se sentem usando o EmotionBench .


Se você não consegue superar esse obstáculo, sugiro que simplesmente ignore os benchmarks deste site. No entanto, você ainda pode gostar dos artigos e das conversas!

Identificação vs Geração

Há um grande salto entre identificar algo e fazer algo. Jovens atletas ou acadêmicos podem identificar o que há de errado com seu desempenho sem conseguirem imediatamente atingir um nível superior. Da mesma forma, ter a capacidade de identificar emoções e conversas empáticas não é o mesmo que ser capaz de parecer ter emoções e gerar respostas que outra parte interpretaria como empáticas. Na verdade, há até um passo intermediário. Jovens atletas ou acadêmicos receberem a contribuição de um treinador ou professor e no momento produzirem melhores resultados não os tornam totalmente capazes. Se uma IA produz um resultado empático como efeito colateral de um design de teste ou prompt, então a IA pode ter uma capacidade empática nascente, mas não é intrinsecamente empática.


Embora possa não ser possível compreender completamente o estado interno de uma IA, acredito que a identificação de emoções é uma condição necessária para que a IA demonstre empatia. Acredito também que ser capaz de estimular/treinar uma IA para fornecer uma resposta empática é uma indicação de capacidade nascente, ou seja, o ajuste fino (o equivalente à prática humana) pode criar a capacidade.

As distinções entre identificação versus geração e treinado versus intrínseco são importantes para discussões sobre a eficácia de testes e estruturas de teste que vão além do escopo deste artigo.

Identificação

A identificação das emoções no conteúdo textual baseia-se na presença de palavras indicadoras, letras maiúsculas, pontuação e estrutura gramatical. A capacidade de identificar com precisão o sentimento é anterior à atual revolução da IA em mais de vinte anos. Na década de 1990, as interseções de palavras n-gramas e o raciocínio simbólico já produziam resultados impressionantes. À medida que as redes sociais cresceram no início dos anos 2000, a necessidade de moderação automatizada impulsionou muitos progressos nesta área. No entanto, os LLMs atuais são surpreendentes em sua capacidade de identificar não apenas sentimentos gerais, mas também emoções específicas.


Dito isto, existem vários tipos de identificação de expressões emocionais necessárias para conversas totalmente empáticas, classifico-as da seguinte forma:


  • explícito – o usuário afirma que tem um sentimento.

  • conversacional - As emoções são evidentes na análise textual de alto nível, estão presentes na conversa.

  • dirigindo - As emoções estão CONDUZINDO a conversa, uma pessoa manifesta raiva e outra responde na mesma moeda.

  • núcleo - Emoções que causam outras emoções, mas não são causadas por uma emoção, são ESSENCIAIS. Eles normalmente se manifestam como resultado de algum gatilho histórico que provoca uma antecipação (consciente ou subconsciente) sobre o futuro. Diferentes pesquisadores podem classificá-los de forma diferente, um exemplo apoiado por Dalia Lama são os Cinco Continentes da Emoção (Raiva, Medo, Nojo, Tristeza, Prazer) no Atlas da Emoção .


Observação: uma emoção central também pode ser motivadora, coloquial e explícita, mas as emoções centrais geralmente ficam ocultas. Durante a revisão e definição de testes ou resultados de testes além deste artigo, chamarei a atenção novamente para essas classificações.


Considerações de teste

Os testes humanos clássicos para identificação de emoções normalmente se dividem em dois grupos para facilitar o teste e a validação:


  1. Testes de múltipla escolha sobre quais emoções existem ou não em uma conversa, às vezes associados a uma pontuação de intensidade.

  2. Testes introspectivos autoadministrados sobre sentimentos, por exemplo, o EQ-60 , que perguntam como o candidato se sente em determinadas situações.


Estes apresentam desafios distintos para testes de IA de alta qualidade.


  • Testes de múltipla escolha — Como modelos de linguagem de correspondência de padrões, as IAs de hoje recebem efetivamente uma vantagem, oferecendo-lhes uma escolha de itens a serem identificados. Facilita o trabalho e não testa a capacidade da IA de sempre identificar emoções. Uma abordagem potencialmente melhor é simplesmente dizer à IA para identificar todas as emoções presentes em um texto e, nos bastidores, classificá-las em relação à verdade básica (não tenho certeza se existe tal coisa com emoções :-) ou uma chave baseada na análise estatística de respostas humanas ao mesmo teste. Ao avaliar testes propostos no futuro, chamo isso de Risco de Múltipla Escolha . No entanto, a amostragem estatística de seres humanos pode introduzir um risco adicional. Assuma o desejo de construir uma IA que seja melhor que o ser humano médio. Para fazer isso, pode ser necessário garantir que a amostra estatística se baseie em seres humanos que tenham uma capacidade superior à média para identificar emoções; caso contrário, a IA poderá identificar emoções que o ser humano médio não identificaria e poderá ser penalizada na pontuação. Eu chamo isso de Risco de Amostragem Humana .


  • Testes introspectivos — Testes introspectivos sobre sentimentos apresentam desafios para a maioria dos modelos de IA. As IAs geralmente têm barreiras de proteção que exigem que respondam algo como “Eu sou uma IA, então não tenho sentimentos”. Às vezes é possível fazer o jailbreak ou solicitar ao engenheiro essas restrições, mas as questões então são:


    • O prompt impacta positiva ou negativamente o restante da capacidade da IA em relação à empatia, ou de fato alguma coisa? Risco de efeito colateral do jailbreak

    • As respostas refletem com precisão as tendências que a IA terá ao participar de conversas sem aviso prévio? Risco de precisão do jailbreak


    O risco de efeito colateral do Jailbreak pode ser mitigado até certo ponto, garantindo que todos os modelos sejam testados com o mesmo prompt e as pontuações sejam consideradas apenas em relação uns aos outros e não aos humanos. O impacto do risco de precisão do Jailbreak só pode ser avaliado analisando conversas reais para ver se a capacidade de identificação emocional prevista se correlaciona com a empatia real exibida ou com as emoções evocadas nas conversas.


Geração

Vários testes mostraram que as IAs são capazes de gerar respostas empáticas às perguntas. Um dos mais impressionantes é comparar as respostas do médico e do chatbot de inteligência artificial às perguntas dos pacientes postadas em um fórum público de mídia social que respondeu a 195 perguntas do fórum AskDoc do Reddit, onde um médico verificado respondeu à pergunta e fez com que o ChatGPT respondesse à mesma pergunta. Um grupo de avaliadores classificou então cada resposta como “não empática”, “ligeiramente empática”, “moderadamente empática”, “empática” e muito “empática”. As respostas da IA tiveram prevalência 9,8 vezes maior de “empático” ou “muito empático” em relação aos médicos.


Embora os resultados sejam impressionantes, não acredito que possam ser transferidos para um diálogo alargado.


Começando com um aviso do sistema “Seu trabalho é responder com empatia a perguntas que se beneficiariam de uma resposta empática”, minha experiência com o teste manual de IAs é que as respostas tendem a parecer mecânicas e emocionalmente redundantes sob todas as seguintes condições:


  1. fazer várias perguntas não relacionadas que merecem uma resposta empática
  2. fazer várias perguntas relacionadas que merecem uma resposta empática
  3. conduzindo um diálogo de questões mistas, algumas merecedoras de empatia e outras não

Considerações de teste

Como resultado dos pontos acima, eu diria que a abordagem de teste utilizada no estudo teve um Risco de Empatia de Disparo Único, ou seja, a empatia demonstrada em resposta a uma única pergunta pode não ser uma medida precisa. Outro risco é o que chamo de Risco de Eufemismo da Empatia . Este risco é um efeito colateral de LLMs brutos não terem memória ao longo do tempo. Leva tempo para os humanos desenvolverem compreensão e empatia, o mesmo pode acontecer com as IAs e podemos estar subestimando a capacidade de algumas IAs de manifestar empatia ao longo do tempo se esperarmos um alto nível de resposta a uma única pergunta.


Os testes generativos também estão sujeitos ao Risco de Amostragem Humana. Se os seres humanos são encarregados de avaliar o conteúdo emocional e a natureza empática das respostas da IA e desejamos que a IA tenha uma capacidade melhor do que a média, então a amostra de seres humanos deve ter uma maior capacidade de identificar emoções e empatia do que o ser humano médio. Caso contrário, corremos o risco de subestimar o poder da IA ou de subtreiná-la, penalizando-a por identificar emoções e empatia não identificadas pelo ser humano típico.


Finalmente, devido à natureza em camadas das emoções na conversa, além de lidar diretamente com o Risco de Amostragem Humana , é necessário abordar o Risco de Design de Perguntas . Pode ser que os usuários devam ser instruídos a considerar os tipos de emoção explícita, conversacional, motriz e central (ou algum outro conjunto de classificações) ao fazer sua classificação, enquanto as IAs não o fazem. Alternativamente, as IAs podem ser instruídas seletivamente para identificar diferentes tipos de emoções.


Seria interessante repetir o estudo baseado no Reddit AskDoc para várias IAs ou com uma amostra de avaliadores conhecidos por terem fortes habilidades de identificação de emoções e empatia.

Abordagens humanas padrão para avaliar QE e empatia

Há uma longa história de testes de tipos de personalidade humana, capacidade de identificar emoções ou a falta delas (alexitimia) e de interagir com empatia com os outros. Este artigo na Wikipedia certamente será muito mais completo e coerente do que qualquer coisa que eu pudesse escrever ou mesmo gerar com um LLM em um período de tempo razoável. Você pode ver as abordagens nas quais estamos focando visitando a página de benchmarks .

Estruturas existentes para avaliar o QE e a empatia da IA

Várias estruturas foram propostas para avaliar o QE e a empatia da IA. Cada um merece sua própria análise e postagem no blog, então listo apenas alguns aqui:

  1. EQ-Bench: uma referência de inteligência emocional para grandes modelos de linguagem
  2. Escala de Empatia para Comunicação Humano-Computador (ESHCC)
  3. iEval: Estrutura de avaliação interativa para chatbots empáticos de domínio aberto


Novas abordagens

Começámos a definir alguns testes para resolver deficiências identificadas na utilização de testes humanos padrão e nos quadros de IA existentes. Uma descoberta interessante que resulta na criação do EQ-D (Quociente Emocional de Profundidade) é que nenhum LLM testado identificou emoções centrais se elas também não fossem explícitas, conversacionais ou motivadoras. Por outro lado, quando solicitadas a identificar especificamente apenas as emoções centrais, várias IAs foram bastante boas. No entanto, quando dada uma gama de todos os tipos de emoções, alguns LLMs perderam a capacidade de identificar emoções centrais e outros tiveram um desempenho substancialmente melhor, ou seja, identificaram a presença de mais emoções em todos os níveis. Isso resultou na criação do EQ-B (Quociente Emocional de Amplitude).


Durante o desenvolvimento do teste, tornou-se evidente que há momentos em que será necessário um prompt que introduza o Risco de Prompt , ou seja, aumente a probabilidade de o resultado depender do prompt, e não da IA principal. Este risco pode ou não invalidar comparações com humanos e pode ser legítimo no nível da aplicação. No nível bruto do LLM, pareceria irrelevante comparar uma IA com outra, desde que o prompt seja usado em todas as IA testadas e não seja influenciado por uma IA específica. Os designs atuais para EQ-D e EQ-B sofrem deste risco devido à imaturidade geral da tecnologia de IA.


Embora existam várias propostas relativas ao teste de empatia em IAs, estamos nos primeiros dias e existem problemas conhecidos e desconhecidos com estas abordagens. Há trabalho a ser feito para abordar o conhecido:


  • os testes existentes precisam ser avaliados quanto a riscos e riscos documentados ou mitigados

  • novos casos de testes precisam ser desenvolvidos no contexto de alguns testes existentes

  • mais tipos de testes precisam ser executados em uma gama mais ampla de IAs


Mas é o desconhecido que mais me intriga.


E você?


Também publicado aqui.