Uma pesquisa no Google Scholar por “   ” resulta em mais de 16.000 itens desde 2023. Uma pesquisa por frases como “testando IA empática” e “avaliando IA empática” reduz esse conjunto para cerca de 12.000 itens. Muitos títulos para percorrer! Certamente não posso afirmar que li todos eles ou mesmo olhei todos os títulos, mas aqui estão meus pensamentos. IA empática  Devemos ter uma definição comum de empatia.  Devemos concordar em ignorar a questão “A IA pode realmente sentir?” e simplesmente focar em como interpretamos o que a IA gera, ou seja, se a IA fosse um ser humano, como sentiríamos ou pensaríamos que o ser humano está pensando ou sentindo? (Uau, isso é um pouco de ginástica).  Devemos distinguir entre identificar emoções, identificar empatia, gerar respostas empáticas e participar em diálogos de forma empática.  Devemos ter em conta a rica história dos testes de capacidade emocional e empática em humanos, reconhecendo ao mesmo tempo como as IA são diferentes, para que os testes históricos possam ser aplicados, potencialmente modificados e avaliados de forma adequada.  Devemos compreender os atuais quadros de avaliação sintonizados com a IA.  Devemos desenvolver novas estruturas e abordagens.  O que é empatia?  Merriam-Webster:   ”. “A ação de compreender, estar ciente, ser sensível e experimentar indiretamente os sentimentos, pensamentos e experiências de outra pessoa  Para eliminar as possíveis preocupações com “experimentar” no contexto dos LLMs, reformularei isso como   . a ação de compreender, estar ciente, ser sensível e   experimentar indiretamente os sentimentos, pensamentos e experiências de outra pessoa parecer  E, claro, se estivermos preocupados com a conversa, acrescentaríamos:   É claro que um sociopata também pode   e   , então farei um ajuste final. E, manifestando isso de tal forma que as outras partes numa conversa estejam cientes da ação. aparecer se manifestar dessa forma   Empatia é:    .  A ação de compreender, estar ciente, ser sensível   e parecer vivenciar indiretamente os sentimentos, pensamentos e experiências de outra pessoa de maneira positiva E manifestar isso é de forma que as outras partes da conversa tenham consciência da ação.  Revendo esta e a definição original, dois componentes da empatia tornam-se evidentes, o afetivo e o cognitivo.  O componente afetivo refere-se à parte emocional ou sentimental da empatia. É a capacidade de compartilhar ou espelhar os sentimentos de outra pessoa. Por exemplo, se um amigo está triste, a parte afetiva da sua empatia pode fazer você se sentir triste também, ou pelo menos perceber a tristeza dele.  O componente cognitivo, por outro lado, refere-se à parte mental ou pensante da empatia. É a capacidade de identificar e compreender ativamente as filas para que alguém possa se colocar mentalmente no lugar de outra pessoa. Por exemplo, se um colega lhe contar sobre um projeto difícil em que está trabalhando (uma fila) com uma voz cansada (uma fila), você pode tentar entender o estresse dele imaginando ativamente como se sentiria em uma situação semelhante. . Para alguns, isso pode produzir artificialmente o efeito.  As IAs podem sentir?  Neste ponto, a maioria das pessoas diria que   não têm sentimentos. Alguns preveriam um futuro onde as IAs têm sentimentos e outros onde as IAs não têm e não podem ter sentimentos e ainda um terceiro grupo poderia dizer: “As IAs sentem/irão sentir, mas de uma forma diferente dos humanos”. as IAs  Independentemente disso, não faremos progressos nos testes de empatia da IA se gastarmos tempo debatendo este tópico. Devemos concentrar-nos na nossa interpretação do que as IAs manifestam, e não nos seus estados internos. Embora tenha havido algumas pesquisas interessantes sobre este tópico, consulte   . Emocionalmente Entorpecido ou Empático? Avaliando como os LLMs se sentem usando o EmotionBench  Se você não consegue superar esse obstáculo, sugiro que simplesmente ignore os benchmarks deste site. No entanto, você ainda pode gostar dos artigos e das conversas!  Identificação vs Geração  Há um grande salto entre identificar algo e fazer algo. Jovens atletas ou acadêmicos podem identificar o que há de errado com seu desempenho sem conseguirem imediatamente atingir um nível superior. Da mesma forma, ter a capacidade de identificar emoções e conversas empáticas não é o mesmo que ser capaz de parecer ter emoções e gerar respostas que outra parte interpretaria como empáticas. Na verdade, há até um passo intermediário. Jovens atletas ou acadêmicos receberem a contribuição de um treinador ou professor e no momento produzirem melhores resultados não os tornam totalmente capazes. Se uma IA produz um resultado empático como efeito colateral de um design de teste ou prompt, então a IA pode ter uma capacidade empática nascente, mas não é intrinsecamente empática.  Embora possa não ser possível compreender completamente o estado interno de uma IA, acredito que a identificação de emoções é uma condição necessária para que a IA demonstre empatia. Acredito também que ser capaz de estimular/treinar uma IA para fornecer uma resposta empática é uma indicação de capacidade nascente, ou seja, o ajuste fino (o equivalente à prática humana) pode criar a capacidade.  As distinções entre   versus   e   versus   são importantes para discussões sobre a eficácia de testes e estruturas de teste que vão além do escopo deste artigo. identificação geração treinado intrínseco  Identificação  A identificação das emoções no conteúdo textual baseia-se na presença de palavras indicadoras, letras maiúsculas, pontuação e estrutura gramatical. A capacidade de identificar com precisão o sentimento é anterior à atual revolução da IA em mais de vinte anos. Na década de 1990, as interseções de palavras n-gramas e o raciocínio simbólico já produziam resultados impressionantes. À medida que as redes sociais cresceram no início dos anos 2000, a necessidade de moderação automatizada impulsionou muitos progressos nesta área. No entanto, os LLMs atuais são surpreendentes em sua capacidade de identificar não apenas sentimentos gerais, mas também emoções específicas.  Dito isto, existem vários tipos de identificação de expressões emocionais necessárias para conversas totalmente empáticas, classifico-as da seguinte forma:  explícito – o usuário afirma que tem um sentimento.  conversacional - As emoções são evidentes na análise textual de alto nível, estão presentes na conversa.  dirigindo - As emoções estão CONDUZINDO a conversa, uma pessoa manifesta raiva e outra responde na mesma moeda.  núcleo - Emoções que causam outras emoções, mas não são causadas por uma emoção, são ESSENCIAIS. Eles normalmente se manifestam como resultado de algum gatilho histórico que provoca uma antecipação (consciente ou subconsciente) sobre o futuro. Diferentes pesquisadores podem classificá-los de forma diferente, um exemplo apoiado por Dalia Lama são os Cinco Continentes da Emoção (Raiva, Medo, Nojo, Tristeza, Prazer) no   . Atlas da Emoção  Observação: uma emoção central também pode ser motivadora, coloquial e explícita, mas as emoções centrais geralmente ficam ocultas. Durante a revisão e definição de testes ou resultados de testes além deste artigo, chamarei a atenção novamente para essas classificações.  Considerações de teste  Os testes humanos clássicos para identificação de emoções normalmente se dividem em dois grupos para facilitar o teste e a validação:  Testes de múltipla escolha sobre quais emoções existem ou não em uma conversa, às vezes associados a uma pontuação de intensidade.  Testes introspectivos autoadministrados sobre sentimentos, por exemplo, o   , que perguntam como o candidato se sente em determinadas situações. EQ-60   Estes apresentam desafios distintos para testes de IA de alta qualidade.    — Como modelos de linguagem de correspondência de padrões,   de hoje recebem efetivamente uma vantagem, oferecendo-lhes uma escolha de itens a serem identificados. Facilita o trabalho e não testa a capacidade da IA de sempre identificar emoções. Uma abordagem potencialmente melhor é simplesmente dizer à IA para identificar todas as emoções presentes em um texto e, nos bastidores, classificá-las em relação à verdade básica (não tenho certeza se existe tal coisa com emoções :-) ou uma chave baseada na análise estatística de respostas humanas ao mesmo teste. Ao avaliar testes propostos no futuro, chamo isso de   . No entanto, a amostragem estatística de seres humanos pode introduzir um risco adicional. Assuma o desejo de construir uma IA que seja melhor que o ser humano médio. Para fazer isso, pode ser necessário garantir que a amostra estatística se baseie em seres humanos que tenham uma capacidade superior à média para identificar emoções; caso contrário, a IA poderá identificar emoções que o ser humano médio não identificaria e poderá ser penalizada na pontuação. Eu chamo isso   . Testes de múltipla escolha as IAs Risco de Múltipla Escolha de Risco de Amostragem Humana    — Testes introspectivos sobre sentimentos apresentam desafios para a maioria dos modelos de IA. As IAs geralmente têm barreiras de proteção que exigem que respondam algo como “Eu sou uma IA, então não tenho sentimentos”. Às vezes é possível fazer o jailbreak ou solicitar ao engenheiro essas restrições, mas as questões então são: Testes introspectivos  O prompt impacta positiva ou negativamente o restante da capacidade da IA em relação à empatia, ou de fato alguma coisa?  Risco de efeito colateral do jailbreak  As respostas refletem com precisão as tendências que a IA terá ao participar de conversas sem aviso prévio?  Risco de precisão do jailbreak  O   pode ser mitigado até certo ponto, garantindo que todos os modelos sejam testados com o mesmo prompt e as pontuações sejam consideradas apenas em relação uns aos outros e não aos humanos. O impacto do   do Jailbreak só pode ser avaliado analisando conversas reais para ver se a capacidade de identificação emocional prevista se correlaciona com a empatia real exibida ou com as emoções evocadas nas conversas. risco de efeito colateral do Jailbreak risco de precisão  Geração  Vários testes mostraram que as IAs são capazes de gerar respostas empáticas às perguntas. Um dos mais impressionantes é   que respondeu a 195 perguntas do fórum AskDoc do Reddit, onde um médico verificado respondeu à pergunta e fez com que o ChatGPT respondesse à mesma pergunta. Um grupo de avaliadores classificou então cada resposta como “não empática”, “ligeiramente empática”, “moderadamente empática”, “empática” e muito “empática”. As respostas da IA tiveram prevalência 9,8 vezes maior de “empático” ou “muito empático” em relação aos médicos. comparar as respostas do médico e do chatbot de inteligência artificial às perguntas dos pacientes postadas em um fórum público de mídia social  Embora os resultados sejam impressionantes, não acredito que possam ser transferidos para um diálogo alargado.  Começando com um aviso do sistema “Seu trabalho é responder com empatia a perguntas que se beneficiariam de uma resposta empática”, minha experiência com o teste manual de IAs é que as respostas tendem a parecer mecânicas e emocionalmente redundantes sob todas as seguintes condições:  fazer várias perguntas não relacionadas que merecem uma resposta empática  fazer várias perguntas relacionadas que merecem uma resposta empática  conduzindo um diálogo de questões mistas, algumas merecedoras de empatia e outras não  Considerações de teste  Como resultado dos pontos acima, eu diria que a abordagem de teste utilizada no estudo teve um   ou seja, a empatia demonstrada em resposta a uma única pergunta pode não ser uma medida precisa. Outro risco é o que chamo   . Este risco é um efeito colateral de LLMs brutos não terem memória ao longo do tempo. Leva tempo para os humanos desenvolverem compreensão e empatia, o mesmo pode acontecer com as IAs e podemos estar subestimando a capacidade de algumas IAs de manifestar empatia ao longo do tempo se esperarmos um alto nível de resposta a uma única pergunta. Risco de Empatia de Disparo Único, de Risco de Eufemismo da Empatia  Os testes generativos também estão sujeitos ao   Se os seres humanos são encarregados de avaliar o conteúdo emocional e a natureza empática das respostas da IA e desejamos que a IA tenha uma capacidade melhor do que a média, então a amostra de seres humanos deve ter uma maior capacidade de identificar emoções e empatia do que o ser humano médio. Caso contrário, corremos o risco de subestimar o poder da IA ou de subtreiná-la, penalizando-a por identificar emoções e empatia não identificadas pelo ser humano típico. Risco de Amostragem Humana.  Finalmente, devido à natureza em camadas das emoções na conversa, além de lidar diretamente com   , é necessário abordar   . Pode ser que os usuários devam ser instruídos a considerar os tipos de emoção explícita, conversacional, motriz e central (ou algum outro conjunto de classificações) ao fazer sua classificação, enquanto as IAs não o fazem. Alternativamente, as IAs podem ser instruídas seletivamente para identificar diferentes tipos de emoções. o Risco de Amostragem Humana o Risco de Design de Perguntas  Seria interessante repetir o estudo baseado no Reddit AskDoc para várias IAs ou com uma amostra de avaliadores conhecidos por terem fortes habilidades de identificação de emoções e empatia.  Abordagens humanas padrão para avaliar QE e empatia  Há uma longa história de testes de tipos de personalidade humana, capacidade de identificar emoções ou a falta delas (alexitimia) e de interagir com empatia com os outros. Este   certamente será muito mais completo e coerente do que qualquer coisa que eu pudesse escrever ou mesmo gerar com um LLM em um período de tempo razoável. Você pode ver as abordagens nas quais estamos focando visitando a   . artigo na Wikipedia página de benchmarks  Estruturas existentes para avaliar o QE e a empatia da IA  Várias estruturas foram propostas para avaliar o QE e a empatia da IA. Cada um merece sua própria análise e postagem no blog, então listo apenas alguns aqui:   EQ-Bench: uma referência de inteligência emocional para grandes modelos de linguagem   Escala de Empatia para Comunicação Humano-Computador (ESHCC)   iEval: Estrutura de avaliação interativa para chatbots empáticos de domínio aberto  Novas abordagens  Começámos a definir alguns testes para resolver deficiências identificadas na utilização de testes humanos padrão e nos quadros de IA existentes. Uma descoberta interessante que resulta na criação do   (Quociente Emocional de Profundidade) é que nenhum LLM testado identificou emoções centrais se elas também não fossem explícitas, conversacionais ou motivadoras. Por outro lado, quando solicitadas a identificar especificamente apenas as emoções centrais, várias IAs foram bastante boas. No entanto, quando dada uma gama de todos os tipos de emoções, alguns LLMs perderam a capacidade de identificar emoções centrais e outros tiveram um desempenho substancialmente melhor, ou seja, identificaram a presença de mais emoções em todos os níveis. Isso resultou na criação do   (Quociente Emocional de Amplitude). EQ-D EQ-B  Durante o desenvolvimento do teste, tornou-se evidente que há momentos em que será necessário um prompt que introduza   , ou seja, aumente a probabilidade de o resultado depender do prompt, e não da IA principal. Este risco pode ou não invalidar comparações com humanos e pode ser legítimo no nível da aplicação. No nível bruto do LLM, pareceria irrelevante comparar uma IA com outra, desde que o prompt seja usado em todas as IA testadas e não seja influenciado por uma IA específica. Os designs atuais para   e   sofrem deste risco devido à imaturidade geral da tecnologia de IA. o Risco de Prompt EQ-D EQ-B  Embora existam várias propostas relativas ao teste de empatia em IAs, estamos nos primeiros dias e existem problemas conhecidos e desconhecidos com estas abordagens. Há trabalho a ser feito para abordar o conhecido:  os testes existentes precisam ser avaliados quanto a riscos e riscos documentados ou mitigados  novos casos de testes precisam ser desenvolvidos no contexto de alguns testes existentes  mais tipos de testes precisam ser executados em uma gama mais ampla de IAs  Mas é o desconhecido que mais me intriga.  E você?  Também publicado  aqui.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Change What's Possible, Make Yesterday Jealous

Read My Stories

Este áudio é produzido no idioma original da história!

Testando as profundezas da empatia com IA: estruturas e desafios

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps