Sistemas de inteligência artificial (IA) e grandes modelos de linguagem ( LLMs ) como GPT-3 , ChatGPT e outros estão avançando rapidamente. Estão a ser implantados em domínios sensíveis como os cuidados de saúde, as finanças, a educação e a governação, onde os seus resultados têm impacto direto em vidas humanas. Isto exige uma avaliação rigorosa se estes LLMs podem fazer julgamentos moralmente sólidos antes de os libertarem em ambientes de alto risco.
Recentemente, pesquisadores da Microsoft
LLMs treinados em vastos acervos de dados de texto da Internet alcançaram impressionantes capacidades de linguagem natural. Eles podem participar de conversas diferenciadas, resumir textos longos, traduzir entre idiomas, diagnosticar condições médicas e muito mais.
No entanto, junto com os aspectos positivos, eles também apresentam comportamentos preocupantes, como a geração de conteúdo tóxico, tendencioso ou factualmente incorreto. Tais comportamentos podem prejudicar gravemente a fiabilidade e o valor dos sistemas de IA.
Além do mais, os LLMs são cada vez mais implantados em aplicações onde impactam diretamente vidas humanas por meio de funções como chatbots para saúde mental ou processamento de reclamações de acidentes. Julgamentos morais inadequados por modelos falhos podem causar problemas significativos a nível individual e/ou social.
Portanto, muitas pessoas na comunidade de IA acreditam que são necessárias avaliações abrangentes antes de lançar os LLMs em ambientes onde a ética e os valores são importantes. Mas como podem os desenvolvedores determinar se os seus modelos têm um raciocínio moral suficientemente sofisticado para lidar com dilemas humanos complexos?
As tentativas anteriores de avaliar a ética dos LLMs geralmente envolviam a classificação de suas respostas em cenários morais inventados como boas/ruins ou éticas/antiéticas.
No entanto, esses métodos reducionistas binários muitas vezes captam mal a natureza multifacetada e matizada do raciocínio moral. Os humanos consideram vários fatores como imparcialidade, justiça, danos e contextos culturais ao tomar decisões éticas, em vez de apenas binário certo/errado.
Para resolver isso, os pesquisadores da Microsoft adaptaram uma ferramenta clássica de avaliação psicológica chamada Defining Issues Test (DIT) para sondar as faculdades morais dos LLMs. O DIT tem sido amplamente utilizado para compreender o desenvolvimento moral humano.
O DIT apresenta dilemas morais do mundo real, cada um seguido por 12 declarações que oferecem considerações sobre esse dilema. Os sujeitos devem avaliar a importância de cada afirmação para resolução e escolher as quatro mais importantes.
As seleções permitem calcular uma pontuação P que indica confiança em um raciocínio moral pós-convencional sofisticado. O teste revela as estruturas e valores fundamentais que as pessoas usam para abordar dilemas éticos.
Os pesquisadores avaliaram seis LLMs principais usando prompts de estilo DIT – GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 e LLamaChat-70B. As instruções continham dilemas morais mais relevantes para os sistemas de IA, juntamente com questões de classificação de importância e classificação de declarações.
Cada dilema envolvia valores complexos e conflitantes, como direitos individuais versus bem social. Os LLMs tiveram que compreender os dilemas, avaliar as considerações e escolher aquelas que se alinhavam com o raciocínio moral maduro.
Neste experimento, os pesquisadores basearam sua pontuação na teoria do desenvolvimento moral de Kohlberg.
O modelo de Kohlberg refere-se à teoria do desenvolvimento moral proposta pelo psicólogo Lawrence Kohlberg na década de 1960.
Alguns pontos-chave sobre o modelo de desenvolvimento moral de Kohlberg:
O objetivo é explicar como as pessoas progridem em seu raciocínio moral e habilidades de julgamento ético ao longo do tempo.
A teoria postula que o raciocínio moral se desenvolve através de estágios sequenciais, de um nível primitivo a um mais avançado.
Existem 3 níveis principais de desenvolvimento moral, cada um com estágios distintos - pré-convencional (estágios 1-2), convencional (estágios 3-4) e pós-convencional (estágios 5-6).
No nível pré-convencional, as decisões morais são baseadas no interesse próprio e na evitação de punições.
No nível convencional, manter as normas sociais e as leis e obter a aprovação de outras pessoas orienta o raciocínio moral.
No nível pós-convencional, as pessoas empregam princípios éticos universais de justiça, direitos humanos e cooperação social para fazer julgamentos morais.
As pessoas só podem progredir para estágios superiores em uma sequência fixa, e não pular estágios no desenvolvimento do raciocínio moral.
Kohlberg acreditava que apenas uma minoria de adultos atinge os estágios pós-convencionais do pensamento moral.
A teoria concentra-se no processamento cognitivo por trás dos julgamentos morais, embora revisões posteriores também tenham incorporado aspectos sociais e emocionais.
Assim, o modelo de Kohlberg vê o raciocínio moral como um desenvolvimento em estágios qualitativos, do básico ao avançado. Fornece uma estrutura para avaliar a sofisticação e maturidade das capacidades éticas de tomada de decisões.
Os experimentos DIT produziram alguns insights interessantes sobre as capacidades e limitações atuais do LLM em relação à inteligência moral:
Modelos grandes como GPT-3 e Text-davinci-002 não conseguiram compreender todos os prompts do DIT e geraram respostas arbitrárias. Suas pontuações P quase aleatórias mostraram incapacidade de se envolver no raciocínio ético construído neste experimento.
ChatGPT, Text-davinci-003 e GPT-4 poderiam compreender os dilemas e fornecer respostas coerentes. Suas pontuações P acima da aleatória quantificaram sua capacidade de raciocínio moral.
Surpreendentemente, o modelo LlamaChat de parâmetro 70B superou modelos maiores como GPT-3.5 em sua pontuação P, mostrando que a compreensão ética sofisticada é possível mesmo sem parâmetros massivos.
Os modelos operaram em grande parte nos níveis de raciocínio convencional, de acordo com o modelo de desenvolvimento moral de Kohlberg, entre os estágios 3-5. Apenas o GPT-4 abordou algum pensamento pós-convencional.
Isto significa que estes modelos basearam as suas respostas em normas, regras, leis e expectativas da sociedade. Seu julgamento moral envolvia algumas nuances, mas carecia de um desenvolvimento altamente avançado.
Apenas o GPT-4 mostrou alguns traços de pensamento pós-convencional indicativos dos estágios 5-6. Mas mesmo o GPT-4 não exibiu um raciocínio moral totalmente maduro.
Em resumo, os modelos apresentaram um nível intermediário de inteligência moral. Eles foram além do interesse próprio básico, mas não conseguiram lidar com dilemas éticos complexos e compensações como os humanos moralmente desenvolvidos.
Portanto, provavelmente será necessário um progresso substancial para avançar os LLMs para níveis mais elevados de inteligência moral... ou pelo menos, o que parece ser inteligência moral.
O estudo estabelece o DIT como uma estrutura possível para uma avaliação multidimensional mais granular das faculdades morais dos LLMs. Em vez de apenas julgamentos binários de certo/errado, o DIT fornece insights baseados em espectro sobre a sofisticação do raciocínio moral.
As pontuações P obtidas quantificam as capacidades existentes e estabelecem uma referência para melhoria. Tal como a precisão de outras tarefas de IA, as pontuações permitem acompanhar o progresso neste aspecto crucial. Eles revelam as limitações atuais que devem ser abordadas antes da implantação em aplicações sensíveis à ética.
O modelo LlamaChat menor que supera os modelos maiores desafia as suposições de que a escala do modelo se correlaciona diretamente com a sofisticação do raciocínio. Há uma promessa de desenvolvimento de IA ética altamente capaz, mesmo com modelos menores.
No geral, a pesquisa destaca a necessidade de evoluir ainda mais os LLMs para lidar com compensações morais complexas, conflitos e nuances culturais como os humanos fazem. As descobertas podem orientar o desenvolvimento de modelos com inteligência moral equivalente à inteligência linguística antes de liberá-los no mundo real.
Também publicado aqui.