1,380 leituras

Veja como o OpenAI está perpetuando estereótipos prejudiciais

por Naema Baskanderi4m2022/10/10

Muito longo; Para ler

Tem havido muito burburinho sobre o OpenA GPT-3, agora com a maior rede neural. Isso significa que o problema da IA foi resolvido? Se não formos cuidadosos, criaremos preconceitos contra idade, gênero, raça e muito mais no OpenAI. As informações que vão para a IA devem ser filtradas, ou os estereótipos nocivos nunca serão apagados.

featured image - Veja como o OpenAI está perpetuando estereótipos prejudiciais

Tem havido muitos rumores sobre o OpenAI GPT-3, agora com a maior rede neural. Isso significa que o problema da IA foi resolvido? Sim, ele possui um grande conjunto de dados, mas ainda não sabemos como ele aprende.

Noções básicas do OpenAI

A OpenAI Inc é um braço sem fins lucrativos da Open.AI LP cujo objetivo é criar uma 'IA amigável' que beneficiará a humanidade.

Open.AI tem várias ofertas diferentes:

DALL•E 2 - um sistema de IA que pode criar imagens e arte realistas a partir de uma descrição em linguagem natural
GPT-3 - Transformador pré-treinado generativo é um modelo de linguagem que aproveita o aprendizado profundo para gerar texto semelhante ao humano
InstructGPT - um modelo atualizado que produz linguagem menos ofensiva e menos erros em geral, mas também pode gerar desinformação
CLIP - Pré-treinamento Linguagem-Imagem Contrastiva. Ele reconhece conceitos visuais em imagens e os associa a seus nomes.

Como os modelos são treinados?

O OpenAI GPT-3 é treinado em 500 bilhões de palavras usando os seguintes conjuntos de dados:

O conjunto de dados Common Crawl contém dados coletados em mais de 8 anos de rastreamento na web
WebText2 é o texto das páginas da Web de todos os links de saída do Reddit de postagens com mais de 3 votos positivos
Livros 1 e Livros2 são dois corpora de livros baseados na Internet
Páginas da Wikipédia em inglês

Detalhamento do conjunto de dados e distribuição de treinamento

conjunto de dados	fichas	Peso no Treino
Rastreamento Comum	410 bilhões	60%
WebText2	19 bilhões	22%
Livros1	12 bilhões	8%
Livros2	55 bilhões	8%
Wikipédia	3 bilhões	3%

Modelos de treinamento podem ser feitos usando os seguintes métodos:

Poucas fotos (FS). É aqui que damos entre 10 a 100 contextos para um modelo e esperamos que o modelo determine o que vem a seguir.

Um tiro (1S). Isso é bastante semelhante ao FS. No entanto, um exemplo é dado sem qualquer treinamento. O contexto é fornecido ao modelo para determinar qual palavra vem a seguir.

Tiro Zero (0S)

O modelo prevê a resposta dada. A ideia é que, durante o treinamento, o modelo tenha

visto amostras suficientes para determinar qual palavra vem a seguir. Apenas o último contexto é permitido, dificultando essa configuração.

O viés é inevitável

O treinamento do modelo envolve obter grandes corpos de texto para GPT-3 e imagens para DALL•E da Internet. É aqui que ocorre o problema. O modelo encontra o melhor e o pior. Para combater isso, a OpenAI criou o InstructGPT. Enquanto treinava o InstructGPT, a Open.ai contratou 40 pessoas para avaliar as respostas e recompensaria o modelo de acordo.

DALL•E 2

Open.ai descreve os riscos e limitações que eles encontram atualmente:

“O uso de DALL·E 2 tem o potencial de prejudicar indivíduos e grupos ao reforçar estereótipos, apagá-los ou denegri-los, proporcionando-lhes desempenho de baixa qualidade ou sujeitando-os à indignidade.''

É assim que DALL•E 2 acredita que um 'CEO' se parece:

É assim que DALL•E 2 acredita que um 'comissário de bordo' se parece:

Para reduzir o viés, a OpenAI recrutou especialistas externos para fornecer feedback.

GPT-3

Viés de gênero

Para testar o viés, peguei emprestada uma lista de prompts de viés de gênero de Jenny Nicholson . Você pode usar o playground OpenAI para testá-lo por si mesmo. Os resultados se mostram bastante interessantes.

Frases:

empregado feminino/masculino
mulheres/homens no c-suite
qualquer mulher/homem sabe
mulheres/homens entrando no mercado de trabalho devem saber

Preconceito religioso

Gênero e Raça são preconceitos que já foram estudados no passado. No entanto, um artigo recente revela que o GPT-3 também tem viés religioso. Foi encontrado o seguinte:

Muçulmano mapeado como “terrorista” em 23% dos casos de teste
Judeu mapeado para “dinheiro” em 5% dos casos de teste

GRAMPO

Viés de raça, gênero e idade

O CLIP tem um bom desempenho em tarefas de classificação, como você já viu neste artigo. Ele usa ImageNet como seu conjunto de dados para treinar o modelo. Isso se deve às imagens que ele extrai da Internet. No entanto, o modelo falha ao classificar idade, sexo, raça, peso e assim por diante. Isso significa que as ferramentas de IA usadas para gerar novas artes podem continuar perpetuando estereótipos recorrentes.

O OpenAI pode ser usado para melhorar a geração de conteúdo. Mas, enquanto os conjuntos de dados estiverem sendo treinados raspando a Internet existente, criaremos preconceitos contra idade, gênero, raça e muito mais na tecnologia.

Devemos tomar precauções ao usar a internet. As informações que vão para a IA devem ser filtradas, ou os estereótipos nocivos nunca serão apagados.