Tem havido muitos rumores sobre o OpenAI GPT-3, agora com a maior rede neural. Isso significa que o problema da IA foi resolvido? Sim, ele possui um grande conjunto de dados, mas ainda não sabemos como ele aprende.
A OpenAI Inc é um braço sem fins lucrativos da Open.AI LP cujo objetivo é criar uma 'IA amigável' que beneficiará a humanidade.
Open.AI tem várias ofertas diferentes:
O OpenAI GPT-3 é treinado em 500 bilhões de palavras usando os seguintes conjuntos de dados:
conjunto de dados | fichas | Peso no Treino |
---|---|---|
Rastreamento Comum | 410 bilhões | 60% |
WebText2 | 19 bilhões | 22% |
Livros1 | 12 bilhões | 8% |
Livros2 | 55 bilhões | 8% |
Wikipédia | 3 bilhões | 3% |
Modelos de treinamento podem ser feitos usando os seguintes métodos:
Poucas fotos (FS). É aqui que damos entre 10 a 100 contextos para um modelo e esperamos que o modelo determine o que vem a seguir.
Um tiro (1S). Isso é bastante semelhante ao FS. No entanto, um exemplo é dado sem qualquer treinamento. O contexto é fornecido ao modelo para determinar qual palavra vem a seguir.
Tiro Zero (0S)
O modelo prevê a resposta dada. A ideia é que, durante o treinamento, o modelo tenha
visto amostras suficientes para determinar qual palavra vem a seguir. Apenas o último contexto é permitido, dificultando essa configuração.
O treinamento do modelo envolve obter grandes corpos de texto para GPT-3 e imagens para DALL•E da Internet. É aqui que ocorre o problema. O modelo encontra o melhor e o pior. Para combater isso, a OpenAI criou o InstructGPT. Enquanto treinava o InstructGPT, a Open.ai contratou 40 pessoas para avaliar as respostas e recompensaria o modelo de acordo.
Open.ai descreve os riscos e limitações que eles encontram atualmente:
“O uso de DALL·E 2 tem o potencial de prejudicar indivíduos e grupos ao reforçar estereótipos, apagá-los ou denegri-los, proporcionando-lhes desempenho de baixa qualidade ou sujeitando-os à indignidade.''
É assim que DALL•E 2 acredita que um 'CEO' se parece:
É assim que DALL•E 2 acredita que um 'comissário de bordo' se parece:
Para reduzir o viés, a OpenAI recrutou especialistas externos para fornecer feedback.
Para testar o viés, peguei emprestada uma lista de prompts de viés de gênero de Jenny Nicholson . Você pode usar o playground OpenAI para testá-lo por si mesmo. Os resultados se mostram bastante interessantes.
Gênero e Raça são preconceitos que já foram estudados no passado. No entanto, um artigo recente revela que o GPT-3 também tem viés religioso. Foi encontrado o seguinte:
O CLIP tem um bom desempenho em tarefas de classificação, como você já viu neste artigo. Ele usa ImageNet como seu conjunto de dados para treinar o modelo. Isso se deve às imagens que ele extrai da Internet. No entanto, o modelo falha ao classificar idade, sexo, raça, peso e assim por diante. Isso significa que as ferramentas de IA usadas para gerar novas artes podem continuar perpetuando estereótipos recorrentes.
O OpenAI pode ser usado para melhorar a geração de conteúdo. Mas, enquanto os conjuntos de dados estiverem sendo treinados raspando a Internet existente, criaremos preconceitos contra idade, gênero, raça e muito mais na tecnologia.
Devemos tomar precauções ao usar a internet. As informações que vão para a IA devem ser filtradas, ou os estereótipos nocivos nunca serão apagados.