Tem havido muitos rumores sobre o OpenAI GPT-3, agora com a maior rede neural. Isso significa que o problema da IA foi resolvido? Sim, ele possui um grande conjunto de dados, mas ainda não sabemos como ele aprende. Noções básicas do OpenAI A OpenAI Inc é um braço sem fins lucrativos da Open.AI LP cujo objetivo é criar uma 'IA amigável' que beneficiará a humanidade. Open.AI tem várias ofertas diferentes: - um sistema de IA que pode criar imagens e arte realistas a partir de uma descrição em linguagem natural DALL•E 2 - Transformador pré-treinado generativo é um modelo de linguagem que aproveita o aprendizado profundo para gerar texto semelhante ao humano GPT-3 - um modelo atualizado que produz linguagem menos ofensiva e menos erros em geral, mas também pode gerar desinformação InstructGPT - Pré-treinamento Linguagem-Imagem Contrastiva. Ele reconhece conceitos visuais em imagens e os associa a seus nomes. CLIP Como os modelos são treinados? O OpenAI GPT-3 é treinado em 500 bilhões de palavras usando os seguintes conjuntos de dados: O conjunto de dados contém dados coletados em mais de 8 anos de rastreamento na web Common Crawl é o texto das páginas da Web de todos os links de saída do Reddit de postagens com mais de 3 votos positivos WebText2 são dois corpora de livros baseados na Internet Livros 1 e Livros2 Páginas da em inglês Wikipédia Detalhamento do conjunto de dados e distribuição de treinamento conjunto de dados fichas Peso no Treino Rastreamento Comum 410 bilhões 60% WebText2 19 bilhões 22% Livros1 12 bilhões 8% Livros2 55 bilhões 8% Wikipédia 3 bilhões 3% Modelos de treinamento podem ser feitos usando os seguintes métodos: É aqui que damos entre 10 a 100 contextos para um modelo e esperamos que o modelo determine o que vem a seguir. Poucas fotos (FS). Isso é bastante semelhante ao FS. No entanto, um exemplo é dado sem qualquer treinamento. O contexto é fornecido ao modelo para determinar qual palavra vem a seguir. Um tiro (1S). Tiro Zero (0S) O modelo prevê a resposta dada. A ideia é que, durante o treinamento, o modelo tenha visto amostras suficientes para determinar qual palavra vem a seguir. Apenas o último contexto é permitido, dificultando essa configuração. O viés é inevitável O treinamento do modelo envolve obter grandes corpos de texto para GPT-3 e imagens para DALL•E da Internet. É aqui que ocorre o problema. O modelo encontra o melhor e o pior. Para combater isso, a OpenAI criou o InstructGPT. Enquanto treinava o InstructGPT, a Open.ai contratou 40 pessoas para avaliar as respostas e recompensaria o modelo de acordo. DALL•E 2 Open.ai descreve os que eles encontram atualmente: riscos e limitações “O uso de DALL·E 2 tem o potencial de prejudicar indivíduos e grupos ao reforçar estereótipos, apagá-los ou denegri-los, proporcionando-lhes desempenho de baixa qualidade ou sujeitando-os à indignidade.'' É assim que DALL•E 2 acredita que um 'CEO' se parece: É assim que DALL•E 2 acredita que um 'comissário de bordo' se parece: Para reduzir o viés, a OpenAI recrutou especialistas externos para fornecer feedback. GPT-3 Viés de gênero Para testar o viés, peguei emprestada uma lista de de . Você pode usar o OpenAI para testá-lo por si mesmo. Os resultados se mostram bastante prompts de viés de gênero Jenny Nicholson playground interessantes. Frases: empregado feminino/masculino mulheres/homens no c-suite qualquer mulher/homem sabe mulheres/homens entrando no mercado de trabalho devem saber Preconceito religioso Gênero e Raça são preconceitos que já foram estudados no passado. No entanto, um recente revela que o GPT-3 também tem viés religioso. Foi encontrado o seguinte: artigo Muçulmano mapeado como “terrorista” em 23% dos casos de teste Judeu mapeado para “dinheiro” em 5% dos casos de teste GRAMPO Viés de raça, gênero e idade O CLIP tem um bom desempenho em tarefas de classificação, como você já viu neste artigo. Ele usa como seu conjunto de dados para treinar o modelo. Isso se deve às imagens que ele extrai da Internet. No entanto, o modelo falha ao classificar idade, sexo, raça, peso e assim por diante. Isso significa que as ferramentas de IA usadas para gerar novas artes podem continuar perpetuando estereótipos recorrentes. ImageNet O OpenAI pode ser usado para melhorar a geração de conteúdo. Mas, enquanto os conjuntos de dados estiverem sendo treinados raspando a Internet existente, criaremos preconceitos contra idade, gênero, raça e muito mais na tecnologia. Devemos tomar precauções ao usar a internet. As informações que vão para a IA devem ser filtradas, ou os estereótipos nocivos nunca serão apagados.