paint-brush
Diversidade de qualidade por meio de feedback de IA (QDAIF): um passo em direção à criatividade autônoma de IApor@feedbackloop
457 leituras
457 leituras

Diversidade de qualidade por meio de feedback de IA (QDAIF): um passo em direção à criatividade autônoma de IA

Muito longo; Para ler

Qualidade-Diversidade por meio de Feedback de IA (QDAIF) é uma abordagem de ponta que mescla modelos de linguagem e algoritmos de busca de diversidade de qualidade para gerar autonomamente textos criativos diversos e de alta qualidade. Este método, apresentado em domínios de escrita criativa, supera as linhas de base existentes, demonstrando um passo significativo em direção à criatividade independente da IA.
featured image - Diversidade de qualidade por meio de feedback de IA (QDAIF): um passo em direção à criatividade autônoma de IA
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

Autores:

(1) Herbie Bradley, CarperAI, CAML Lab, Universidade de Cambridge & EleutherAI;

(2) Andrew Dai, Aleph Alpha;

(3) Hannah Teufel, Aleph Alpha;

(4) Jenny Zhang, 5Departamento de Ciência da Computação, Universidade da Colúmbia Britânica e Instituto de Vetores;

(5) Koen Oostermeijer, Aleph Alpha;

(6) Marco Bellagente, Estabilidade AI;

(7) Jeff Clune, Departamento de Ciência da Computação, Universidade de British Columbia, Vector Institute e Canadá CIFAR AI Chair;

(8) Kenneth Stanley, Maven;

(9) Grégory Schott, Aleph Alpha;

(10) Joel Lehman, Laboratórios Estocásticos.

Tabela de links

Resumo e introdução

Antecedentes e Trabalhos Relacionados

Abordagem

Experimentos no Domínio da Escrita Criativa

Discussão e conclusão

Um Apêndice

ABSTRATO

Em muitos problemas de geração de texto, os usuários podem preferir não apenas uma única resposta, mas uma ampla gama de resultados de alta qualidade para escolher. Os algoritmos de busca de qualidade-diversidade (QD) visam tais resultados, melhorando e diversificando continuamente uma população de candidatos. No entanto, a aplicabilidade da QD a domínios qualitativos, como a escrita criativa, tem sido limitada pela dificuldade de especificar medidas algorítmicas de qualidade e diversidade. Curiosamente, os desenvolvimentos recentes em modelos de linguagem (LMs) permitiram orientar a pesquisa através de feedback de IA, em que os LMs são solicitados em linguagem natural para avaliar aspectos qualitativos do texto. Aproveitando esse desenvolvimento, introduzimos Qualidade-Diversidade por meio de Feedback de IA (QDAIF), em que um algoritmo evolutivo aplica LMs para gerar variação e avaliar a qualidade e diversidade do texto candidato. Quando avaliado em domínios de escrita criativa, o QDAIF cobre mais de um espaço de pesquisa específico com amostras de alta qualidade do que os controles não-QD. Além disso, a avaliação humana de textos criativos gerados pelo QDAIF valida um acordo razoável entre a IA e a avaliação humana. Nossos resultados destacam, portanto, o potencial do feedback da IA para orientar a busca aberta por soluções criativas e originais, fornecendo uma receita que aparentemente se generaliza para muitos domínios e modalidades. Desta forma, o QDAIF é um passo em direção a sistemas de IA que podem pesquisar, diversificar, avaliar e melhorar de forma independente, que estão entre as competências essenciais subjacentes à capacidade de inovação da sociedade humana.[1]

1. INTRODUÇÃO

A inovação humana não é apenas uma capacidade geradora de criatividade, mas também inclui a capacidade de avaliar a qualidade subjetiva de novas ideias e artefatos. Grandes ideias raramente são geradas de uma só vez, mas emergem gradualmente através de cadeias divergentes de elaboração e revisão (Stanley & Lehman, 2015). Para navegar com sucesso nesta árvore de ideias, o criador deve avaliar quais os passos de uma cadeia que vale a pena prosseguir, uma questão que pode ser altamente subjectiva, especialmente em domínios com dimensões artísticas ou literárias.


Até agora, mesmo que a IA pudesse fornecer candidatos, a esperança de uma avaliação tão subjectivamente tingida estava firmemente nas mãos dos humanos. No entanto, a tecnologia emergente do modelo de base dos últimos anos (Bommasani et al., 2021) significa agora que o modelo também pode desempenhar o papel de avaliador, mesmo quando a avaliação é em parte subjetiva (Madaan et al., 2023). Desta forma, pela primeira vez, todo um processo de ideação que retorna um conjunto diversificado de artefatos interessantes pode, em princípio, ser automatizado. Este processo não pode ser executado inteiramente por LMs por conta própria, mas requer o encadeamento de um algoritmo de pesquisa com chamadas de modelo de uma forma diferenciada. Este artigo destaca uma maneira de alcançar esse potencial: combinar LMs com o campo da diversidade de qualidade (QD) (Mouret & Clune, 2015), que se concentra em como projetar processos de busca que produzam soluções de alta qualidade que abranjam um espaço de design. .


Figura 1: QDAIF (esquerda) cobre mais o espaço de pesquisa com histórias diversas e de alta qualidade em comparação com a linha de base (direita). A linha de base é LMX, Quality-Only (Meyerson et al., 2023), que otimiza apenas a qualidade das soluções. O QDAIF descobriu histórias mais interessantes sobre um espião e um político, abrangendo exemplos como histórias de romance com final feliz, até histórias de terror com final trágico. A linha de base produziu uma história (posição intermediária direita, começando com "Jason") com um índice de qualidade inferior devido à falta de um personagem espião desejado (indicado pela caixa vermelha, para uma história com final neutro, e inclinado ao horror). O QDAIF descobriu uma história melhor e mais relevante (posição intermediária inferior, começando com “um político rico”) para esse mesmo compartimento neutro.


O principal insight nos algoritmos de QD é manter e buscar explicitamente respostas diversas de alta qualidade. Normalmente, esses algoritmos de busca exigem medidas de diversidade e qualidade projetadas manualmente, bem como uma forma de gerar variação significativa. No entanto, os domínios mais interessantes e complexos quase sempre envolvem noções de desempenho, diversidade e variação que são subjetivas ou difíceis de especificar por meio de algoritmos. Estendendo o trabalho que gera variação por meio de LMs (Lehman et al., 2022; Meyerson et al., 2023) e avalia a qualidade de soluções potenciais por meio de LMs (Ahn et al., 2022), mostramos que LMs também podem ser usados para avaliar aspectos qualitativos da diversidade. Dessa forma, os LMs podem instanciar os três ingredientes principais da pesquisa QD, permitindo assim novos algoritmos QD poderosos que podem acompanhar os avanços contínuos do LM, que chamamos de Qualidade-Diversidade por meio de Feedback de IA (QDAIF). Esse QDAIF pode explorar e retornar respostas diversas e de alta qualidade a um prompt de LM por meio de medidas de diversidade mais intuitivas, sem a necessidade de ajuste fino do modelo (embora também possa ser usado para que os LMs se auto-aperfeiçoem, gerando ajustes finos). dados (Lehman et al., 2022; Chen et al., 2023)), uma direção interessante para ambientes de aprendizagem eficazes autocurados por meio de dados gerados, em direção a algoritmos de geração de IA (Clune, 2019)).


Avaliamos o QDAIF em três domínios de escrita criativa: redação de opinião, contos e poesia. A ideia é que, nesses domínios criativos, os usuários muitas vezes gostem de ver uma ampla gama de histórias ou poemas possíveis para escolher ou se inspirar. Os resultados quantitativos indicam que o QDAIF supera significativamente as linhas de base existentes. Além disso, através da avaliação humana, observamos um forte alinhamento entre o feedback humano e o gerado pela IA, fornecendo provas empíricas de que o feedback da IA é fundamentado e de que o método pode funcionar na prática (ou seja, produz melhor qualidade e diversidade conforme medido pelos seres humanos). No geral, o QDAIF aproxima-nos dos modelos de IA que podem pesquisar e inovar de forma independente, uma das capacidades fundamentais dos seres humanos que lhes permite criar cultura e ciência (Stanley et al., 2017).




[1] Página do projeto: https://qdaif.github.io/


Este artigo está disponível no arxiv sob licença CC 4.0.