TL;DR: Em 49.717 questões de múltipla escolha, o ChatGPT acertou 66,7% das vezes. Continue lendo para ver a divisão por categoria
Cerca de 6 anos atrás , tive a ideia de ver o quão bem você poderia responder a perguntas triviais com IA. Usei word2vec e escolhi as respostas com base em qual resposta de múltipla escolha tinha a maior semelhança de cosseno com a média do vetor da frase. Simplificando, isso... não funcionou.
A porcentagem de perguntas que esse método acertou não foi notavelmente melhor do que selecionar respostas aleatoriamente.
Quando o artigo word2vec foi lançado, foi revolucionário podermos fazer analogias para os significados semânticos das palavras. “ Rei - Homem + Mulher = Rainha ”. Eu estava chocado. O artigo original saiu em 2013 e aqui estamos nós em 2023.
10 anos depois e incontáveis gerações de avanço em aprendizado de máquina, compreensão, compreensão, etc.
Em junho de 2017, fomos abençoados com o artigo “ Atenção é tudo o que você precisa ”, que apresentou a arquitetura transformadora que foi a função de etapa que nos trouxe essa revolução no processamento de linguagem natural. Então, o que há de diferente agora?
No final de 2022, a OpenAI lançou o ChatGPT . Que, no centro de tudo, é um UX brilhante que alguém criou para interagir com o GPT-3.5.
O GPT-3 original foi disponibilizado no verão de 2020 em beta privado e, embora haja uma IU de playground , o uso do GPT-3 ainda era bastante intimidador para a pessoa comum.
O playground apresentava todos os botões e parâmetros para ajustar a resposta do GPT-3 e isso impedia muitas pessoas de usá-lo. O ChatGPT, por outro lado, era… um chatbot. Não parecia diferente de falar com alguém no Slack ou no Microsoft Teams.
Qualquer um podia se inscrever, não havia lista de espera nem maçanetas assustadoras. ChatGPT ganhou 1 milhão de usuários em apenas 5 dias .
No restante deste artigo, me referirei ao modelo como ChatGPT, embora isso não seja perfeitamente preciso, pois o ChatGPT é uma versão ajustada do GPT-3.5.
Então, quão inteligente é? Seis anos depois de meu experimento original, eu queria descobrir quais são os recursos de alguns dos aprendizados de máquina mais impressionantes que vimos até hoje. Vimos os trabalhos criativos do ChatGPT. Até fiz um site divertido para minha esposa e eu usarmos: https://catstories.ai.
O ChatGPT é incrível em tarefas criativas, mas para tarefas que envolvem mais conhecimento, as opiniões são significativamente mais divididas.
Algumas pessoas estão convencidas de que o ChatGPT, com sua interface intuitiva, vai substituir os buscadores tradicionais como o Google. A Microsoft está integrando o ChatGPT diretamente em seu mecanismo de busca , juntamente com outros produtos.
O ChatGPT aprende tudo o que sabe lendo grandes quantidades da Internet e usa essas informações quando gera texto. Para os não técnicos, você pode pensar nisso como o preenchimento automático do seu telefone, mas muito mais inteligente.
Se você for inteligente sobre como solicitar o ChatGPT, poderá fazê-lo fazer coisas revolucionárias e testar seu conhecimento. Por exemplo, o ChatGPT conseguiu passar no exame da Ordem .
Você pode escrever uma cópia de marketing ou escrever e-mails para você. Mas se vamos usá-lo como uma fonte de verdade para substituir coisas como mecanismos de busca, como ele funciona com o conhecimento geral?
O conjunto de dados uberspot/OpenTriviaQA é um conjunto de dados Creative Commons de perguntas de múltipla escolha. As perguntas são divididas em 22 categorias, como: animais, entretenimento, história, filmes e esportes.
A maioria das perguntas tem 4 respostas possíveis de múltipla escolha, mas algumas das perguntas são verdadeiras ou falsas.
As perguntas vêm no seguinte formato:
#Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos
Primeiro, você tem a própria pergunta. Então você tem a resposta correta. Por fim, você tem suas opções de respostas; um em cada linha.
Meu script baixaria cada uma das categorias e faria todas as perguntas ao ChatGPT.
Para a pergunta acima, eu formataria meu prompt para ficar assim:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:
Eu enviaria isso para o ChatGPT e compararia sua resposta com a resposta correta.
Aqui estão os dados brutos, classificados do menos para o mais correto:
Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377
É realmente interessante ver como essas categorias se dividem. Notavelmente, o ChatGPT não se saiu bem na categoria de quebra-cabeças. Vejamos alguns exemplos dessas perguntas.
#Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project
Este demorei um pouco para descobrir, mas o ChatGPT acertou. A resposta é B. Esses caracteres dizem janelas,98 de cabeça para baixo. Quando eu estava conversando com um amigo meu no Fearless AWS , ele sugeriu que eu tentasse fazer com que o ChatGPT se explicasse. Então eu fiz isso.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.
A princípio, fiquei impressionado com o fato de o ChatGPT ter conseguido descobrir isso, mas na verdade parece que o ChatGPT apenas adivinhou.
Vejamos um exemplo em que o ChatGPT estava incorreto.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.
Aqui está uma ótima demonstração de como o ChatGPT pode ser bem idiota. A aritmética ficou completamente errada. Como ele apenas gera texto, isso não significa que ele codificou corretamente a aritmética. A resposta correta aqui é 2. 2 ao quadrado é 4, vezes 5 é 20. 2 vezes 10 também é 20.
Vejamos outro exemplo em que o ChatGPT estava correto de acordo com o conjunto de dados, mas a explicação não bate bem:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.
Então, este é realmente interessante. O conjunto de dados não tem uma explicação para nenhum desses quebra-cabeças, mas lista a resposta correta como “verdadeiro”. Se você pesquisar no Google, descobrirá que a resposta para o enigma é considerada “verdadeira” porque o homem pode fazer malabarismos com as bolas.
Ignorando a física real de tal situação, a resposta do ChatGPT, mais uma vez, obtém a aritmética completamente incorreta ao dizer que 201 libras é menor que o peso máximo de 200 libras.
Vejamos um exemplo final que trata de algo no campo da PNL chamado esquema de Winograd . O que, para simplificar demais, é basicamente ser capaz de entender como os pronomes resolvem para atores ambíguos na mesma frase.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.
Nesta resposta, o ChatGPT explica que o menino é quem está sendo espancado e, portanto, embora possa haver alguma ambiguidade entre os usos de “ele” e “dele” referindo-se ao menino ou ao pai, o ChatGPT entende o contexto de o menino sendo espancado.
Esses quebra-cabeças exigem conclusões lógicas que parecem que o ChatGPT realmente não raciocina. Faz sentido que esta seja a categoria em que o ChatGPT mais falhou, mas também existem algumas respostas impressionantes.
Dito isto, até mesmo pedir ao ChatGPT para se explicar é uma resposta gerada. Não há nada que diga que é assim que o ChatGPT está legitimamente pensando sobre os problemas.
Vejamos outra categoria, literatura, na qual presumivelmente o ChatGPT deve ser bom porque deve haver bastante texto e referências para aprender sobre a literatura.
Esses quebra-cabeças exigem conclusões lógicas que parecem que o ChatGPT realmente não raciocina. Faz sentido que esta seja a categoria em que o ChatGPT mais falhou.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.
Nesse caso, o ChatGPT está correto. Harry Potter é popular o suficiente com um grande fandom que faz sentido que isso provavelmente seja muito falado.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.
Outro caso realmente interessante aqui. Harry se casa com Ginny e tem dois filhos, não Hermione. Tentando pensar em como isso pode ter acontecido, eu me pergunto se os comentários da internet e talvez fanfics que faziam parte do conjunto de treinamento tinham conteúdo suficiente para preferir que Harry e Hermione ficassem juntos.
A implicação para a maior base de conhecimento do ChatGPT é que você pode influenciar o que ele considera verdadeiro se houver *opinião* suficiente em seus dados de treinamento.
Como eu disse, existem quase 50.000 perguntas. Explorar cada um deles não é prático para um único post, mas é realmente interessante tentar intuir por que o ChatGPT é melhor ou pior em várias categorias.
Em categorias como quebra-cabeças, há muito mais lógica do que precisa ser aplicada e combinada para responder a algumas das perguntas.
Em outras categorias de pontuação baixa, como televisão e videogames, meu palpite é que, como o conteúdo em si não está em um formato indexável/consumível, o ChatGPT não tem tanta informação sobre ele.
O ChatGPT não jogou os jogos ou assistiu aos programas de televisão. Pode haver conteúdo de terceiros SOBRE o que aconteceu nos programas, mas o conteúdo do programa seria mencionado de passagem.
Nas categorias de alta pontuação, todas as categorias tendem a ser para conteúdos que foram documentados em texto muito antes de termos áudio, vídeo etc.
A categoria de geografia e a categoria de história têm conteúdo que já existia muito antes de termos a tecnologia e o armazenamento para manter regularmente coisas como conteúdo de televisão.
Com tudo isso dito, 66% de correção ainda é bastante impressionante, dada uma seleção tão vasta de tópicos. Mas, como aprendemos, às vezes as respostas estão supostamente corretas, mas as explicações nem sempre estão corretas.
Não acho que o ChatGPT ou qualquer modelo de linguagem grande que temos agora seja a IA forte ou a IA geral que alguns artigos querem que você acredite.
Não acho que modelos de linguagem grandes que sejam de natureza generativa devam substituir os mecanismos de pesquisa tradicionais que exibem informações de alta qualidade. Existem mecanismos de busca como o you.com que estão explorando a interseção, mas ainda é cedo para essa tecnologia!
Entre o desenvolvimento e as execuções finais, esse experimento me custou cerca de US$ 100 para acessar a API GPT-3 para todas as perguntas. Eu ficaria eternamente grato se você considerasse me pagar um café .
Se uma empresa estiver disposta a patrocinar o trabalho, seria interessante tentar diferentes prompts, randomizando a ordem das respostas, tentar repetir os testes várias vezes, etc.
Eu também adoraria executar o mesmo teste em todo o conjunto de perguntas do Jeopardy , mas, considerando o quão caro esse teste foi, executá-lo em um conjunto de perguntas quase 10 vezes maior seria demais para mim agora.
Como sempre, o código que escrevi para isso está disponível. Confira o código deste post, incluindo as respostas do ChatGPT , clicando aqui .
Foto de Nguyen Dang Hoang Nhu no Unsplash