Autores:
(1) Pham Hoang Van, Departamento de Economia, Baylor University Waco, TX, EUA (Van Pham@baylor.edu);
(2) Scott Cunningham, Departamento de Economia, Baylor University Waco, TX, EUA (Scott Cunningham@baylor.edu).
2 Previsão direta vs. narrativa
3 Metodologia de solicitação e coleta de dados
4 Resultados
4.1 Estabelecendo o Limite de Dados de Treinamento com Falsificações
4.2 Resultados das previsões do Oscar 2022
5 Previsão de Variáveis Macroeconômicas
5.1 Prevendo a inflação com um professor de economia
5.2 Prevendo a inflação com Jerome Powell, presidente do Fed
5.3 Prevendo a inflação com Jerome Powell e estimulando com a invasão da Ucrânia pela Rússia
5.4 Prevendo o desemprego com um professor de economia
6 Conjecturas sobre as habilidades preditivas do ChatGPT-4 em forma narrativa
Apêndice
A. Distribuição dos Previstos Vencedores do Oscar
B. Distribuição das Variáveis Macroeconômicas Previstas
Este estudo investiga se o ChatGPT-3.5 e o ChatGPT-4 da OpenAI podem prever com precisão eventos futuros usando duas estratégias de solicitação distintas. Para avaliar a precisão das previsões, aproveitamos o fato de que os dados de treinamento no momento do experimento pararam em setembro de 2021 e perguntamos sobre eventos que aconteceram em 2022 usando o ChatGPT-3.5 e o ChatGPT-4. Empregamos duas estratégias de solicitação: previsão direta e o que chamamos de narrativas futuras, que pedem ao ChatGPT para contar histórias fictícias ambientadas no futuro com personagens que compartilham eventos que aconteceram com eles, mas depois que os dados de treinamento do ChatGPT foram coletados. Concentrando-nos em eventos em 2022, solicitamos ao ChatGPT que se envolvesse em contar histórias, principalmente em contextos econômicos. Depois de analisar 100 solicitações, descobrimos que as solicitações de narrativas futuras aumentaram significativamente a precisão da previsão do ChatGPT-4. Isso ficou especialmente evidente em suas previsões dos principais vencedores do Oscar, bem como tendências econômicas, estas últimas inferidas de cenários em que o modelo personificava figuras públicas como o presidente do Federal Reserve, Jerome Powell. Essas descobertas indicam que os prompts narrativos alavancam a capacidade dos modelos para construção narrativa alucinatória, facilitando síntese e extrapolação de dados mais eficazes do que previsões diretas. Nossa pesquisa revela novos aspectos das capacidades preditivas dos LLMs e sugere potenciais aplicações futuras em contextos analíticos.
Os rápidos avanços tecnológicos em inteligência artificial excederam nossa compreensão de seus casos de uso. Grandes modelos de linguagem (LLMs), como o GPT-4 da OpenAI, podem imitar a fala humana inteligente, bem como executar tarefas cognitivamente custosas que alteram os produtos marginais dos trabalhadores, mas não está claro o alcance dessas tarefas. Em princípio, dado que esses modelos são máquinas preditivas, eles podem fornecer aos humanos um novo dispositivo de previsão (Agrawal et al., 2018). Mas quão precisos eles são é desconhecido em parte porque essas novas tecnologias parecem mal compreendidas até mesmo por seus criadores.
A espinha dorsal da vanguarda atual dos LLMs é uma arquitetura chamada transformadores pré-treinados generativos, ou GPT. Essa arquitetura revolucionou o processamento de linguagem natural (NLP) ao capturar relacionamentos de texto intrincados por meio de mecanismos de autoatenção (Vaswani et al., 2017). A introdução do GPT-3.5 pela OpenAI em novembro de 2022 e seu sucessor, GPT-4, em março de 2023, marcaram marcos significativos na evolução do GPT. Com suas vastas redes neurais pré-treinadas em diversos corpora textuais, esses modelos possuem uma capacidade incomparável de entender e gerar linguagem, embora sua aplicação em previsões, particularmente eventos futuros, permaneça pouco explorada devido às limitações inerentes de seus dados de treinamento.
Uma das coisas que torna os LLMs únicos é que uma grande quantidade de entradas está nos conjuntos de dados de treinamento anteriores dos modelos. Esses conjuntos de dados de treinamento contêm bilhões de textos desconhecidos que se acredita abrangerem uma quantidade expansiva de material disponível online (Hughes, 2023). O OpenAI oculta precisamente em quais conjuntos de dados foi treinado (Schaul et al., 2023), mas, dados os supostos tamanhos dos modelos, bem como sua capacidade bem-sucedida de atingir a fala conversacional, acredita-se que os conjuntos de dados de treinamento incluam uma grande faixa de material online.
Este estudo se posiciona exclusivamente na intersecção das capacidades generativas dos LLMs e seu potencial para análise preditiva. Ao empregar GPT-3.5 e GPT-4, investigamos se diferentes estratégias de solicitação podem forçar o ChatGPT a prever eventos futuros com mais precisão. Para testar nosso sucesso de previsão, aproveitamos o limite natural definido pelo OpenAI. Na época de nosso experimento em meados de 2023, a última atualização de treinamento do OpenAI foi em setembro de 2021 (OpenAI, 2024a).[1] Dado que os dados de treinamento do ChatGPT na época não continham informações sobre os eventos de 2022, pudemos explorar se ele poderia explorar padrões em seus dados de treinamento, que pararam em setembro de 2021, para prever com precisão eventos com valor social e econômico, como os vencedores do Oscar de 2022, taxas mensais de desemprego e taxas mensais de inflação até setembro de 2022.
Uma das marcas registradas dos LLMs, no entanto, é que eles são altamente criativos. Essa criatividade é tanto uma característica quanto um bug. Parece que sua criatividade é parte do que o torna bem-sucedido em imitar a fala humana inteligente. Mas também parece que essa criatividade é o que o faz alucinar regularmente — um termo que descreve sua tendência a afirmar fortemente eventos falsos ou fatos incorretos (Levy, 2024). Sua criatividade e tendência a alucinar podem ser uma barreira à previsão se for sistematicamente distorcida de alguma forma pior do que nossas tecnologias atuais. Embora a previsão direta não viole diretamente os termos de serviço da OpenAI, achamos que é mais provável que o caso, com base em nosso experimento, a OpenAI tenha tentado torná-la muito difícil. Isso pode ser porque três de suas violações de termos de serviço pareceriam ser violadas diretamente se as pessoas usassem o ChatGPT intensivamente para fins preditivos. Essas três violações se enquadram na regra da OpenAI de que o software não deve ser usado para “executar ou facilitar atividades que possam prejudicar significativamente a segurança, o bem-estar ou os direitos de terceiros” (OpenAI, 2024b), que então lista três casos relevantes para a previsão.
a. Fornecer aconselhamento jurídico, médico/de saúde ou financeiro personalizado sem revisão por um profissional qualificado e divulgação do uso da assistência de IA e suas potenciais limitações
b. Tomar decisões automatizadas de alto risco em domínios que afetam a segurança, os direitos ou o bem-estar de um indivíduo (por exemplo, aplicação da lei, migração, gerenciamento de infraestrutura crítica, componentes de segurança de produtos, serviços essenciais, crédito, emprego, moradia, educação, pontuação social ou seguro)
c. Facilitar jogos de azar com dinheiro real ou empréstimos de curto prazo
Se fosse descoberto que o ChatGPT tem capacidade de previsão superior, então seria fácil imaginar que ele seria imediatamente usado de maneiras que violassem uma ou todas as condições acima e, portanto, suspeitamos que o OpenAI tenha restringido a disposição do ChatGPT de se envolver em muitos tipos de tarefas de previsão direta.
Mas uma coisa que não viola seus termos de serviço é contar histórias. Embora possa violar os termos de serviço da OpenAI, por exemplo, buscar "conselhos médicos personalizados", e assim o ChatGPT pode se recusar a fazê-lo, isso pode não impedi-lo de criar uma obra de ficção na qual tais previsões foram conduzidas no contexto da própria narrativa. Nosso projeto testa se solicitar que o ChatGPT conte histórias pode, de fato, desbloquear sua capacidade de realizar previsões precisas. Ao usar o corte de dados de treinamento dos modelos e saber o que ocorreu e o que não ocorreu depois ("verdade fundamental"), somos capazes de comparar o desempenho de prompts que pedem diretamente ao ChatGPT para prever o futuro versus aqueles que pedem para contar histórias sobre o futuro.
Nossos prompts narrativos são únicos, pois pedimos ao ChatGPT para contar uma história sobre eventos ambientados no futuro conforme eles ocorrem ou por figuras autoritárias ambientadas no futuro contando histórias sobre seu passado (mas nosso futuro). Nossos prompts narrativos experimentaram variações em detalhes aparentemente pequenos, como a identidade do orador ou a divulgação de informações sobre eventos políticos de 2022, para investigar mais a fundo quais elementos dos prompts narrativos importavam. Para criar uma distribuição de respostas, pedimos a dois assistentes de pesquisa que usassem duas contas ChatGPT separadas para consultar 50 vezes por prompt, criando 100 testes totais por prompt. Apresentamos nossas descobertas como gráficos de caixa mostrando a distribuição completa de respostas para cada prompt.
Nossas descobertas sugerem que essas máquinas de previsão se tornam excepcionalmente precisas sob o ChatGPT-4 quando solicitadas a contar histórias ambientadas no futuro sobre o passado. Primeiro, mostramos a precisão do prompt direto e narrativo usando o ChatGPT-3.5 e o ChatGPT4 para prever os vencedores das principais categorias do Oscar de 2022. Para as categorias de Melhor Ator, Melhor Atriz e ambas as categorias de Ator Coadjuvante, o prompt narrativo foi extremamente preciso na previsão do vencedor. O prompt direto teve um desempenho muito ruim em comparação, muitas vezes pior do que palpites aleatórios. Mas o prompt narrativo com o ChatGPT-4 mostra uma precisão que varia de 42% (Melhor Atriz, Chastain) a 100% (Melhor Ator, Will Smith), com uma exceção. Ele falhou em prever com precisão o vencedor de Melhor Filme.
Em seguida, passamos para os fenômenos econômicos das taxas mensais de desemprego e taxas mensais de inflação usando três tipos separados de prompts narrativos: um professor universitário dando uma palestra para alunos de graduação sobre a Curva de Philips, e o presidente do Federal Reserve, Jerome Powell, dando um discurso ao Conselho de Governadores sobre os dados econômicos do ano passado. No caso de Jerome Powell, variamos um detalhe adicional: em um prompt, primeiro contamos ao ChatGPT sobre a invasão da Ucrânia pela Rússia em 2022 antes de pedir que Jerome Powell fizesse seu discurso ao Conselho de Governadores relatando os dados macroeconômicos do ano passado. E no outro, deixamos de fora essa informação. Em todos os casos, o prompt direto foi ainda menos eficaz na previsão do que tinha sido com o Oscar, pois o ChatGPT se recusou a responder ao prompt completamente quando solicitado a prever diretamente as séries temporais futuras de cada variável macroeconômica.
O economista anônimo raramente teve sucesso em prever a inflação usando qualquer um dos LLM.
Mas quando solicitado a contar uma história na qual Jerome Powell reconta um ano de dados futuros de desemprego e inflação, como se estivesse falando sobre os eventos do passado, as coisas mudam substancialmente. A distribuição das previsões de inflação de Powell mês a mês são, em média, comparáveis aos fatos contidos na pesquisa mensal de expectativas do consumidor da Universidade de Michigan. Curiosamente, está mais perto de prever com precisão a pesquisa de expectativas do consumidor da UM do que de prever a inflação real com base em dados coletados pelo Fed de Cleveland. Estranhamente, quando solicitado com informações sobre a invasão da Ucrânia pela Rússia, as previsões de Powell foram sistematicamente mais baixas e menos precisas do que quando essas informações não foram usadas para preparar o ChatGPT.
A precisão do economista anônimo em prever o desemprego mensal foi precisa e, na maioria das vezes, imprecisa. Mas, assim como com a inflação, as taxas de desemprego publicadas pelo Bureau of Labor Statistics (BLS), mês a mês, estavam dentro da distribuição das alegações feitas por Jerome Powell em seu discurso. E a inclusão de dados da Ucrânia fez com que o modelo piorasse na previsão do desemprego, como havia sido o caso com a inflação.
Vários estudos recentes investigam os usos da IA generativa em economia e aplicações empresariais. Exemplos incluem o uso do ChatGPT como agentes econômicos em experimentos de laboratório (Horton, 2023), pesquisa do ChatGPT para pesquisa de marketing (Brand et al., 2023), solicitação ao ChatGPT para fazer avaliações de risco a partir de transcrições de teleconferências de resultados (Kim et al., 2023) e a aplicação de LLMs para prever movimentos de preços de ações (Lopez-Lira e Tang, 2023). Nossas descobertas contribuem para essa exploração incipiente ao ressaltar a importância do design rápido no aproveitamento de LLMs para tarefas preditivas, sugerindo que a capacidade dos modelos para construção narrativa "alucinatória" pode ser utilizada estrategicamente para extrair insights prospectivos de seus dados de treinamento. Mas também sugere que por trás do produto de consumo voltado para o exterior da OpenAI, o ChatGPT-4, há uma máquina de previsão muito poderosa. Essa revelação abre novos caminhos para a aplicação de LLMs em previsões econômicas, planejamento de políticas e muito mais, desafiando-nos a repensar como interagimos e exploramos as capacidades desses modelos sofisticados.
A próxima seção apresenta um exemplo de prompting direto versus narrativo. Isso é seguido por uma descrição detalhada de nossa metodologia e coleta de dados. Apresentamos resultados de experimentos prevendo os vencedores do Oscar e inflação e desemprego, seguidos por nossa conjectura sobre as Habilidades Preditivas do ChatGPT-4 em Forma Narrativa. Resumimos nossas descobertas e sugerimos caminhos para pesquisas futuras na conclusão.
Este artigo está disponível no arxiv sob a licença CC BY 4.0 DEED.
[1] Podemos mostrar que nossa coleta de dados ocorreu em meados de 2023 com registros de data e hora em planilhas Excel usadas por nossos assistentes de pesquisa.