O lançamento da nova versão dos modelos GPT, GPT-4, trouxe uma atenção extra para os – já famosos – modelos de linguagem OpenAI. Não admira!
O GPT-4 foi apresentado como o sistema mais avançado da OpenAI que pode resolver problemas complexos com maior precisão, graças ao seu conhecimento geral mais amplo e habilidades de resolução de problemas.
Neste artigo, comparo o GPT-3 vs. GPT-4 e o GPT-3.5, que ficou entre os dois grupos de modelos.
Preparar?
GPT-3 é um modelo de linguagem desenvolvido pela OpenAI. Foi lançado em junho de 2020 e rapidamente ganhou atenção por seus notáveis recursos de geração de linguagem.
O GPT-3 vem em vários modelos básicos com vários números de parâmetros e recursos computacionais necessários. Os mais reconhecidos são Ada, Babbage, Curie e Davinci.
Em 15 de março de 2022, a OpenAI lançou a nova versão do GPT-3 chamada “text-davinci-003”. Este modelo foi descrito como mais capaz do que as versões anteriores do GPT. Além disso, foi treinado com dados até junho de 2021, tornando-o muito mais atualizado do que as versões anteriores dos modelos (treinados com dados até outubro de 2019). Oito meses depois, em novembro de 2022, a OpenAI passou a referir-se a este modelo como pertencente à série “GPT-3.5” . Mas vamos pular a linha do tempo.
Hoje, temos 5 variantes de modelos diferentes que pertencem à série GPT-3.5. Quatro deles são otimizados para tarefas de conclusão de texto e um é otimizado para tarefas de conclusão de código.
A versão mais recente do modelo GPT-3.5, o gpt-3.5-turbo
, foi lançada em 1º de março de 2023 - e causou instantaneamente um aumento no interesse pelo GPT-3.5. Apenas para aquecer o público antes do lançamento do GPT-4.
O GPT-4 é a versão mais recente – e avançada – dos modelos de linguagem OpenAI. Introduzido em 14 de março de 2023, é considerado o novo marco no desenvolvimento de aprendizado profundo.
Diz-se que o GPT-4 é capaz de gerar declarações factualmente mais precisas do que o GPT-3 e o GPT-3.5, garantindo maior confiabilidade e confiabilidade. Também é multimodal, o que significa que pode aceitar imagens como entradas e gerar legendas, classificações e análises.
Por último, mas não menos importante, ganhou alguma criatividade. Como podemos ler na atualização oficial do produto, “ele pode gerar, editar e interagir com os usuários em tarefas de redação criativa e técnica, como compor músicas, escrever roteiros ou aprender o estilo de escrita de um usuário”.
Por enquanto, em março de 2023, o GPT-4 vem em duas variantes de modelo:
gpt-4-8K
gpt-4-32K
que diferem pelo tamanho de seu tamanho de janela de contexto. Embora o GPT-4 já seja usado comercialmente, a maioria dos usuários precisará esperar algum tempo até obter acesso à API do GPT-4 e criar seus próprios aplicativos e serviços baseados no GPT-4.
Vale a pena esperar? Vamos ver!
Quando solicitado a comparar o GPT-4 com o GPT-3 , Greg Brockman, um dos cofundadores da OpenAI e seu presidente, disse uma palavra: Diferente . Como ele disse ao Techcrunch:
Ainda há muitos problemas e erros que [o modelo] comete… mas você pode realmente ver o salto na habilidade em coisas como cálculo ou lei, onde passou de muito ruim em certos domínios para realmente muito bom em relação aos humanos.
Vamos tentar elaborar um pouco mais sobre isso. Especialmente porque a pesquisa GPT-4 publicada pela OpenAI revela surpreendentemente muitos detalhes sobre os novos modelos.
Uma das maiores diferenças entre GPT-3 e GPT-4 são suas capacidades. O GPT-4 é considerado mais confiável, criativo, colaborativo e capaz de lidar com instruções muito mais sutis do que o GPT-3.5.
Para entender a diferença entre os dois modelos, os desenvolvedores do OpenAI os testaram em diferentes benchmarks, incluindo a simulação de exames que foram originalmente projetados para humanos.
Prosseguimos usando os testes mais recentes disponíveis ao público (no caso das Olimpíadas e perguntas de resposta livre AP) ou comprando as edições 2022–2023 dos exames práticos. Não fizemos treinamento específico para esses exames. Uma minoria dos problemas nos exames foram vistos pelo modelo durante o treinamento, mas acreditamos que os resultados sejam representativos.
(fonte: OpenAI )
Os resultados são impressionantes!
Enquanto o GPT-3 obteve apenas 1 de 5 no exame AP Calculus BC, o GPT-4 obteve 4 pontos. a versão mais avançada da série GPT-3 – estava entre os 10% inferiores.
Além disso, GPT-4 é… um verdadeiro poliglota. Embora a proficiência em inglês do GPT já fosse alta nas versões GPT-3 e GPT-3.5 (com precisão de tiro de 70,1%), sua precisão na versão mais recente aumentou para mais de 85%. Na verdade, ele fala 25 idiomas melhor do que seu ancestral falava inglês – incluindo mandarim, polonês e suaíli. Isso é bastante impressionante, considerando que a maioria dos benchmarks de ML existentes são escritos em inglês.
Se isso não bastasse, o GPT-4 pode processar textos muito mais longos em uma única solicitação – tudo graças ao maior comprimento de contexto.
O comprimento do contexto é um parâmetro usado para descrever quantos tokens podem ser usados em uma única solicitação de API. Os modelos GPT-3 originais lançados em 2020 definem o valor máximo de solicitação em 2.049 tokens. No GPT-3.5, esse limite foi aumentado para 4.096 tokens (o que representa cerca de 3 páginas de texto em inglês de linha única). GPT-4 vem em duas variantes. Um deles (GPT-4-8K) tem um comprimento de contexto de 8.192 tokens e o segundo (GPT-4-32K) pode processar até 32.768 tokens, o que equivale a cerca de 50 páginas de texto.
Dito isto, podemos pensar em todos os novos casos de uso para GPT-4. Com a capacidade de processar 50 páginas de texto, será possível usar os novos modelos OpenAI para criar textos mais longos, analisar e resumir documentos ou relatórios maiores ou lidar com conversas sem perder o contexto. Conforme apresentado por Greg Brockman na entrevista para Techcrunch :
Anteriormente, o modelo não sabia quem você é, no que você está interessado e assim por diante. Ter esse tipo de história [com a janela de contexto maior] definitivamente vai torná-lo mais capaz... Vai turbinar o que as pessoas podem fazer.
Mas isso não é tudo porque, além de processar entradas de texto, o GPT-4 também pode interpretar outros tipos de entrada.
Enquanto os modelos GPT-3 e GPT-3.5 eram limitados a um tipo de entrada (texto; ou código – para ser mais preciso), o GPT-4 aceita um tipo de entrada extra: imagens. Especificamente, ele gera saídas de texto a partir de entradas que consistem em texto e imagens.
Dependendo do que você pedir ao modelo GPT-4, ele pode gerar legendas, classificar elementos visíveis ou analisar a imagem. Entre os exemplos apresentados na documentação de pesquisa do GPT-4, podemos ver os modelos analisando os gráficos, explicando memes e até resumindo os artigos que consistem em texto e imagens. Devemos admitir que as habilidades de compreensão de imagem do GPT-4 são impressionantes.
Só dê uma olhada!
A capacidade de processar imagens, combinada com os limites de token mais altos, abre novas possibilidades para o uso do GPT-4 – desde pesquisa acadêmica até treinamento pessoal ou assistentes de compras. Não fique muito animado, pois pode levar algum tempo até que você possa usar essa nova habilidade do GPT-4.
Como podemos ler no site da OpenAI, as entradas de imagem ainda são uma prévia da pesquisa e não estão disponíveis publicamente.
Outra grande diferença entre o GPT-3 e o GPT-4 é como podemos determinar o tom, o estilo e o comportamento do modelo.
Na versão mais recente do GPT, é possível fornecer ao modelo as instruções em nível de API, incluindo as chamadas mensagens de “sistema” (dentro dos limites descritos em detalhes na política de uso do OpenAI ). Essas instruções definem o tom das mensagens e descrevem como o modelo deve se comportar (por exemplo, “Você nunca dá a resposta ao aluno, mas sempre tenta fazer a pergunta certa para ajudá-lo a aprender a pensar por si mesmo”).
Além disso, estabelecem limites para as interações do GPT-4, podendo atuar como “guarda-corpos” para evitar que o GPT-4 mude seu comportamento a pedido do usuário – assim como no exemplo a seguir:
Como você pode ver, o GPT-4 permanece dentro de sua função – definida na mensagem do sistema – apesar das solicitações do usuário.
Até certo ponto, já pudemos experimentar a capacidade de um modelo semelhante no recém-lançado GPT-3.5-Turbo . Ao definir a função do modelo em um prompt do sistema, poderíamos obter uma resposta diferente. Veja como a mensagem difere dependendo de quem o modelo GPT está fingindo ser:
Até março de 2023, quando o GPT-3.5-Turbo foi lançado, não era possível fornecer ao modelo a mensagem do sistema. As informações de contexto precisavam ser fornecidas no prompt e poderiam mudar facilmente ao longo da conversa.
A capacidade do novo GPT-4 permite que ele seja mais consistente em seu comportamento e mais ajustável às especificações externas (por exemplo, as diretrizes de comunicação de sua marca).
Claro, tudo isso tem um preço. Enquanto os modelos GPT-3 custam de US$ 0,0004 a US$ 0,02 por cada 1K tokens, e o mais novo GPT-3.5-Turbo é 10 vezes mais barato (US$ 0,002 por 1K tokens) do que o modelo GPT davinci mais poderoso, o custo de usar o GPT-4 não deixa ilusões: se você quiser usar os modelos mais avançados, precisará pagar a mais.
O GPT-4 com uma janela de contexto de 8K custará US$ 0,03 por tokens de prompt de 1K e US$ 0,06 por tokens de conclusão de 1K. O GPT-4 com uma janela de contexto de 32K, por outro lado, custará US$ 0,06 por tokens de prompt de 1K e US$ 0,12 por tokens de conclusão de 1K.
Se o processamento de 100 mil solicitações com um comprimento médio de 1.500 tokens de prompt e 500 tokens de conclusão custasse US$ 4.000 com text-davinci-003
e US$ 400 com gpt-3.5-turbo
, com GPT-4, custaria US$ 7.500 com a janela de contexto 8K e US$ 15.000 com a janela de contexto de 32K.
Não só é caro, mas também mais complicado de calcular . Isso ocorre porque o custo dos tokens de prompt (entrada) difere do custo dos tokens de conclusão (saída). Se você se lembra de nossoexperimento de precificação GPT-3 , já sabe que estimar o uso do token é difícil, pois há uma correlação muito baixa entre o tamanho da entrada e da saída. Com o custo mais alto dos tokens de saída (conclusão), o custo de usar modelos GPT-4 será ainda menos previsível.
Lembra como definimos o contexto na mensagem do sistema para o GPT-4 e GPT-3.5-Turbo? O ajuste fino é basicamente um método alternativo para definir o tom, o estilo e o comportamento do modelo e personalizar os modelos GPT para um aplicativo específico.
Para ajustar o modelo, você o treina em muito mais exemplos do que o prompt pode caber. Depois que um modelo é ajustado, você não precisa fornecer exemplos no prompt. Isso economiza custos (cada token de 1K conta!) e permite solicitações de latência mais baixa. Parece ótimo, não é? É uma pena, porém, que os únicos modelos OpenAI atualmente disponíveis para ajuste fino sejam os modelos básicos GPT-3 originais (davinci, curie, ada e repolho).
Quando surgiram vários rumores sobre o GPT-4 (por exemplo, aquele sobre o número de parâmetros que ele usa), o CEO da OpenAI comentou que:
O boato GPT-4 é uma coisa ridícula. Não sei de onde vem tudo isso. As pessoas estão implorando para ficarem desapontadas, e ficarão. (…) Não temos um AGI real, e isso é o que se espera de nós.
Embora seja difícil considerar o GPT-4 decepcionante, considerando sua criatividade e recursos incríveis, é importante estar ciente de suas limitações. E como podemos ler na documentação de pesquisa do produto: eles não mudaram muito em comparação com as versões anteriores do modelo.
Assim como seus predecessores, o GPT-4 carece de conhecimento dos eventos que ocorreram após setembro de 2021. Além disso, não importa o quão inteligente o ChatGPT pareça, ele ainda não é totalmente confiável - mesmo quando alimentado com GPT-4. Embora seja alegado que reduz significativamente as alucinações em relação aos modelos anteriores (pontuando 40% a mais do que o GPT-3.5 em suas avaliações internas), ele ainda “alucina” fatos e comete erros de raciocínio. Ele ainda pode gerar conselhos prejudiciais (embora seja muito mais provável que se recuse a responder), código com erros ou informações imprecisas e, por isso, não deve ser usado em áreas com altos custos de erro.
Como o sistema mais avançado da OpenAI, o GPT-4 supera as versões mais antigas dos modelos em quase todas as áreas de comparação. É mais criativo e coerente que o GPT-3. Ele pode processar textos mais longos ou até mesmo imagens. É mais preciso e menos propenso a inventar “fatos”. Graças aos seus recursos, ele cria muitos novos casos de uso possíveis para IA generativa .
Isso significa que o GPT-4 substituirá o GPT-3 e o GPT-3.5? Provavelmente não. Embora o GPT seja mais poderoso do que as versões anteriores dos modelos OpenAI, também é muito mais caro de usar. Em muitos casos de uso em que você não precisa de um modelo para processar documentos de várias páginas ou “lembrar” conversas longas, os recursos do GPT-3 e GPT-3.5 serão suficientes.
Também publicado aqui.