A Anthropic, empresa por trás da série de modelos Claude, lançou o Claude 3.5 Sonnet. Chega em um momento em que todos nós aceitamos o GPT-4o como o melhor modelo padrão para a maioria das tarefas como raciocínio, resumo, etc. A Anthropic faz a ousada afirmação de que seu modelo estabelece o novo “padrão da indústria” para inteligência.
Além disso, está disponível gratuitamente em claude.ai se você quiser experimentar. Então, ficamos entusiasmados e queríamos testar o modelo e compará-lo com o GPT-4o. Este artigo começa com uma visão geral dos recursos lançados com Claude 3.5 e os testa em relação ao GPT-4o na geração de código, bem como em tarefas de raciocínio lógico e matemático.
O modelo vem com três características principais ou novidades que os fazem afirmar que supera o GPT-4o na maioria das tarefas.
Vamos nos aprofundar nos recursos e compará-los com o rei dos LLMs de longa data, o GPT-4o.
Para começar, precisamos estar logados no site claude.ai e ativar o recurso de artefatos. Como é um recurso experimental, precisamos habilitá-lo. Temos que acessar a visualização do recurso e ativar os artefatos, conforme mostrado abaixo.
Uma vez habilitado, o modelo mostrará uma janela dedicada ao lado para tarefas que precisam delas, como codificação ou animações.
Para testar a capacidade aprimorada de raciocínio visual, carregamos os dois gráficos abaixo no modelo de Claude Sonnet e fazemos a pergunta: “O que você pode deduzir desses dados?”.
Gráficos como imagens para testar o raciocínio visual
A resposta de Claude Sonnet foi surpreendente. Resumiu com precisão o progresso da aprendizagem profunda, dizendo: “Estes dados ilustram o rápido progresso nas arquiteturas de aprendizagem profunda e no dimensionamento de modelos, mostrando uma tendência para modelos maiores e mais poderosos”. Também recebemos uma resposta semelhante do GPT-4o. Assim, para entender melhor qual é o melhor, começamos a comparar os dois modelos sistematicamente em quatro tarefas - codificação, codificação com UI, raciocínio lógico e raciocínio matemático.
Agora que vimos uma visão geral, vamos nos aprofundar e levar o modelo para um passeio. Vamos testar a geração de código, raciocínio lógico e raciocínio matemático.
Para geração de código, pedirei a ambos os modelos que gerem código para jogar o conhecido jogo Sudoku. Acionei ambos os modelos com o prompt exato, “escreva o código python para jogar o jogo sudoku”. Com este prompt, tanto o Claude 3.5 quanto o GPT-4o geram código com o qual podemos interagir apenas no prompt de comando. Isso é esperado, pois não especificamos como gerar o código da UI. Algumas observações iniciais:
Como interagir com o prompt de comando não é para todos, eu queria que os modelos gerassem código com UI. Para isso, modifiquei o prompt para “escrever código para jogar um jogo de sudoku”. Desta vez, removi “python” do prompt porque achei que ele iria solicitar que produzisse apenas o código de back-end. Como esperado, Claude 3.5 produziu uma UI funcional desta vez, conforme abaixo. Embora a IU não fosse totalmente robusta e atraente, era funcional.
Mas o GPT-4o, infelizmente, não produziu uma UI semelhante. Ainda gerava código com um prompt de comando interativo.
Para o primeiro quebra-cabeça, fiz a pergunta abaixo:
Jane foi visitar Jill. Jill é a única filha da única filha do único marido da sogra do marido de Jane. qual é a relação de Jane com Jill?
Ambos os modelos apresentaram uma sequência de etapas de raciocínio e responderam corretamente à questão. Então tem que haver empate entre Claude 3.5 e GPT-4o neste caso.
Para o segundo quebra-cabeça, fiz a pergunta abaixo:
Qual das palavras é menos parecida com as outras. A diferença não tem nada a ver com vogais, consoantes ou sílabas. MAIS, PARES, ETCHERS, ZIPPER\
Para isso, ambos os modelos apresentaram diferentes etapas de raciocínio lógico para chegar a respostas diferentes. Claude raciocinou que zíper é a única palavra que pode funcionar tanto como substantivo quanto como verbo. Mas outros são apenas substantivos ou adjetivos. Então, identificou o ZIPPER como a resposta. O GPT-4o, por outro lado, identificou MAIS o raciocínio de que não se trata de um objeto concreto ou de um tipo específico de pessoa.
Tudo isso indica que precisamos tornar o prompt mais específico, levando a um empate neste caso.
Vamos passar para um conhecido quebra-cabeça de raciocínio visual que pode ser calculado por uma fórmula. Então forneci a figura abaixo junto com o prompt abaixo como entrada para ambos os modelos.
Todos os 3 círculos abaixo têm pontos azuis em sua circunferência que são conectados por linhas retas. O primeiro círculo possui dois pontos azuis que o separam em duas regiões. Dado um círculo com 7 pontos colocados em qualquer lugar da sua circunferência, qual é o número máximo de regiões em que o círculo pode ser dividido?
Nesse caso, o GPT-4o deu a resposta certa de 57. Mas Claude 3.5 deu a resposta de 64, que não é totalmente correta. Ambos os modelos forneceram etapas de raciocínio lógico sobre por que chegaram à resposta. A formatação das fórmulas matemáticas no GPT-4o é preferível à do Claude 3.5.
Com base em nossos testes, concluímos que o vencedor nas tarefas de geração de código, seja código de suporte puro ou código GUI, é o soneto Claude 3.5. É um vínculo estreito com tarefas de raciocínio lógico. Mas quando se trata de tarefas de raciocínio matemático, o GPT-4o ainda lidera e Claude ainda não o alcançou.
Em termos de velocidade de geração, Claude é sem dúvida o vencedor, pois produz texto ou código muito mais rápido que o GPT-4o. Confira nosso
Se você gostou deste artigo, por que não me seguir no
Também por favor assine meu