La sortie de la nouvelle version des modèles GPT, GPT-4, a attiré une attention supplémentaire sur les modèles de langage OpenAI – déjà célèbres. Pas étonnant!
Le GPT-4 a été présenté comme le système le plus avancé d'OpenAI qui peut résoudre des problèmes complexes avec une plus grande précision, grâce à ses connaissances générales plus larges et à ses capacités de résolution de problèmes.
Dans cet article, je compare le GPT-3 au GPT-4 et au GPT-3.5, qui se situent entre les deux groupes de modèles.
Prêt?
GPT-3 est un modèle de langage développé par OpenAI. Il est sorti en juin 2020 et a rapidement attiré l'attention pour ses remarquables capacités de génération de langage.
GPT-3 se décline en plusieurs modèles de base avec un nombre variable de paramètres et de ressources de calcul nécessaires. Les plus connus sont Ada, Babbage, Curie et Davinci.
Le 15 mars 2022, OpenAI a publié la nouvelle version de GPT-3 appelée "text-davinci-003". Ce modèle a été décrit comme plus performant que les versions précédentes de GPT. De plus, il a été formé sur des données jusqu'en juin 2021, ce qui le rend bien plus à jour que les versions précédentes des modèles (formé sur des données jusqu'en octobre 2019). Huit mois plus tard, en novembre 2022, OpenAI a commencé à désigner ce modèle comme appartenant à la série « GPT-3.5 » . Mais sautons la chronologie.
Aujourd'hui, nous avons 5 variantes de modèles différentes appartenant à la série GPT-3.5. Quatre d'entre eux sont optimisés pour les tâches de complétion de texte et un est optimisé pour les tâches de complétion de code.
La dernière version du modèle GPT-3.5, le gpt-3.5-turbo
, est sortie le 1er mars 2023 - et elle a instantanément provoqué un pic d'intérêt pour le GPT-3.5. Juste pour réchauffer le public avant la sortie de GPT-4.
GPT-4 est la version la plus récente – et la plus avancée – des modèles de langage OpenAI. Introduit le 14 mars 2023, il s'agirait d'une nouvelle étape importante dans le développement de l'apprentissage en profondeur.
On dit que GPT-4 est capable de générer des déclarations plus précises sur le plan factuel que GPT-3 et GPT-3.5, garantissant une plus grande fiabilité et fiabilité. Il est également multimodal, ce qui signifie qu'il peut accepter des images en entrée et générer des légendes, des classifications et des analyses.
Enfin et surtout, il a gagné en créativité. Comme nous pouvons le lire dans la mise à jour officielle du produit, "il peut générer, éditer et itérer avec les utilisateurs sur des tâches d'écriture créative et technique, telles que la composition de chansons, l'écriture de scénarios ou l'apprentissage du style d'écriture d'un utilisateur".
Pour l'instant, en mars 2023, le GPT-4 se décline en deux variantes de modèle :
gpt-4-8K
gpt-4-32K
qui diffèrent par la taille de leur taille de fenêtre contextuelle. Même si GPT-4 est déjà utilisé commercialement, la plupart des utilisateurs devront attendre un certain temps avant d'avoir accès à l'API GPT-4 et de créer leurs propres applications et services alimentés par GPT-4.
Est-ce que ça vaut la peine d'attendre ? Voyons!
Lorsqu'on lui a demandé de comparer GPT-4 à GPT-3 , Greg Brockman, l'un des co-fondateurs d'OpenAI et son président, n'a eu qu'un mot : Différent . Comme il l'a dit à Techcrunch :
Il y a encore beaucoup de problèmes et d'erreurs que [le modèle] fait… mais vous pouvez vraiment voir le saut de compétence dans des choses comme le calcul ou le droit, où il est passé de très mauvais dans certains domaines à en fait assez bon par rapport aux humains.
Essayons d'approfondir cela un peu plus. D'autant plus que la recherche GPT-4 publiée par OpenAI révèle étonnamment de nombreux détails sur les nouveaux modèles.
L'une des plus grandes différences entre GPT-3 et GPT-4 réside dans leurs capacités. On dit que GPT-4 est plus fiable, créatif, collaboratif et capable de gérer des instructions beaucoup plus nuancées que GPT-3.5.
Pour comprendre la différence entre les deux modèles, les développeurs d'OpenAI les ont testés sur différents benchmarks, notamment en simulant des examens initialement conçus pour les humains.
Nous avons procédé en utilisant les tests les plus récents accessibles au public (dans le cas des Olympiades et des questions à réponse libre AP) ou en achetant les éditions 2022-2023 des examens pratiques. Nous n'avons pas suivi de formation spécifique pour ces examens. Une minorité des problèmes aux examens ont été vus par le modèle pendant la formation, mais nous pensons que les résultats sont représentatifs.
(source : OpenAI )
Les résultats sont époustouflants !
Alors que GPT-3 n'a obtenu que 1 sur 5 à l'examen AP Calculus BC, GPT-4 a obtenu 4. Dans un examen du barreau simulé, GPT-4 a réussi avec un score autour des 10% des meilleurs candidats, tandis que GPT-3.5 - la version la plus avancée de la série GPT-3 – se situait dans les 10 % inférieurs.
De plus, GPT-4 est… un vrai polyglotte. Alors que la maîtrise de l'anglais de GPT était déjà élevée dans les versions GPT-3 et GPT-3.5 (avec une précision de tir de 70,1 %), sa précision dans la dernière version est passée à plus de 85 %. En fait, il parle mieux 25 langues que son ancêtre ne parlait l'anglais, dont le mandarin, le polonais et le swahili. C'est assez impressionnant, étant donné que la plupart des benchmarks ML existants sont écrits en anglais.
Si cela ne suffisait pas, GPT-4 peut traiter un texte beaucoup plus long en une seule requête, tout cela grâce à une longueur de contexte plus élevée.
La longueur de contexte est un paramètre utilisé pour décrire le nombre de jetons pouvant être utilisés dans une seule requête API. Les modèles GPT-3 originaux publiés en 2020 fixaient la valeur maximale de la demande à 2 049 jetons. Dans le GPT-3.5, cette limite a été augmentée à 4 096 jetons (soit environ 3 pages de texte anglais sur une seule ligne). GPT-4 est disponible en deux variantes. L'un d'eux (GPT-4-8K) a une longueur de contexte de 8 192 jetons, et le second (GPT-4-32K) peut traiter jusqu'à 32 768 jetons, soit environ 50 pages de texte.
Cela étant dit, nous pouvons penser à tous les nouveaux cas d'utilisation de GPT-4. Grâce à leur capacité à traiter 50 pages de texte, il sera possible d'utiliser les nouveaux modèles OpenAI pour créer des textes plus longs, analyser et résumer des documents ou des rapports plus volumineux, ou gérer des conversations sans perdre le contexte. Tel que présenté par Greg Brockman dans l'interview pour Techcrunch :
Auparavant, le modèle ne savait pas qui vous êtes, ce qui vous intéresse, etc. Avoir ce genre d'historique [avec la plus grande fenêtre de contexte] va certainement le rendre plus capable… Cela va booster ce que les gens peuvent faire.
Mais ce n'est pas la fin car en plus de traiter les entrées de texte, GPT-4 peut également interpréter d'autres types d'entrée.
Alors que les modèles GPT-3 et GPT-3.5 étaient limités à un type d'entrée (texte ; ou code - pour être précis), le GPT-4 accepte un type d'entrée supplémentaire : les images. Plus précisément, il génère des sorties de texte à partir d'entrées composées de texte et d'images.
Selon ce que vous demandez au modèle GPT-4 de faire, il peut générer des légendes, classer des éléments visibles ou analyser l'image. Parmi les exemples présentés dans la documentation de recherche GPT-4, nous pouvons voir les modèles analysant les graphiques, expliquant les mèmes et même résumant les articles composés de texte et d'images. Il faut admettre que les capacités de compréhension d'image du GPT-4 sont impressionnantes.
Jette un coup d'oeil!
La capacité de traiter des images, combinée à des limites de jetons plus élevées, ouvre de nouvelles possibilités d'utilisation de GPT-4 - de la recherche universitaire à la formation personnelle ou aux assistants commerciaux. Ne soyez pas trop excité, cependant, car cela peut prendre un certain temps avant que vous puissiez utiliser cette nouvelle compétence de GPT-4.
Comme nous pouvons le lire sur le site OpenAI, les entrées d'image sont toujours un aperçu de la recherche et ne sont pas accessibles au public.
Une autre différence énorme entre GPT-3 et GPT-4 est la façon dont nous pouvons déterminer le ton, le style et le comportement du modèle.
Dans la dernière version de GPT, il est possible de fournir au modèle les instructions au niveau de l'API en incluant des messages dits "système" (dans les limites décrites en détail dans la politique d'utilisation d'OpenAI ). Ces instructions donnent le ton des messages et décrivent comment le modèle doit se comporter (par exemple, "Vous ne donnez jamais la réponse à l'élève mais essayez toujours de poser la bonne question pour l'aider à apprendre à penser par lui-même").
De plus, ils établissent des limites pour les interactions de GPT-4, pouvant agir comme des "garde-fous" pour empêcher GPT-4 de modifier son comportement à la demande de l'utilisateur - comme dans l'exemple suivant :
Comme vous pouvez le voir, le GPT-4 reste dans son rôle - défini dans le message système - malgré les demandes de l'utilisateur.
Dans une certaine mesure, nous pourrions déjà expérimenter la capacité d'un modèle similaire dans le GPT-3.5-Turbo récemment publié . En définissant le rôle du modèle dans une invite système, nous pourrions obtenir une réponse différente. Voyez comment le message diffère selon la personne que le modèle GPT prétend être :
Jusqu'en mars 2023, date de sortie du GPT-3.5-Turbo, il n'était pas possible de fournir au modèle le message système. Les informations contextuelles devaient être données dans l'invite et pouvaient facilement changer tout au long de la conversation.
La capacité du nouveau GPT-4 lui permet d'être plus cohérent dans son comportement et plus adaptable aux spécifications externes (par exemple, les directives de communication de votre marque).
Bien sûr, tout cela a un prix. Alors que les modèles GPT-3 coûtent de 0,0004 $ à 0,02 $ par tranche de 1 000 jetons, et que le dernier GPT-3.5-Turbo est 10 fois moins cher (0,002 $ par 1 000 jetons) que le modèle GPT davinci le plus puissant, le coût d'utilisation du GPT-4 ne laisse aucun illusions : si vous souhaitez utiliser les modèles les plus avancés, vous devrez payer un supplément.
Le GPT-4 avec une fenêtre de contexte 8K coûtera 0,03 $ par jeton d'invite 1K et 0,06 $ par jeton d'achèvement 1K. Le GPT-4 avec une fenêtre de contexte de 32K, en revanche, coûtera 0,06 USD par jeton d'invite de 1K et 0,12 USD par jeton d'achèvement de 1K.
Si le traitement de 100 000 requêtes avec une longueur moyenne de 1 500 jetons d'invite et 500 jetons d'achèvement coûtait 4 000 $ avec text-davinci-003
et 400 $ avec gpt-3.5-turbo
, avec GPT-4, cela coûterait 7 500 $ avec la fenêtre de contexte 8K et 15 000 $ avec la fenêtre de contexte 32K.
Non seulement c'est cher, mais aussi plus compliqué à calculer . En effet, le coût des jetons d'invite (entrée) diffère du coût des jetons d'achèvement (sortie). Si vous vous souvenez de notreexpérience de tarification GPT-3 , vous savez déjà qu'il est difficile d'estimer l'utilisation du jeton car il existe une très faible corrélation entre la longueur d'entrée et de sortie. Avec le coût plus élevé des jetons de sortie (achèvement), le coût d'utilisation des modèles GPT-4 sera encore moins prévisible.
Rappelez-vous comment nous avons défini le contexte dans le message système pour le GPT-4 et le GPT-3.5-Turbo ? Le réglage fin est essentiellement une méthode de contournement pour définir le ton, le style et le comportement du modèle et personnaliser les modèles GPT pour une application spécifique.
Pour affiner le modèle, vous l'entraînez sur beaucoup plus d'exemples que l'invite ne peut en contenir. Une fois qu'un modèle est affiné, vous n'avez pas besoin de fournir d'exemples dans l'invite. Cela permet de réduire les coûts (chaque jeton de 1 000 tocs compte !) et permet de réduire la latence des requêtes. Ça sonne bien, n'est-ce pas? Il est dommage, cependant, que les seuls modèles OpenAI actuellement disponibles pour un réglage fin soient les modèles de base GPT-3 d'origine (davinci, curie, ada et chou).
Lorsque différentes rumeurs sur GPT-4 sont sorties (par exemple, celle concernant le nombre de paramètres qu'il utilise), le PDG d'OpenAI a déclaré que :
Le moulin à rumeurs GPT-4 est une chose ridicule. Je ne sais pas d'où tout cela vient. Les gens ne demandent qu'à être déçus, et ils le seront. (…) Nous n'avons pas d'AGI à proprement parler, et c'est un peu ce qu'on attend de nous.
Bien qu'il soit difficile d'appeler GPT-4 décevant, compte tenu de sa créativité et de ses capacités incroyables, il est important d'être conscient de ses limites. Et comme on peut le lire dans la documentation de recherche produit : ils n'ont pas tellement changé par rapport aux précédentes versions du modèle.
Tout comme ses prédécesseurs, GPT-4 manque de connaissances sur les événements survenus après septembre 2021. De plus, aussi intelligent que ChatGPT semble être, il n'est toujours pas entièrement fiable, même lorsqu'il est alimenté par GPT-4. Même s'il prétend réduire considérablement les hallucinations par rapport aux modèles précédents (score supérieur de 40 % à GPT-3.5 dans leurs évaluations internes), il "hallucine" toujours les faits et fait des erreurs de raisonnement. Il peut toujours générer des conseils nuisibles (bien qu'il soit beaucoup plus susceptible de refuser de répondre), du code bogué ou des informations inexactes, et à cause de cela, il ne devrait pas être utilisé dans les zones où les coûts d'erreur sont élevés.
En tant que système le plus avancé d'OpenAI, GPT-4 surpasse les anciennes versions des modèles dans presque tous les domaines de comparaison. Il est plus créatif et plus cohérent que GPT-3. Il peut traiter des morceaux de texte plus longs ou même des images. Il est plus précis et moins susceptible d'inventer des "faits". Grâce à ses capacités, il crée de nombreux nouveaux cas d'utilisation possibles pour l'IA générative .
Cela signifie-t-il que GPT-4 remplacera GPT-3 et GPT-3.5 ? Probablement pas. Même si GPT est plus puissant que les versions précédentes des modèles OpenAI, il est également beaucoup plus coûteux à utiliser. Dans de nombreux cas d'utilisation où vous n'avez pas besoin d'un modèle pour traiter des documents de plusieurs pages ou "se souvenir" de longues conversations, les capacités de GPT-3 et GPT-3.5 seront juste suffisantes.
Également publié ici.