How Much Does It Cost to Use GPT? GPT-3 Pricing Explained  La sortie de ChatGPT a provoqué un énorme battage médiatique autour de la technologie sous-jacente : Generative Pretrained Transformer-3 (communément appelé GPT-3). Pas étonnant! Capable d'effectuer des tâches NLP avec une grande précision, il peut automatiser de nombreuses tâches liées à la langue, telles que la classification de texte, la réponse aux questions, la traduction automatique et la synthèse de texte ; il peut être utilisé pour générer du contenu, analyser les données des clients ou développer des systèmes avancés d'IA conversationnelle.  Si vous lisez cet article, vous avez probablement déjà eu l'occasion de jouer avec ChatGPT ou de le voir en action sur Youtube, des blogs et des publications sur les réseaux sociaux, et maintenant vous envisagez de passer au niveau supérieur. et exploiter la puissance de GPT-3 pour vos propres projets.  Avant de vous plonger dans toutes les possibilités passionnantes et de planifier la feuille de route de votre produit, répondons à une question importante :  Combien coûte l'utilisation de GPT-3 dans un projet commercial ?  OpenAI promet une tarification simple et flexible.   Nous pouvons choisir parmi quatre modèles de langage : Ada, Babbage, Curie et Davinci. Davinci est le plus puissant (utilisé dans ChatGPT), mais les trois autres peuvent toujours être utilisés avec succès pour des tâches plus faciles, telles que la rédaction de résumés ou l'analyse des sentiments.  Le prix est calculé pour chaque tranche de 1 000 jetons. En utilisant le modèle Davinci, vous paieriez 1 $ pour chaque tranche de 50 000 jetons utilisés. Est-ce beaucoup ? Comme expliqué sur la   : page de tarification OpenAI   Vous pouvez considérer les jetons comme des morceaux de mots utilisés pour le traitement du langage naturel. Pour le texte anglais, 1 jeton correspond à environ 4 caractères ou 0,75 mots. Cela se traduit par environ ¾ de mot (donc 100 jetons ~= 75 mots). À titre de référence, les œuvres collectées de Shakespeare comptent environ 900 000 mots ou 1,2 million de jetons.  Ainsi, pour seulement 100 $, vous pouvez effectuer des opérations sur environ 3 750 000 mots anglais, soit environ 7 500 pages de texte à simple interligne. Cependant, comme nous pouvons le lire plus loin,   Les demandes de réponse sont facturées   . En interne, ce point de terminaison effectue des appels aux API Search et Completions, de sorte que ses coûts sont fonction des coûts de ces points de terminaison. en fonction du nombre de jetons dans les entrées que vous fournissez et de la réponse générée par le modèle  Ainsi, nos 7500 pages de texte incluent l'entrée, la sortie et l'invite avec des "instructions" pour le modèle. Cela rend l'ensemble du processus d'estimation un peu délicat car nous ne savons pas quelle peut être la sortie.  Pour le savoir, nous avons décidé de mener une expérience.  L'objectif était de vérifier l'utilisation réelle des jetons avec les trois exemples d'invites, de comprendre quels facteurs ont un impact sur la sortie et d'apprendre à mieux estimer le coût des projets GPT-3.  Comment mesurer l'utilisation des jetons dans GPT-3 ?  L'expérience consistait à combiner des invites avec des corpus de texte, à les envoyer à une API, puis à calculer le nombre de jetons renvoyés.  Le coût de la demande d'API a ensuite été surveillé dans la vue d'utilisation et - puisqu'il y a une demande par limite de fenêtre de facturation - un temps d'attente d'au moins 5 minutes a été mis en place. Le coût a ensuite été calculé manuellement et comparé au coût enregistré dans la vue d'utilisation pour voir s'il y avait des écarts.  Le plan était simple. Nous devions collecter plusieurs corpus (~ 10), préparer les invites, estimer l'utilisation des jetons et appeler une API plusieurs fois pour voir les résultats réels.  Sur la base des résultats, nous prévoyions de rechercher des corrélations entre l'entrée (corpus + invite) et la sortie. Nous voulions découvrir quels facteurs influent sur la longueur de la sortie et voir si nous sommes en mesure de prédire l'utilisation du jeton en nous basant uniquement sur l'entrée et l'invite.  Étape 1 : Estimer le prix des entrées GPT-3  Tout d'abord, nous voulions vérifier l'exactitude des informations sur la page de tarification OpenAI. Pour ce faire, nous avons pris les résultats du   - un outil officiel fourni par OpenAI calculant comment un morceau de texte serait symbolisé par l'API et le nombre total de jetons dans ce morceau de texte - afin que nous puissions ensuite les comparer avec des données de la vue d'utilisation et de la facturation réelle. Tokenizer  Nous avons pris comme corpus les descriptions des dix applications les plus téléchargées : TikTok, Instagram, Facebook, WhatsApp, Telegram, Snapchat, Zoom, Messenger, CapCut et Spotify.  Cela nous permettrait d'exécuter plusieurs opérations sur le texte et de tester les corpus pour différents cas d'utilisation, tels que la recherche de mots-clés, la synthèse de textes plus longs et la transformation du texte en exigences de projet. La longueur des descriptions variait de 376 à 2060 mots.     Voyons à quoi cela ressemblait. Voici le fragment d'une description TikTok :  L'échantillon de texte se composait de 1609 mots et 2182 jetons, ce qui, selon le modèle GPT-3 choisi, devrait coûter :  Ada - $0,0009  Babbage - $0,0011  Curie - $0,0044  Davinci - $0,0437  Nous avons fait de même avec chacune des dix descriptions d'applications de nos corpus.   C'était notre référence pour les tests réels avec l'API GPT-3.  Étape 2 : Préparation des invites  Dans une prochaine étape, nous avons préparé les invites. Pour les besoins de cette expérience, nous voulions utiliser trois invites pour trois cas d'utilisation différents.  Invite #1 : Recueillir les exigences du projet avec GPT-3  La première invite concernait la collecte des exigences du projet en fonction de la description de l'application donnée.   Describe in detail, using points and bullet points, requirements strictly related to the project of an application similar to the below description:  Notre invite comportait 22 mots (148 caractères), ce qui équivalait à 26 jetons. Nous avons ajouté ces valeurs aux corpus et recalculé l'utilisation estimée des jetons pour chaque modèle.   Invite n° 2 : Rédaction d'un résumé TL;DR avec GPT-3  La deuxième invite concernait la rédaction de résumés de longs fragments de texte. Le « travail » du modèle consisterait à identifier les parties les plus importantes du texte et à rédiger un récapitulatif concis.   Create a short summary consisting of one paragraph containing the main takeaways of the below text:  Notre invite comportait 16 mots (99 caractères), ce qui équivalait à 18 jetons. Encore une fois, nous avons ajouté ces valeurs aux corpus.   Invite n° 3 : Extraction de mots clés avec GPT-3  La dernière invite était censée trouver et classer les mots-clés du texte, puis les présenter sous une certaine forme.   Parse the below content in search of keywords. Keywords should be short and concise. Assign each keyword a generic category, like a date, person, place, number, value, country, city, day, year, etc. Present it as a list of categories: keyword pairs.  Il comportait 41 mots (250 caractères), ce qui équivalait à 61 jetons. Avec le texte du corpus, cela nous a donné :   La prochaine étape était censée nous donner enfin des réponses. Nous allions envoyer nos invites avec des textes de corpus à l'API, calculer le nombre de jetons renvoyés en sortie et surveiller nos requêtes API dans la vue d'utilisation.  Étape 3 : test de l'API GPT-3  À ce stade, nous avons décidé de nous concentrer uniquement sur le modèle GPT le plus avancé : Davinci - celui qui est au cœur de ChatGPT.  Comme l'utilisation des jetons sur la plate-forme OpenAI est mesurée sur des périodes de 5 minutes, notre script n'envoyait qu'une seule requête API toutes les 5 minutes. Chaque demande était une combinaison d'un morceau de texte (corpus) et d'une invite. De cette façon, nous pourrions obtenir des informations précises sur l'utilisation des jetons pour chaque combinaison et comparer les résultats avec les estimations.  Au total, nous avions 30 combinaisons à tester : 3 invites x 10 descriptions d'applications. Pour les besoins de cette expérience, nous n'avons pas ajouté de variables supplémentaires dans les paramètres du modèle, telles que la température du modèle, car cela augmenterait considérablement le nombre de combinaisons et le coût de l'expérience.   Après avoir envoyé ces 30 requêtes, nous avons comparé les résultats affichés dans la vue Utilisation avec ceux tirés directement des métadonnées de nos appels API.  Les résultats étaient cohérents entre eux. De plus, l'utilisation symbolique des invites - y compris l'invite et les corpus - était également cohérente avec l'utilisation estimée précédemment avec le Tokenizer.  À ce stade, nous savions que nous étions en mesure d'estimer l'utilisation du jeton de l'entrée avec une grande précision. L'étape suivante consistait à vérifier s'il existait une corrélation entre la longueur de l'entrée et la longueur de la sortie et à déterminer si nous sommes en mesure d'estimer l'utilisation du jeton de la sortie.   La corrélation entre le nombre de jetons d'entrée et le nombre de jetons de sortie était très faible*. La mesure du nombre de jetons d'entrée n'était pas suffisante pour estimer le nombre total de jetons utilisés dans une seule requête.  * La pente variait entre 0,0029 dans le résumé TL; DR et 0,0246 dans la demande d'exigences du projet.   Quels facteurs influent sur le coût d'utilisation de GPT-3 ?  Bien qu'il n'y ait pas de corrélation claire entre le nombre de jetons d'entrée (invite + corpus) et le nombre de jetons de sortie (réponse), nous pouvions clairement voir que le facteur qui avait réellement un impact sur le nombre de jetons de sortie était l'invite elle-même - l'instruction qui a été confié à un modèle.  Dans tous les cas analysés, il a fallu plus de jetons pour générer les exigences du projet que pour extraire et regrouper les mots-clés. Cependant, les différences dans ces cas étaient plutôt faibles et n'avaient pas vraiment d'incidence sur le coût d'une seule demande, qui était d'environ 0,04 $. Cela changerait probablement si l'invite nécessitait le modèle GPT-3 pour créer un texte plus long (par exemple, un article de blog) basé sur un résumé.  Outre le cas d'utilisation spécifique (pour quoi nous utilisons le modèle), il existe également d'autres facteurs qui peuvent avoir un impact sur le coût d'utilisation de GPT-3 dans votre projet. Il s'agirait entre autres :  Température du modèle  Le paramètre de température contrôle le caractère aléatoire des sorties du modèle, et le définir sur une valeur plus élevée peut entraîner des sorties plus diverses et imprévisibles. Cela peut augmenter les ressources de calcul nécessaires pour exécuter le modèle et donc affecter le coût.  Qualité de l'invite  Une bonne invite minimisera le risque de recevoir la mauvaise réponse.  Disponibilité  Le coût d'utilisation de GPT-3 peut également être impacté par la disponibilité du modèle. Si la demande pour le modèle est élevée, le coût peut augmenter en raison de la disponibilité limitée.  Personnalisation  Le coût d'utilisation de GPT-3 peut également être influencé par le niveau de personnalisation requis. Si vous avez besoin de fonctionnalités spécifiques, un travail de développement supplémentaire peut être nécessaire, ce qui peut augmenter le coût.  En tant qu'utilisateur, vous pouvez contrôler le budget en définissant des limites souples et strictes. Avec une limite souple, vous recevrez une alerte par e-mail une fois que vous aurez dépassé un certain seuil d'utilisation, et une limite stricte rejettera simplement toutes les demandes d'API ultérieures une fois qu'elle sera atteinte. Il est également possible de définir le paramètre   dans la requête.  max_tokens  Cependant, vous devez garder à l'esprit que les limites que vous définissez auront un impact sur l'efficacité du modèle. Si les limites sont trop basses, les demandes d'API ne seront tout simplement pas envoyées, de sorte que vous - et vos utilisateurs - n'obtiendrez aucune réponse.  Comment estimer le coût d'utilisation de GPT-3 ?  L'expérience a montré qu'il est très difficile de fournir des estimations précises de l'utilisation des jetons en se basant uniquement sur les corpus et les invites.  Le coût d'utilisation de GPT-3 peut être influencé par un large éventail de facteurs, notamment le cas d'utilisation spécifique, la qualité de l'invite, le niveau de personnalisation, le volume d'appels d'API et les ressources de calcul nécessaires pour exécuter le modèle.  Sur la base de l'expérience menée, nous pouvons estimer approximativement le coût de l'utilisation de GPT-3 uniquement pour certains cas d'utilisation, tels que l'extraction de mots clés, la collecte des exigences du projet ou la rédaction de résumés.  Coût d'utilisation de GPT-3 - simulation de projet  Examinons le premier cas et supposons que vous avez un chatbot de service client sur votre site Web et que vous souhaitez savoir ce que les utilisateurs demandent habituellement. Pour obtenir de telles informations, vous devez :  analyser tous les messages qu'ils envoient,  extraire les entités (ex. noms de produits, catégories de produits),  et attribuez à chacun une étiquette appropriée.  Vous avez   et chaque visiteur envoie   . Dans ce scénario, nous avons   . Si nous prenons la durée moyenne de l'entrée et de la sortie de l'expérience (~1800 et 80 jetons) comme valeurs représentatives, nous pouvons facilement compter   .  environ 15 000 visiteurs par mois 3 requêtes deux fois par semaine 360 000 requêtes par mois le prix d'une requête  Le coût d'utilisation du GPT-3 (modèle Davinci) dans le cas analysé serait d'environ 14,4 000 $ par mois.  Il est important de noter, cependant, qu'il ne s'agit que d'une simulation simplifiée et que ses résultats ne sont pas entièrement représentatifs.  Étant donné que le coût réel de la construction de tout produit alimenté par GPT-3 dépend de plusieurs facteurs (la complexité du projet, la quantité et la qualité des données, les invites, les paramètres du modèle, le nombre d'utilisateurs), la marge d'erreur de sécurité d'une telle estimation serait même de 50 à 100 %.  Pour obtenir des estimations plus fiables, il serait utile d'exécuter un projet de preuve de concept et de tester différents scénarios sur l'ensemble spécifique de données - vos propres échantillons de corpus.  Combien coûte l'utilisation de GPT ? Résumé  GPT-3 est une technologie relativement nouvelle, et il existe encore de nombreuses inconnues liées à son utilisation commerciale. Le coût de son utilisation en fait partie.  Bien qu'il soit possible de mesurer l'utilisation du jeton et son prix côté entrée (0,04 $ pour 1000 jetons dans le modèle Davinci le plus avancé), il est difficile de prédire ces valeurs dans la sortie. De nombreuses variables ont un impact sur eux et la corrélation entre les entrées et les sorties est plutôt faible.  Pour cette raison, toute estimation «brute» est une pure conjecture. Pour augmenter la précision d'une estimation (mais aussi pour valider la faisabilité d'utiliser GPT-3 dans un certain cas d'utilisation), il est nécessaire d'exécuter une preuve de concept. Dans un tel PoC, nous prenons des exemples de corpus et testons le modèle avec différentes invites et différents paramètres de modèle pour trouver la meilleure combinaison.  BONUS : Combien cela coûte-t-il d'utiliser GPT-3.5 turbo avec OpenAI Foundry ?  Le 21 février, les informations sur la nouvelle offre OpenAI appelée Foundry sont devenues virales, faisant leur chemin de   jusqu'aux médias technologiques les plus reconnus, tels que Techcrunch et  . Twitter CMS Wire  Selon la fiche produit, l'exécution d'une version allégée de GPT-3.5 coûtera 78 000 $ pour un engagement de trois mois ou 264 000 $ pour un engagement d'un an. L'exécution de la version la plus avancée du modèle Davinci (avec une limite de jetons dépassant de 8 fois celles que nous avions dans GPT-3 !) coûtera 468 000 $ pour un engagement de trois mois ou 1 584 000 $ pour un engagement d'un an.   Mais de quoi s'agit-il ? Comme on peut le lire sur   : Techcrunch  Si l'on en croit les captures d'écran, Foundry - à chaque lancement - fournira une "allocation statique" de capacité de calcul (…) dédiée à un seul client. (…)  Foundry offrira également des engagements de niveau de service, par exemple une disponibilité et une assistance technique dans le calendrier. Les locations seront basées sur des unités de calcul dédiées avec des engagements de trois mois ou d'un an ; l'exécution d'une instance de modèle individuelle nécessitera un nombre spécifique d'unités de calcul.  Il semble cependant que l'engagement de niveau de service ne doive pas être traité comme un contrat à prix fixe.  Pour l'instant, il serait prudent de supposer que le prix ne couvre que l'accès à un certain modèle sur la capacité dédiée "avec un contrôle total sur la configuration du modèle et le profil de performance", comme nous pouvons le lire sur les brèves captures d'écran du produit.  Les prix des jetons dans les nouveaux modèles - qui   - n'ont pas encore été annoncés. Dans la récente   , cependant, nous pouvons lire que le GPT-3.5 Turbo coûte 1/10ème du coût du modèle GPT-3 Davinci - ce qui nous donne 0,002 $ par 1k jetons dans GPT-3.5 Turbo. devraient être largement attendus GPT-4 mise à jour de la documentation OpenAI

This story contains new, firsthand information uncovered by the writer.

Let's talk about your project!

Cet audio est produit dans la langue originale de l'histoire !

Explication de la tarification ChatGPT d'Open AI : Combien cela coûte-t-il d'utiliser des modèles GPT ?

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Valhalla de Floki se joint en tant que sponsor associé de la tournée indienne au Sri Lanka

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Les couches invisibles : pourquoi les entretiens avec les utilisateurs sont un atout irremplaçable

Télégramme : le pont de Crypto Island vers le continent

Valhalla de Floki se joint en tant que sponsor associé de la tournée indienne au Sri Lanka

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Les couches invisibles : pourquoi les entretiens avec les utilisateurs sont un atout irremplaçable

Télégramme : le pont de Crypto Island vers le continent

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps