1,087 lectures

Explorer les secrets de la technologie et de la formation derrière ChatGPT

par ILLA Cloud7m2023/04/24

Trop long; Pour lire

ChatGPT a acquis une immense popularité en raison de ses remarquables compétences conversationnelles. Il possède un large éventail de capacités, y compris la capacité de jouer à des jeux, de composer de la poésie et des scripts. ChatGPT est formé en mettant l'accent sur les principes éthiques, ce qui lui permet de refuser les demandes ou les questions qui violent ses directives éthiques prédéterminées.

featured image - Explorer les secrets de la technologie et de la formation derrière ChatGPT

ChatGPT a acquis une immense popularité en raison de ses remarquables compétences conversationnelles. Il possède un large éventail de fonctionnalités, notamment la possibilité de jouer à des jeux, de composer de la poésie et des scripts, d'aider au débogage de programmes, de créer des conceptions de sites Web et même de générer des invites AIGC. On peut trouver plusieurs exemples de ses capacités sur Twitter, compilées par Ben Tossell.

En fait, ChatGPT a récemment été invité par un professeur de MBA à répondre à leurs questions de gestion, ce qui a conduit à la conclusion qu'ils ne devraient plus donner de devoirs pouvant être emportés à la maison. Il est évident que de nombreuses personnes ont eu du mal à arrêter d'utiliser ChatGPT une fois qu'elles ont commencé.

ChatGPT

Les moyens d'améliorer Chatgpt

Par rapport à son prédécesseur, GPT-3, l'amélioration clé de ChatGPT est sa capacité à conserver les données de conversation précédentes, offrant aux utilisateurs une expérience transparente lors de dialogues prolongés.

ChatGPT est capable de reconnaître et de corriger ses erreurs. Si vous trouvez sa réponse insatisfaisante, vous pouvez l'inviter à réviser sa réponse et à proposer une meilleure solution.

ChatGPT a la capacité de remettre en question et de contester les hypothèses erronées. Au début de la sortie de GPT-3, de nombreux utilisateurs ont eu des expériences négatives en raison de l'IA générant un faux contenu qui semblait plausible mais qui n'était pas fondé sur la réalité. Cependant, si vous deviez poser à ChatGPT une question du type "Que faisait Columbus en Amérique en 2015 ?" il reconnaîtrait que Christophe Colomb n'existait pas à cette époque.

De plus, ChatGPT est formé en mettant l'accent sur les principes éthiques, ce qui lui permet de refuser les demandes ou les questions qui violent ses directives éthiques prédéterminées. Néanmoins, malgré la prudence d'OpenAI, un questionnement intelligent peut encore permettre de contourner ces directives.

Méthodes de formation de ChatGPT

La méthodologie de formation employée par ChatGPT suit l'approche conventionnelle de "pré-formation-réglage fin" utilisée pour les modèles à grande échelle. Le modèle est d'abord formé sur un vaste ensemble de données publiques, puis adapté au domaine d'application spécifique (tel que la conversation de type humain) en affinant avec un ensemble de données plus petit pour obtenir les performances souhaitées. Le réglage fin, les invites et d'autres techniques ne modifient pas de manière significative le cœur du modèle, mais ils peuvent améliorer considérablement ses performances pratiques. Cependant, la capacité de GPT-3 à comprendre les requêtes humaines n'est pas la plus naturelle, et soit la tâche doit être restructurée, soit le modèle affiné pour correspondre au travail, ce qui améliore l'efficacité.

ChatGPT est un modèle frère d'InstructGPT, qui a été publié en janvier 2022. InstructGPT intègre des démonstrations humaines de la sortie du modèle et trie les résultats pour la formation, ce qui le rend plus adapté pour suivre les instructions humaines que GPT-3. La méthodologie de formation innovante de ChatGPT est appelée "Apprentissage par renforcement à partir de la rétroaction humaine" (RLHF).

ChatGPT s'appuie sur le modèle GPT-3.5, exploitant des ensembles de données de texte et de code pour la formation, et utilise les serveurs Azure AI de Microsoft à cette fin. L'ensemble de données d'entraînement GPT-3 original ne contenait que du texte, donc cette nouvelle version a la capacité supplémentaire de comprendre et de produire du code.

GPT3.5

Pourquoi ChatGPT a-t-il montré une amélioration aussi significative ?

Outre la mémoire et la capacité d'engager un dialogue continu avec le contexte, la méthode de formation utilisée pour ChatGPT est également remarquable. La méthode RLHF, qui a été introduite pour la première fois dans un document de recherche en mars 2022, n'a pas été utilisée pendant la formation d'InstructGPT, malgré les spéculations de l'industrie.

InstructGPT a utilisé le modèle text-DaVinci-002, qui a rencontré des problèmes tels que l'effondrement du mode, où il a convergé vers la même réponse quelle que soit la question posée. ChatGPT a obtenu des résultats remarquables avec l'application réussie de la méthode RLHF. Cependant, RLHF n'est pas facile à former, car il rencontre fréquemment des problèmes tels que des retours clairsemés et un effondrement de mode.

Le document a été publié en mars, mais il a fallu attendre décembre pour lancer ChatGPT, car des ajustements importants étaient nécessaires. De plus, le réglage des instructions a apporté une contribution substantielle au développement de ChatGPT. InstructGPT a moins de paramètres que GPT-3, mais sa sortie est supérieure à la fois à GPT-3 et aux modèles affinés à l'aide de l'apprentissage supervisé. Le réglage des instructions et la méthode rapide partagent un noyau similaire d'exploration des connaissances inhérentes au modèle de langage. Cependant, ils diffèrent en ce que l'invite stimule la capacité d'achèvement du modèle linguistique, tandis que le réglage des instructions stimule la capacité de compréhension du modèle linguistique en fournissant des instructions claires.

Dans le passé, les modèles plus grands se concentraient sur les modèles eux-mêmes et sur l'ingénierie rapide, tandis que l'accent itératif de ChatGPT est mis sur la boucle fermée à droite, comme illustré dans la figure ci-dessous.

Au final, ChatGPT trouve un bon équilibre entre fournir des réponses efficaces et éviter les fausses informations. Cela contraste avec le modèle Galactica de Meta qui a été retiré trois jours seulement après son lancement en raison de la fourniture de trop de fausses informations.

Cela s'explique en partie par le marketing trop médiatisé de Meta, qui a suscité des attentes trop élevées et a finalement conduit à la déception des chercheurs pointilleux. Cependant, ChatGPT a fait un travail minutieux de réglage fin et d'ingénierie rapide, ce qui aide à identifier les questions contradictoires et donne aux utilisateurs plus de confiance dans l'exactitude de ses réponses, même s'il ne peut pas éliminer complètement le problème des fausses informations.

La stratégie commerciale est importante

Contrairement à GPT-3 qui facturait les utilisateurs en fonction de leur utilisation, ChatGPT est actuellement accessible au public gratuitement et avec un accès illimité. Cela permet aux utilisateurs d'expérimenter toutes sortes d'idées bizarres sur la plate-forme. Les utilisateurs sont également encouragés à fournir des commentaires, ce qui est très précieux pour OpenAI. Bien qu'OpenAI ne soit pas pressé de générer des revenus, ni ne manque de financement, des rumeurs suggèrent que sa dernière valorisation a atteint plusieurs dizaines de milliards de dollars, avec Microsoft comme principal investisseur.

Dans le développement de l'IA, l'importance de l'ingénierie est en fait supérieure à celle de la science, et la création d'une boucle de rétroaction itérative est cruciale. OpenAI accorde une grande importance aux applications commerciales et GPT-3 compte déjà un grand nombre de clients. L'interaction et les retours de ces clients avec OpenAI sont également un facteur clé de progrès.

En revanche, l'approche à huis clos de Google semble dépassée. Peut-être est-ce dû à un manque de culture commerciale ou à des limitations du ratio entrées-sorties. Google a toujours été "bridé" dans l'application de grands modèles, même si le point de départ est élevé. S'il continue à itérer à petite échelle, comme l'approche de Waymo en matière de conduite autonome, il finira par être dépassé par des entreprises plus ouvertes et plus riches en données.

Améliorations futures :

RLHF est une méthode relativement nouvelle, et comme OpenAI continue d'explorer et d'intégrer les commentaires des utilisateurs recueillis à partir de ChatGPT, il y a encore place à l'amélioration du modèle. Plus précisément, il est nécessaire de résoudre les problèmes d'éthique/d'alignement et d'empêcher les informations négatives générées en contournant les limites du système, telles que découvertes par les utilisateurs ces derniers jours.

De plus, il convient de noter qu'OpenAI dispose également d'outils tels que WebGPT, qui peut être compris comme un robot d'exploration Web avancé qui extrait des informations d'Internet pour répondre aux questions et fournir les sources correspondantes. WebGPT peut utiliser la capacité de compréhension sémantique de GPT-3 lui-même et les informations publiques d'Internet pour générer des réponses et constitue une capacité de recherche améliorée prometteuse.

Lors d'un entretien avec des scientifiques d'OpenAI mené par MIT Technology Review, la possibilité de fusionner les capacités de ChatGPT et WebGPT à l'avenir a été discutée. Certains internautes ont trouvé des indices dans ChatGPT suggérant que la fonctionnalité de navigation sur les pages Web est actuellement désactivée, mais elle pourrait être ajoutée à l'avenir. La combinaison de ChatGPT et WebGPT pourrait donner des résultats plus captivants, car les informations seraient mises à jour en temps réel et faciliteraient des évaluations plus précises de l'authenticité des faits.

Lorsqu'il s'agit de combiner avec WebGPT, cela se rapporte au côté gauche de l'organigramme de formation LLM axé sur l'action, qui relie des sources d'informations externes et des bibliothèques d'outils. La recherche sur le Web n'est qu'une possibilité ; ChatGPT peut également être combiné avec divers outils, tels que différents logiciels bureautiques et logiciels SaaS, pour fournir des fonctions plus diversifiées.

Au niveau du produit, il vaut la peine de discuter de meilleures interfaces et méthodes de mise en œuvre. Un format de boîte de dialogue côte à côte peut susciter des attentes car il doit garantir la fluidité de la conversation. Github Copilot le fait bien. Copilot est spécialisé dans la programmation en binôme et propose des suggestions sous forme de partenaire. Les utilisateurs peuvent accepter de bonnes suggestions et rejeter les mauvaises. Même si de nombreuses suggestions sont rejetées, le plaisir de recevoir une suggestion efficace générée à intervalles aléatoires peut créer une dépendance. Si ChatGPT devient à l'avenir un assistant d'écriture, de scénarisation ou de travail, un formulaire de produit similaire à Copilot sera facile à accepter pour les gens.

En conclusion, beaucoup de gens sont étonnés par les capacités de ChatGPT, mais la vraie merveille est encore à venir. La force d'OpenAI réside non seulement dans la compréhension de grands modèles, mais également dans sa capacité à concevoir et à recevoir des commentaires de manière itérative, ainsi que dans son travail sur l'alignement entre l'IA et les objectifs humains. Les mots du PDG d'OpenAI, Sam Altman, "Faites confiance à l'exponentiel. Plat vers l'arrière, vertical vers l'avant", expriment notre état actuel de décollage.

Présentation d'ILLA Cloud

ILLA Cloud est une plate-forme de développement low-code avec des dizaines de composants frontaux et des intégrations d'API de base de données. Vous pouvez utiliser ILLA Cloud pour créer l'interface frontale en faisant glisser et déposer des composants et en vous connectant à votre base de données ou API pour terminer rapidement le développement de la pile complète.

ILLA est fière d'annoncer un partenariat avec Hugging Face, une suite d'outils et de services de traitement du langage naturel (TAL). Ils sont surtout connus pour leur bibliothèque NLP open source, qui fournit des outils de génération de texte, de traduction de langue et de reconnaissance d'entités nommées. Avec Hugging Face, ILLA est plus productif qu'avant. Nos utilisateurs peuvent faire plus avec l'IA.

ILLA Cloud fournit des dizaines de composants frontaux couramment utilisés, vous permettant de créer rapidement différentes interfaces frontales en fonction de vos besoins spécifiques. Dans le même temps, ILLA propose une connexion à Hugging Face, vous permettant de vous connecter rapidement à l'API, d'envoyer des requêtes et de recevoir les données renvoyées. En connectant l'API et les composants frontaux, vous pouvez implémenter l'exigence selon laquelle les utilisateurs peuvent entrer du contenu via le frontal et le soumettre à l'API. L'API renvoie le contenu généré à afficher sur le front-end.

Pour le futur plan d'ILLA Cloud, veuillez consulter notre feuille de route : https://github.com/orgs/illacloud/projects/4

Nous sommes enthousiasmés par l'avenir d'ILLA Cloud, et nous espérons que vous l'êtes aussi. Si vous souhaitez nous rejoindre dans cette aventure, voici quelques façons de vous impliquer :

Essayez ILLA Cloud gratuitement et commencez à créer vos propres outils internes.
Suivez-nous sur Twitter , LinkedIn , Youtube , dev.to , Chasse aux produits , Discorde , ou GitHub .
Partagez vos commentaires, suggestions, questions ou témoignages avec nous.

Rejoignez notre communauté Discord : discord.com/invite/illacloud Essayez ILLA Cloud gratuitement : cloud.illacloud.com Page d'accueil ILLA : illacloud.com Page GitHub : github.com/illacloud/illa-builder