À l'ère de l'IA, des outils comme ChatGPT sont devenus une solution incontournable pour de nombreuses organisations, apportant une efficacité et une productivité améliorées. Les données ne mentent pas : il y a de fortes chances que vous ou vos employés utilisiez ChatGPT pour rédiger des e-mails, générer du contenu, effectuer des analyses de données et même aider au codage.
Cependant, s'ils ne sont pas utilisés correctement, ces outils pourraient exposer par inadvertance la propriété intellectuelle (IP) de votre entreprise dans les futurs modèles d'IA générative tels que GPT-3.5, GPT-4 et éventuellement GPT-5, ce qui signifie que tout utilisateur de ChatGPT peut accéder à ces informations.
Les ingénieurs de Samsung ont utilisé ChatGPT pour faciliter la vérification du code source, mais The Economist Korea a signalé trois cas distincts d'employés de Samsung ayant involontairement divulgué des informations sensibles via l'outil . Cela a conduit à ce que le code source confidentiel et le contenu des réunions enregistrées se retrouvent dans le domaine public, utilisables par les futures itérations de ChatGPT ( Source ).
Lorsque vous utilisez nos services grand public non API ChatGPT ou DALL-E, nous pouvons utiliser les données que vous nous fournissez pour améliorer nos modèles.
Comment vos données sont utilisées pour améliorer les performances du modèle
Dans cet article, nous parlerons des risques potentiels liés à l'utilisation des API ChatGPT et OpenAI avec les données internes de l'entreprise, et de la manière dont vous pouvez réduire autant que possible les risques pour votre entreprise. Nous discuterons également d'autres options pour votre entreprise, comme la formation de votre propre modèle de langage qui reproduit les fonctionnalités de ChatGPT ou l'utilisation d'un modèle open source. Ces deux options offrent des moyens d'obtenir les avantages de productivité de ChatGPT sans envoyer de données à OpenAI.
Les API de complétion d'OpenAI sont utilisées par les développeurs pour créer des applications et utiliser les modèles de langage de pointe d'OpenAI tels que GPT-3 et GPT-4, les modèles qui alimentent ChatGPT. Ces API offrent un niveau de protection supplémentaire prêt à l'emploi. Contrairement à ChatGPT, vos données ne sont consultées que par une équipe de modération sous contrat et ne sont pas recyclées dans la formation future des modèles d'OpenAI. Leurs API suivent une politique de données qui n'autorise pas l'utilisation des informations soumises pour la formation de futurs modèles (leur politique d'utilisation des données d'API stipule que vos données ne sont conservées que pendant 30 jours pour la surveillance des abus et des abus. Ensuite, elles sont supprimées.)
Cependant, selon la nature de vos données soumises à l'API, vous pouvez décider que l'utilisation de l'API d'OpenAI est encore trop risquée. Finalement, un employé ou un sous-traitant d'OpenAI examinera certaines des données que vous envoyez à l'API, et si elles contiennent des informations sensibles, personnellement identifiables ou de santé personnelles, cela pourrait signifier beaucoup de problèmes.
Fin avril 2023, ChatGPT a publié un moyen de gérer vos données , un bouton "Historique du chat et formation" dans les paramètres de ChatGPT. Lorsque cette fonctionnalité est désactivée, les données partagées sur la plate-forme ne sont pas utilisées pour former de futurs modèles. Sous le bouton, il y a une note : "Les discussions non enregistrées seront supprimées de nos systèmes dans les 30 jours". Cette note de 30 jours fait probablement référence à la politique de surveillance des abus et des utilisations abusives. Cela comporte les mêmes risques que l'utilisation des API d'OpenAI, comme indiqué ci-dessus.
Certaines entreprises pourraient envisager de former leurs propres modèles comme alternative, en suivant la voie que Samsung aurait empruntée après leur incident de fuite de données. Cette approche peut sembler être une solution miracle : vous conserverez un contrôle total sur vos données, éviterez les fuites IP potentielles et bénéficierez d'un outil adapté à vos besoins spécifiques.
Mais arrêtons-nous un instant. La formation de votre propre modèle de langue n'est pas une mince tâche. Il est gourmand en ressources, nécessitant une expertise importante, une puissance de calcul et des données de haute qualité. Même après avoir développé un modèle, vous feriez face aux défis continus de le maintenir, de l'améliorer et de l'adapter à vos besoins en constante évolution.
De plus, la qualité des modèles de langage dépend en grande partie de la quantité et de la diversité des données sur lesquelles ils sont entraînés. Compte tenu des vastes ensembles de données utilisés par des entreprises comme OpenAI pour former leurs modèles, il est difficile pour les entreprises individuelles d'atteindre ce niveau de sophistication et de polyvalence. Les entreprises qui réussissent sont des entreprises comme Bloomberg, qui a créé BloombergGPT à partir de leurs 40 ans de données et de documents financiers ( Source ). Parfois, les données ne sont tout simplement pas accessibles aux petites entreprises qui tentent de se démarquer.
L'état de l'art des modèles open source progresse rapidement. Un modèle open source peut être téléchargé et exécuté sur votre machine, ce qui le rend auto-hébergé et élimine la nécessité pour une entreprise comme OpenAI d'être impliquée.
Les modèles formés par des organisations comme Open Assistant produisent des résultats remarquables et sont entièrement open source. Leur communauté collecte activement des données pour s'engager dans la même boucle de rétroaction humaine d'apprentissage par renforcement (RLHF) qu'OpenAI a utilisée avec ChatGPT. Les performances du modèle sont impressionnantes, surtout compte tenu de sa dépendance à l'égard de la communauté open source (y compris mes propres contributions). Cependant, Open Assistant est transparent sur les limites de son modèle , reconnaissant que ses données sont biaisées en faveur d'un groupe démographique masculin de 26 ans. Ils recommandent uniquement d'utiliser leur modèle dans des contextes de recherche, en démontrant un comportement responsable dans la divulgation de ces données démographiques. Félicitations à Open Assistant !
Orca est un modèle open source inédit et prometteur formé par Microsoft. Il est plus petit que le GPT-3, mais produit des résultats équivalents et parfois meilleurs que le GPT-3. Il y a une super vidéo par AI expliquée sur Orca si ça vous intéresse. Cependant, vous ne pouvez pas utiliser les modèles d'OpenAI pour former vos propres modèles, car cela constituerait une violation des conditions d'utilisation d'OpenAI. Orca est explicitement formé sur les sorties de GPT-3.5 et GPT-4, donc Microsoft affirme qu'ils publieront ce modèle uniquement pour la «recherche».
Ces deux modèles sont spécifiquement conçus à des fins de recherche, ce qui les rend inadaptés aux applications commerciales. Après avoir examiné d'autres modèles open source comme alternatives, j'ai constaté que la plupart d'entre eux sont soit dérivés du modèle LLAMA de Meta (donc soumis aux mêmes limitations de "recherche"), soit trop volumineux pour fonctionner efficacement.
Une option encourageante consiste à tirer parti d'une entreprise telle que MosaicML pour héberger votre inférence en privé. MosaicML se distingue comme l'un des rares modèles de langage open source disponibles dans le commerce. Ils affirment que leur modèle MPT-30b atteint une qualité comparable à GPT-3 . Bien qu'ils ne fournissent pas de repères spécifiques, je suis enclin à faire confiance à leur affirmation, en tant qu'ami et j'ai commencé à tester l'un de leurs plus petits modèles (MPT-7b), et les premiers résultats sont prometteurs !
Selon la nature de vos données et les cas d'utilisation, l'utilisation de ChatGPT ou de l'API d'OpenAI peut ne pas convenir à votre entreprise. Si votre entreprise n'a pas de règles concernant les données pouvant être envoyées ou enregistrées dans ChatGPT, il est maintenant temps de démarrer ces conversations.
L'utilisation abusive de ces outils dans des contextes commerciaux privés peut entraîner des fuites d'adresses IP. Les implications d'une telle exposition sont énormes, allant de la perte d'un avantage concurrentiel à des problèmes juridiques potentiels.
Si vous êtes intéressé par une exploration plus approfondie des modèles de MosaicML, qui font partie des options limitées à la fois open source et disponibles dans le commerce pour les grands modèles de langage, veuillez nous le faire savoir ! Nous partageons le même intérêt et sommes ravis d'explorer davantage ce sujet ensemble.
Si vous êtes intéressé par une solution qui offre une génération augmentée de récupération sécurisée à l'aide de vos propres données d'entreprise, nous développons un outil spécialement conçu pour protéger vos données avec la conformité SOC2, s'intégrer à vos fournisseurs SSO, permettre le partage de conversation au sein de votre organisation et appliquer des politiques sur les entrées de données. Notre objectif ultime est de fournir la qualité ChatGPT pour vos données sans aucun risque de fuite IP. Si vous êtes intéressé par un tel outil, nous vous encourageons à répondre à notre sondage ou à visiter mindfuldataai.com .
Merci d'avoir pris le temps de lire ce post !