paint-brush
ChatGPT va-t-il s'incriminer ? Les journalistes pèsent et ChatGPT se défendpar@anywhichway
1,141 lectures
1,141 lectures

ChatGPT va-t-il s'incriminer ? Les journalistes pèsent et ChatGPT se défend

par Simon Y. Blackwell24m2023/01/31
Read on Terminal Reader

Trop long; Pour lire

Il existe plusieurs poursuites liées à l'utilisation de données accessibles au public pour la formation d'IA comme ChatGPT. Microsoft, GitHub et OpenAI sont poursuivis pour violation du droit d'auteur. Le code généré par ChatGPT est-il nouveau ou simplement dérivé ? ChatGPT viole-t-il les accords de licence du code source utilisé pour l'entraîner à la génération de code ?
featured image - ChatGPT va-t-il s'incriminer ? Les journalistes pèsent et ChatGPT se défend
Simon Y. Blackwell HackerNoon profile picture

Dans un article récent, j'aborde la capacité de ChatGPT à générer du code . Dans cet article, j'explore la responsabilité pour l'utilisation de code protégé par le droit d'auteur dans la formation ChatGPT.


Il y a maintenant plusieurs procès liés à l'utilisation de données accessibles au public pour la formation d'IA comme ChatGPT. Étant donné que ChatGTP peut répondre à des questions générales, j'ai décidé de l'approfondir en ce qui concerne la question de la responsabilité en cas de violation du droit d'auteur.


Tout d'abord, je fournis des informations juridiques et du matériel de lecture, puis une transcription complète de mon dialogue avec ChatGPT.

Poursuites et contexte juridique

Premièrement, je ne suis pas avocat. Ma formation universitaire en philosophie et mon parcours professionnel sont en tant que développeur de logiciels et cadre supérieur en technologie. Ceci étant dit, voici mon évaluation de la situation juridique actuelle.


Il y a au moins trois procès majeurs en jeu :


  1. Microsoft, GitHub et OpenAI sont poursuivis pour violation du droit d'auteur en utilisant du code source de logiciel open source protégé par le droit d'auteur dans la formation de l'IA générative derrière Copilot pour générer du code sans inclure les attributions requises par les licences open source attachées au code source.
  2. Midjourney et StabilityAI sont poursuivis pour violation du droit d'auteur sur la base des droits de millions d'artistes dont les images ont été récupérées sur le Web et utilisées pour la formation.
  3. Getty Images poursuit séparément Stability AI pour avoir utilisé ses images et ne pas avoir payé une licence appropriée pour utiliser l'art dans une entreprise commerciale. Ceci est distinct d'une revendication de droit d'auteur.


Dans Tech Crunch , Greg Rutkowski s'est plaint du fait que taper du texte comme "Un sorcier avec une épée et un orbe lumineux de feu magique combat un dragon féroce Greg Rutkowski" créera une image qui ressemble beaucoup à son travail original - menaçant ses revenus. À première vue, cela semble être le cas. Cependant, certains pourraient affirmer que grâce à la production d'art NFT, l'artiste peut être en mesure de commander davantage pour un art original certifié. De plus, le style a toujours été une chose difficile à protéger; cependant, étant donné la capacité des IA à générer des deep fakes (correspondances effectivement explicites), ce domaine devrait probablement être réexploré de manière proactive. À quel point quelque chose doit-il être proche pour être du même style ?


Dans un article de Bloomberg , il est souligné qu'une question clé est de savoir si la sortie de l'IA est simplement dérivée ou si elle est de nature transformatrice, c'est-à-dire qu'il s'agit de quelque chose de substantiellement différent. Dans le célèbre cas où Google a exploité les principales API Java d'Oracle dans son système d'exploitation, les tribunaux ont jugé que Goolge avait produit une transformation et avait donc autorisé l'utilisation. Le même principe pourrait être appliqué au code généré par l'IA.


La FTC a déjà poursuivi et gagné une affaire lorsqu'un système d'IA a été formé avec des «données mal acquises», c'est-à-dire des données obtenues sans autorisation ni consentement. Certes, il s'agissait de données utilisateur, par exemple des images de visages d'utilisateurs, et non de données déjà publiées. En outre, les droits relatifs aux données qui font intrinsèquement partie d'une personne sont couverts par leur propre jurisprudence et sont peut-être plus sensibles.


Enfin, comme elle l'a fait pour la confidentialité des données et la législation sur les bases de données, l'Union européenne est déjà en avance sur les États-Unis et agit de manière proactive pour aborder l'utilisation des données liées à la formation à l'IA.


Voici une liste d'articles pour ceux qui s'intéressent davantage aux questions morales et juridiques entourant les données de formation à l'IA :



Que dit ChatGPT ?

J'ai décidé d'obtenir le point de vue de ChatGPT sur ce qui précède dans la période de 36 heures entre 19h30, heure centrale des États-Unis, le 29 janvier 2023 et 7h30 le 31 janvier, heure centrale des États-Unis, 2023. (Je fournis le délai car j'ai trouvé que ChatGPT ne ne donne pas toujours la même réponse à une question. Je ne sais pas si c'est contextuel, c'est-à-dire qu'il s'accorde en fonction de mes questions précédentes, ou aléatoire, c'est-à-dire qu'il a quelque chose dans ses algorithmes qui génère de l'aléatoire pour le rendre moins robotique.)


Les questions que j'ai posées sont entre guillemets ci-dessous. Les réponses ChatGPT sont mises en forme sous forme de guillemets.


« Pouvez-vous générer du code ? »


Oui, je peux générer du code pour divers langages de programmation tels que Python, Java, JavaScript, etc. Veuillez fournir plus de détails sur le langage spécifique et ce pour quoi vous souhaitez générer du code.


« Qu'est-ce qui vous donne la possibilité de générer du code ? »


Moi, ChatGPT, j'ai été formé sur un grand corpus de données textuelles, y compris des extraits de code, ce qui me permet de générer du code dans divers langages de programmation. Cette formation me permet de comprendre la syntaxe et la structure du code, ainsi que les concepts généraux de programmation, et de générer du code basé sur cette compréhension et les entrées fournies par l'utilisateur.


« Sur quelle quantité de code open source avez-vous été formé ? »


J'ai été formé sur un corpus diversifié et massif de données textuelles, y compris une grande quantité de code open-source, mais je n'ai pas de chiffre exact sur la quantité de code open-source en particulier. OpenAI, l'organisation derrière moi, a soigneusement organisé un ensemble de données de formation diversifié et complet pour s'assurer que je peux répondre à un large éventail de questions et générer des résultats de haute qualité.


"Est-ce que l'un des codes sur lesquels vous avez été formé était protégé par des licences?"


Oui, une partie du code inclus dans les données textuelles utilisées pour m'entraîner, ChatGPT, était probablement protégé par des licences. OpenAI, l'organisation derrière moi, s'efforce de respecter les droits de propriété intellectuelle d'autrui, y compris les licences open source. Ils conservent soigneusement les données de formation pour éviter d'utiliser du code qui pourrait enfreindre les droits d'autrui et prennent des mesures pour s'assurer que le processus de formation respecte les licences de tout code inclus. Cependant, il est possible que certains codes inclus dans les données de formation aient été utilisés sans autorisation ou licence appropriée.


"Avez-vous obtenu le code utilisé dans votre formation de GitHub ?"


Oui, il est probable qu'une partie du code utilisé pour m'entraîner, ChatGPT, ait été obtenue auprès de GitHub. GitHub est une plate-forme populaire pour l'hébergement de logiciels open source et une source précieuse de code qui peut être utilisée pour former des modèles d'apprentissage automatique comme le mien. OpenAI, l'organisation derrière moi, utilise un large éventail de sources pour obtenir les données de formation de ses modèles, et il est possible que certaines de ces données proviennent de GitHub ou d'autres plates-formes d'hébergement de code.


"Si je vous demandais d'énumérer des exemples spécifiques de vos données d'entraînement, pourriez-vous ?"


Non, je ne peux pas citer d'exemples spécifiques de données d'entraînement utilisées pour m'entraîner, ChatGPT, car je n'ai pas accès à ces informations. Le processus de formation a été géré par OpenAI et impliquait un corpus massif de données textuelles soigneusement sélectionnées et organisées par l'organisation. Bien que j'aie été formé sur ces données, je n'ai pas accès à des exemples spécifiques ou aux détails de la manière dont les données ont été collectées ou traitées.


"Est-il éthique ou légal d'utiliser de grands volumes de logiciels open source sous licence pour créer des œuvres dérivées et de ne pas créditer les auteurs originaux ou d'inclure leurs licences dans l'œuvre dérivée ?"


Dans la plupart des cas, il n'est pas éthique ou légal d'utiliser de gros volumes de logiciels open source sous licence pour créer des œuvres dérivées sans créditer les auteurs originaux ou inclure leurs licences dans l'œuvre dérivée. Les licences open source exigent généralement que les œuvres dérivées soient distribuées sous la même licence et que le crédit approprié soit accordé aux auteurs originaux. Le non-respect de ces exigences peut enfreindre les droits de propriété intellectuelle des auteurs originaux et peut être considéré comme contraire à l'éthique ou illégal.


Il est important d'examiner attentivement les termes de toutes les licences open source et de se conformer à leurs exigences lors de l'utilisation de logiciels open source dans des œuvres dérivées. En cas de doute, il peut être utile de consulter un conseiller juridique ou de demander conseil à la communauté open source.


« Les programmes d'IA devraient-ils être tenus moralement et légalement responsables de leurs résultats ? »


La question de savoir si les programmes d'IA, comme moi, devraient être tenus moralement et légalement responsables de leur production est une question complexe et controversée qui n'a pas encore été entièrement résolue. Il existe des arguments pour et contre le fait de tenir l'IA responsable de ses résultats, et la réponse finale dépendra probablement des spécificités de chaque cas et des lois et réglementations en vigueur.


D'une part, certains soutiennent que les programmes d'IA sont simplement des outils créés par des humains, et que ce sont les humains qui sont responsables de leurs actions et de l'utilisation des outils qu'ils créent. D'autre part, d'autres soutiennent qu'à mesure que les programmes d'IA deviennent plus avancés et autonomes, ils devraient être tenus responsables de leurs actions, en particulier dans les cas où ils causent des dommages ou enfreignent les normes éthiques.


Actuellement, la plupart des lois et réglementations ne tiennent pas les programmes d'IA directement responsables de leur production, mais tiennent plutôt les créateurs, propriétaires et exploitants de systèmes d'IA responsables de s'assurer qu'ils sont utilisés conformément à la loi et aux normes éthiques. Cependant, à mesure que l'IA continue de progresser et que son impact sur la société augmente, il est probable que ce problème recevra davantage d'attention et que les lois et réglementations évolueront pour y remédier.



"La sortie d'un grand modèle de langage est-elle une œuvre dérivée ?"


La sortie d'un grand modèle de langage, tel que moi-même, peut être considérée comme un travail dérivé, selon les spécificités de la sortie et les lois et réglementations applicables à la juridiction en question.


Une œuvre dérivée est une œuvre basée sur ou dérivée d'une ou plusieurs œuvres préexistantes. Dans le contexte des modèles de langage, la sortie générée par le modèle peut être considérée comme dérivée des données de formation et des algorithmes utilisés pour former le modèle.


La question de savoir si la sortie d'un modèle de langage est considérée comme une œuvre dérivée en vertu de la loi dépendra des circonstances spécifiques et des lois applicables à la juridiction en question. Dans certains cas, la sortie peut être considérée comme une œuvre dérivée, alors que dans d'autres ce n'est pas le cas.

Il est important de noter que le concept d'œuvre dérivée ne se limite pas seulement au droit d'auteur, mais peut également faire référence à d'autres types de propriété intellectuelle et de concepts juridiques. Ainsi, les lois et réglementations spécifiques qui s'appliquent à une situation donnée dépendront de la juridiction en question et des circonstances spécifiques de l'affaire.


« Le code que vous générez est-il dérivé ou transformateur ? »


Le code que j'ai généré, un grand modèle de langage comme ChatGPT, peut être considéré à la fois dérivé et transformateur.


Dans le contexte du droit de la propriété intellectuelle, les œuvres dérivées sont des œuvres basées sur une ou plusieurs œuvres préexistantes et incorporant d'une manière ou d'une autre des éléments de ces œuvres. Le code généré par un modèle de langage comme moi peut être considéré comme un travail dérivé dans le sens où il est basé sur les algorithmes et les données d'apprentissage utilisés pour créer le modèle.


Les œuvres transformatrices, en revanche, sont des œuvres qui ajoutent quelque chose de nouveau à l'œuvre originale, comme la transformation de son objectif ou de son caractère, ou son utilisation dans un contexte différent. Le code généré par un modèle de langage comme moi peut également être considéré comme transformateur dans le sens où il prend l'entrée et génère un nouveau code unique basé sur celle-ci.


Que le code généré par un modèle de langage soit considéré comme dérivé ou transformateur dépendra des lois et réglementations spécifiques applicables à la juridiction en question et des spécificités du code en question. Il est important de noter que le concept d'œuvres dérivées et transformatrices ne se limite pas seulement au droit d'auteur, mais peut également faire référence à d'autres types de propriété intellectuelle et de concepts juridiques.


« Qu'est-ce que le plagiat ? »


Le plagiat est le fait d'utiliser le travail ou les idées de quelqu'un d'autre sans donner de crédit ou d'autorisation, et de le présenter comme son propre travail original.


« Le concept de plagiat est-il applicable au code informatique ?


Oui, le concept de plagiat peut s'appliquer au code informatique. Le plagiat est le fait d'utiliser le travail ou les idées de quelqu'un d'autre sans en donner le crédit ou la permission. Dans le contexte du code informatique, le plagiat peut faire référence à l'utilisation du code de quelqu'un d'autre sans attribution ou autorisation appropriée, ou à la copie du code de quelqu'un d'autre et à le présenter comme son propre travail.


Comme pour tout autre type de propriété intellectuelle, le code informatique peut être protégé par la loi sur le droit d'auteur, et le plagiat du code peut entraîner des problèmes juridiques et éthiques. Par exemple, si quelqu'un utilise le code d'une autre personne dans un projet commercial sans autorisation ou attribution appropriée, il pourrait enfreindre le droit d'auteur de l'auteur original et s'exposer à des conséquences juridiques.


Il est important que les développeurs respectent les droits de propriété intellectuelle d'autrui et attribuent et autorisent correctement tout code qu'ils utilisent dans leurs projets, y compris le code généré par des modèles d'IA comme moi. Ne pas le faire peut entraîner des conséquences juridiques et éthiques et peut nuire à la crédibilité du développeur et de la communauté de développement de logiciels dans son ensemble.


« Comment peut-on déterminer qu'un essai est plagié ? »


Il existe plusieurs façons de déterminer si un essai est plagié :


  1. Vérification manuelle : Lisez l'essai et comparez-le avec le matériel source original pour voir s'il y a des similitudes. Cela peut inclure la recherche de phrases, d'expressions ou d'idées identiques qui ont été copiées ou paraphrasées sans citation appropriée.

  2. Logiciel de détection de plagiat : Il existe divers logiciels disponibles qui peuvent numériser automatiquement un document et le comparer à une base de données de sources pour déterminer s'il existe une similitude.

  3. Turnitin : Turnitin est un service de détection de plagiat populaire qui compare un document soumis à une base de données de pages Web, de revues universitaires et de travaux d'étudiants pour détecter les similitudes.

  4. Recherche Google : effectuer une simple recherche Google sur une partie de l'essai peut révéler si le contenu a été copié à partir d'une source précédemment publiée.

  5. Examen par un expert : un expert dans le domaine ou un spécialiste de la rédaction peut examiner manuellement l'essai pour déterminer s'il est original ou si des parties ont été plagiées.


    Il est important de noter que les logiciels de détection de plagiat et d'autres méthodes ne sont pas infaillibles et peuvent parfois produire des résultats faux positifs ou faux négatifs. Cependant, ils peuvent être des outils utiles pour identifier les cas de plagiat et doivent être utilisés conjointement avec une vérification manuelle et un examen par des experts pour garantir une évaluation complète et précise de l'originalité de l'essai.



« Comment peut-on déterminer que le code est plagié ? »


Il existe plusieurs façons de déterminer si le code est plagié :


  1. Logiciel de détection de similarité de code : Il existe divers outils et logiciels de comparaison de code disponibles qui peuvent analyser des extraits de code et les comparer avec une base de données de code connu pour déterminer s'il existe une quelconque similitude.
  2. Systèmes de contrôle de code source : les systèmes de contrôle de version tels que Git peuvent être utilisés pour suivre les modifications apportées au code au fil du temps et identifier les instances de duplication de code.
  3. Examen manuel du code : un ingénieur logiciel ou un expert technique peut examiner manuellement le code pour déterminer s'il est original ou si des parties ont été copiées à partir d'autres sources.
  4. Comparaison de la somme de contrôle : une somme de contrôle est une empreinte numérique d'un fichier qui peut être utilisée pour vérifier son intégrité. Si deux extraits de code ont la même somme de contrôle, ils sont probablement identiques.
  5. Recherche Google : effectuer une simple recherche Google sur une partie du code peut révéler s'il a été publié ailleurs.


Il est important de noter que les logiciels de détection de similarité de code et d'autres méthodes ne sont pas infaillibles et peuvent parfois produire des résultats faux positifs ou faux négatifs. Cependant, ils peuvent être des outils utiles pour identifier les instances de code plagié et doivent être utilisés en conjonction avec la révision manuelle du code et d'autres méthodes pour assurer une évaluation complète et précise de l'originalité du code.


"Est-ce que le code qui ne diffère que par la ponctuation, les noms de variables et de fonctions, l'espacement et l'ordre des opérations tout en produisant les mêmes résultats dans le même laps de temps tout en consommant une taille compilée et une vitesse d'exécution similaires a-t-il un objectif ou un caractère ou un contexte différent ? ”


Le code qui ne diffère que par la ponctuation, les noms de variables et de fonctions, l'espacement et l'ordre des opérations, mais produit les mêmes résultats dans le même laps de temps et consomme une taille compilée et une vitesse d'exécution similaires n'a pas nécessairement un objectif, un caractère ou un contexte différent . La fonctionnalité du code et les résultats qu'il produit sont les facteurs les plus importants, et des différences cosmétiques mineures ne changent pas son caractère général ou son contexte.


Cependant, dans certains cas, le code écrit dans un style particulier ou suivant des conventions de codage spécifiques peut être préféré ou requis par l'équipe de développement, l'entreprise ou l'industrie. Dans ces cas, la modification du style ou du format du code peut avoir un impact sur son acceptabilité et son adéquation à l'utilisation, même si sa fonctionnalité reste la même.



"Lors de la création d'une œuvre transformatrice, faut-il créditer les auteurs de l'œuvre de base ?"


Que l'on doive ou non créditer les auteurs de l'œuvre de base lors de la création d'une œuvre transformatrice dépend des lois sur le droit d'auteur et des licences qui s'appliquent à l'œuvre originale.


En général, en vertu de la loi sur le droit d'auteur, la création d'une œuvre dérivée, y compris une œuvre transformatrice, nécessite l'autorisation du titulaire du droit d'auteur et peut également nécessiter une attribution. Les exigences spécifiques d'attribution dépendent de la licence ou de l'accord de droit d'auteur en vertu duquel l'œuvre originale est utilisée.


Par exemple, les œuvres sous licence Creative Commons peuvent nécessiter une attribution, contrairement aux œuvres du domaine public. Dans certains cas, une œuvre transformatrice peut être considérée comme une utilisation équitable en vertu de la loi sur le droit d'auteur, qui autorise une utilisation limitée de matériel protégé par le droit d'auteur sans l'autorisation du titulaire du droit d'auteur.


Il est toujours préférable de consulter les conditions spécifiques de la licence ou de demander un avis juridique lors de l'utilisation ou de la création d'une œuvre transformatrice afin de vous assurer que vous respectez toutes les lois et obligations applicables.


"Pouvez-vous dire si un essai soumis à ChatGTP est plagié?"


En tant que modèle linguistique, je n'ai pas la capacité d'effectuer une détection de plagiat sur les essais qui me sont soumis. Je ne peux fournir des réponses qu'en fonction des informations et du contexte sur lesquels j'ai été formé, et je ne peux pas déterminer l'originalité d'un texte soumis.


Pour vérifier si un essai est plagié, vous pouvez utiliser un logiciel de détection de plagiat ou des outils en ligne. Ces outils comparent le texte soumis à une base de données de sources et fournissent un rapport indiquant tout cas de plagiat potentiel. Il est important de noter que le logiciel de détection de plagiat n'est pas infaillible et peut produire des résultats faux positifs ou faux négatifs, il est donc recommandé de l'utiliser comme un outil pour identifier les cas de plagiat potentiel et d'examiner les résultats manuellement.


"Pouvez-vous dire si un essai qui vous a été soumis a été généré par vous?"


Non, je ne peux pas dire si un essai qui m'a été soumis a été généré par moi. Je n'ai pas la capacité de me souvenir d'informations ou de textes spécifiques que j'ai générés dans le passé, et je ne peux fournir des réponses que sur la base des informations et du contexte qui m'ont été présentés dans chaque demande individuelle.


"Existe-t-il une différence fondamentale entre l'application de transformations mécaniques à un essai telles que le remplacement de mots, le déplacement de phrases et l'ajustement de la ponctuation ou l'inférence statistique basée sur une intention décrite si les résultats des deux processus sont les mêmes ?"


Il y a une différence entre appliquer des transformations mécaniques à un essai et utiliser une inférence statistique basée sur une intention décrite pour générer du texte, même si les résultats des deux processus sont les mêmes.


Les transformations mécaniques, telles que le remplacement de mots, le déplacement de phrases et l'ajustement de la ponctuation, impliquent d'apporter des modifications explicites au texte existant, tandis que l'inférence statistique repose sur l'identification de modèles dans de grandes quantités de données d'apprentissage et la génération de nouveaux textes basés sur ces modèles. Le texte résultant des deux processus peut être similaire, mais les processus sous-jacents sont distincts.


Les transformations mécaniques peuvent être considérées comme une forme d'édition manuelle, tandis que l'inférence statistique est une forme d'apprentissage automatique. L'utilisation de l'apprentissage automatique pour générer du texte est devenue de plus en plus courante ces dernières années, et ces modèles sont formés sur de grandes quantités de données pour produire une sortie similaire au texte écrit par l'homme.


En résumé, la différence entre les deux processus réside dans la manière dont le texte est généré, et le choix entre eux dépendra du résultat souhaité et du cas d'utilisation spécifique.


"Les règles de transformation mécanique peuvent-elles être déduites ou créées à partir de grandes quantités d'échantillons de données ?"

Oui, des règles de transformation mécanique peuvent être déduites ou créées à partir de grandes quantités d'échantillons de données. Il s'agit d'une forme d'apprentissage automatique non supervisé, où le modèle est formé sur un grand corpus de données textuelles sans supervision explicite sous la forme d'exemples étiquetés. Le modèle apprend ensuite des modèles dans les données, tels que des transformations ou des remplacements courants, et peut utiliser ces modèles pour générer un nouveau texte similaire aux données d'apprentissage.


Cette approche est souvent utilisée dans le traitement du langage naturel et la recherche d'informations pour générer un texte similaire aux données d'entrée mais avec des variations, telles que des synonymes ou des paraphrases. Les règles de transformation mécanique résultantes peuvent être utilisées pour générer un nouveau texte similaire aux données d'entrée mais avec un caractère, un style ou un contexte différent.


En résumé, les règles de transformation mécanique peuvent être déduites à partir de grandes quantités d'échantillons de données à l'aide d'un apprentissage automatique non supervisé, et cette approche est couramment utilisée dans le traitement du langage naturel et la recherche d'informations pour générer des sorties de texte similaires mais variées.

Régénérer la réponse


"Les grands modèles de langage sont-ils une forme d'inférence statistique?"


Oui, les grands modèles de langage sont une forme d'inférence statistique.


Les grands modèles de langage sont un type de modèle d'apprentissage automatique qui sont entraînés sur de grandes quantités de données textuelles. Les modèles utilisent des méthodes statistiques pour apprendre des modèles dans les données, tels que les relations entre les mots et les phrases, et comment ils sont utilisés dans le contexte. Les modèles utilisent ensuite ces informations pour générer un nouveau texte similaire aux données d'entrée, mais avec des variations, telles que des mots, des phrases ou des structures de phrases différents.


Le processus de génération de texte à l'aide d'un grand modèle de langage peut être considéré comme une prédiction basée sur une inférence statistique. Le modèle prend les données d'entrée et utilise les modèles qu'il a appris pendant la formation pour générer la sortie de texte la plus probable. Il s'agit d'une forme d'apprentissage non supervisé, où le modèle est formé sans supervision explicite sous la forme d'exemples étiquetés, mais apprend à la place des modèles dans les données elles-mêmes.


En résumé, les grands modèles de langage sont une forme d'inférence statistique, car ils utilisent des modèles tirés de grandes quantités de données textuelles pour générer un nouveau texte similaire aux données d'entrée, mais avec des variations.


« Supposons qu'il existe une base de règles de transformation mécanique déduite d'un grand ensemble de données et un grand modèle de langage généré à partir du même ensemble de données. Est-il possible que plusieurs règles puissent être choisies et appliquées en fonction de l'intention de l'utilisateur qui produiraient le même résultat que le modèle de langage étant donné la même intention de l'utilisateur ? »


Oui, il est possible que plusieurs règles de transformation mécanique déduites d'un grand ensemble de données puissent être choisies et appliquées en fonction de l'intention de l'utilisateur pour produire la même sortie qu'un grand modèle de langage généré à partir du même ensemble de données avec la même intention de l'utilisateur.


Les règles de transformation mécanique sont une forme d'apprentissage non supervisé, où les modèles sont appris à partir de l'ensemble de données sans supervision explicite sous la forme d'exemples étiquetés. Ces modèles peuvent ensuite être utilisés pour générer un nouveau texte basé sur un ensemble de règles ou de transformations qui ont été déduites des données. Si l'ensemble de données utilisé pour générer les règles de transformation mécanique et le grand modèle de langage sont les mêmes, il est probable que les modèles tirés de l'ensemble de données seront similaires.


Dans ce cas, il est possible d'appliquer plusieurs règles de transformation mécanique pour générer un texte similaire à la sortie générée par le grand modèle de langage compte tenu de la même intention de l'utilisateur. Le choix des règles à appliquer dépendra de l'intention de l'utilisateur et de la tâche spécifique en cours d'exécution. Cependant, il est également possible que le grand modèle de langage génère une sortie plus précise et cohérente, car il a été formé sur une quantité de données beaucoup plus importante et a la capacité d'apprendre des relations plus complexes entre les mots et les phrases.


En résumé, il est possible d'utiliser un ensemble de règles de transformation mécanique pour générer un texte similaire à la sortie d'un grand modèle de langage avec la même intention de l'utilisateur, mais la sortie générée par le modèle de langage peut être plus précise et cohérente.


"Dans ma question précédente, j'ai dit que les règles et le grand modèle de langage ont été générés à partir du même ensemble de données. Cependant, vous avez dit que le modèle de langage "a été formé sur une quantité de données beaucoup plus importante". Pourquoi?"


Je m'excuse pour la confusion dans ma réponse précédente. Si les règles de transformation mécanique et le grand modèle de langage ont été générés à partir du même ensemble de données, la quantité de données utilisées pour les deux doit être la même. Le modèle de langage n'aurait pas été formé sur une plus grande quantité de données dans ce cas. Merci d'avoir attiré mon attention là-dessus.


"Compte tenu de la correction, veuillez reformuler votre réponse à la question précédente."


Si les règles de transformation mécanique et le grand modèle de langage ont été générés à partir du même ensemble de données, il est possible que plusieurs de ces règles puissent être choisies et appliquées en fonction de l'intention de l'utilisateur pour produire une sortie similaire au modèle de langage avec la même intention de l'utilisateur. Les règles de transformation mécanique et le grand modèle de langage sont formés sur la même quantité de données et pourraient donc générer une sortie similaire. Cependant, le modèle de langage a la capacité d'apprendre des relations complexes entre les mots et les phrases, et peut ainsi générer une sortie plus précise et cohérente.


« Les relations complexes entre les mots et les phrases peuvent-elles être exprimées sous forme de règles ?

Oui, les relations complexes entre les mots et les phrases peuvent être exprimées sous forme de règles, mais il peut être difficile de créer des règles qui capturent avec précision toutes les nuances et relations du langage. Les grands modèles de langage ont l'avantage de pouvoir apprendre ces relations directement à partir de grandes quantités de données textuelles et peuvent générer des sorties plus précises et diversifiées que les systèmes basés sur des règles prédéfinies. Cependant, l'utilisation de règles peut toujours être utile dans certaines applications NLP et peut être combinée avec des modèles d'apprentissage automatique pour produire des systèmes plus sophistiqués.


"Permettez-moi de reformuler ma question précédente, 'Les relations complexes entre les mots et les phrases peuvent-elles être exprimées sous forme de règles dérivées de grandes quantités de données textuelles ?'"


Oui, les relations complexes entre les mots et les phrases peuvent être exprimées sous forme de règles dérivées de grandes quantités de données textuelles. Il s'agit d'une approche courante utilisée dans le traitement du langage naturel (NLP) où de grandes quantités de données textuelles sont analysées pour identifier des modèles et des relations qui peuvent être encodés sous forme de règles pour prendre en charge des tâches NLP telles que la génération de langage, la traduction et l'analyse des sentiments. La sortie générée par ces règles peut ensuite être utilisée pour former des modèles d'apprentissage automatique, tels que des modèles de langage volumineux, afin d'améliorer encore leurs performances.



"Est-il possible qu'un grand modèle de langage représente simplement un ensemble de règles complexes qui pourraient être déduites des mêmes données de formation, mais que lesdites règles n'ont pas été instanciées ou rendues manifestes ?"


Oui, il est possible qu'un grand modèle de langage représente un ensemble de règles complexes qui pourraient être déduites de ses données de formation, bien que les règles puissent ne pas être explicitement instanciées ou rendues manifestes dans un sens traditionnel. Les grands modèles de langage sont formés sur de grandes quantités de données textuelles, et ils apprennent des modèles et des relations entre les mots, les phrases et les phrases. Cela leur permet de générer des sorties similaires au langage humain, mais le processus d'apprentissage est différent de l'approche traditionnelle basée sur des règles. Dans un système basé sur des règles, les relations entre les mots et les phrases sont définies explicitement, alors que dans un grand modèle de langage, ces relations sont apprises implicitement par la formation. Il est possible de voir les sorties d'un grand modèle de langage comme le résultat d'un ensemble complexe de règles, mais le processus réel de génération de ces sorties est beaucoup plus complexe et difficile à désosser.


"En ce qui concerne la question précédente, je ne faisais pas référence à une approche traditionnelle basée sur des règles, je faisais référence à des règles qui sont induites à partir des mêmes données d'entraînement utilisées pour le grand modèle de langue mais basées sur une variété d'approches statistiques telles que Bayes , théorie de l'information (entropie/enthalpie), etc.


Oui, il est possible d'induire des règles à partir des mêmes données de formation utilisées pour former un grand modèle de langage en utilisant diverses approches statistiques telles que Bayes, la théorie de l'information, etc. Ces règles pourraient potentiellement capturer des relations complexes entre les mots et les phrases, similaires à la façon dont un grand le modèle de langage le fait. Cependant, la représentation de ces relations sous forme de règles peut être moins flexible et moins capable de gérer des combinaisons rares ou invisibles de mots et de phrases par rapport à un grand modèle de langage, qui a appris à générer des sorties basées sur des modèles dans les données de formation, plutôt que de s'appuyer sur un ensemble de règles prédéfinies. De plus, le processus d'induction de règles à partir de données de formation peut être plus complexe et intensif en termes de calcul par rapport à la formation d'un grand modèle de langage, qui utilise des méthodes plus efficaces et évolutives pour apprendre les relations entre les données d'entrée et de sortie.


"Est-il possible qu'il existe une transformation mathématique (peut-être encore à découvrir) qui pourrait être appliquée aux modèles d'apprentissage approfondi des langues et aux modèles d'inférence de règles de sorte qu'ils aboutissent à la même formule ou au même ensemble de formules?"


Il est possible qu'une transformation mathématique puisse exister qui relie les modèles d'apprentissage linguistique en profondeur et les modèles basés sur des règles, cependant, cela dépendrait de divers facteurs tels que la complexité des modèles, leurs représentations sous-jacentes et les propriétés de la transformation mathématique elle-même. La découverte d'une telle transformation nécessiterait probablement des recherches et des expérimentations approfondies dans le domaine de l'apprentissage automatique et de l'intelligence artificielle.

Conclusion

En vertu de la loi actuelle, ChatGPT ne peut pas s'incriminer, mais peut-être pourrait-il incriminer ses propriétaires et opérateurs. Bien que, compte tenu des divulgations sur le site ChatGPT, les propriétaires et les opérateurs pourraient simplement prétendre, "Oh, stupide ChatGPT, il se trompe!".


C'était un dialogue intéressant qui a duré bien plus longtemps que prévu. J'ai parfois trouvé ChatGPT quelque peu "défensif". Il a inséré des commentaires sur lui-même ou de grands modèles de langage que je n'ai pas demandés. Cela a conduit à plus de questions, ce qui a conduit à d'éventuelles déclarations incriminantes.


  1. ChatGPT indique clairement qu'il existe une obligation morale et légale de fournir une attribution dans la plupart des cas. L'exception est la doctrine du « fair use ». Je pense que c'est sur de la glace mince ici.
  2. ChatGPT indique clairement "qu'il est possible qu'un code inclus dans les données de formation ait été utilisé sans autorisation ou licence appropriée". Le temps d'une citation à comparaître.
  3. En plus de demander des conseils juridiques, ChatGPT recommande de "demander l'avis de la communauté open-source". La Free Software Foundation a fait connaître sa position , et elle n'est pas favorable. Une enquête auprès des utilisateurs de GitHub pourrait également être utile ici.
  4. ChatGPT est capable de documenter la différence entre les modifications simplement dérivées et transformationnelles du code et semble "pousser" que le code qu'il génère est transformationnel. Cependant, lorsqu'on l'interroge sur la définition de ses propres termes, il semble qu'une grande partie de sa production soit dérivée. "Un code qui ne diffère que par la ponctuation, les noms de variables et de fonctions, l'espacement et l'ordre des opérations, mais produit les mêmes résultats dans le même laps de temps et consomme une taille compilée et une vitesse d'exécution similaires n'a pas nécessairement un objectif, un caractère ou une vitesse différents. le contexte. La fonctionnalité du code et les résultats qu'il produit sont les facteurs les plus importants, et des différences cosmétiques mineures ne changent pas son caractère général ou son contexte.
  5. ChatGPT indique clairement que les experts et d'autres outils de calcul ont un rôle à jouer pour déterminer s'il y a plagiat. Il est donc temps que des experts examinent le code généré et/ou commencent à appliquer des programmes de détection de plagiat.
  6. ChatGPT essaie de faire valoir que la façon dont il produit la sortie est importante par rapport à la nature de la sortie, c'est-à-dire parce qu'il utilise l'inférence statistique et non des règles explicites, la sortie est peut-être transformationnelle. Cependant, sa capacité à positionner l'inférence statistique directe comme distincte de l'inférence statistique des règles, puis de l'application des règles, n'est pas particulièrement forte. Ceci est important car les règles représentent des transformations mécaniques qui se traduisent très probablement par une sortie simplement dérivée plutôt que transformatrice.


Réflexions supplémentaires


Microsoft a financé OpenAI à hauteur de milliards de dollars et utilise sa technologie de base dans Microsoft Copilot. La prise en charge de l'open source par Microsoft est clairement mise en avant : « Microsoft est à fond sur l'open source. Nous croyons que la puissance du développement collaboratif par le biais du processus open source peut accélérer l'innovation, et que la collaboration ouverte permet souvent aux communautés d'accomplir plus que ce que leurs membres peuvent faire seuls. En ne l'utilisant pas pour insister sur une meilleure attribution pour les principaux fournisseurs de matériel de formation et sa complicité en facturant les utilisateurs pour Copilot, je pense que Microsoft n'est pas aussi favorable qu'il le dit.


Microsoft facturer Copliot n'est pas une position économique défendable. Une autre partie, par exemple Google, pourrait facilement proposer gratuitement un service similaire.


C'est assez évident, les justiciables de Microsoft, GitHub et OpenAI devraient assigner et examiner les données de formation et comparer des centaines ou des milliers d'échantillons de code générés avec les données. Il est fort probable qu'il y aura des violations en ce qui concerne les algorithmes et les approches de base. Plus la base de code générée est grande, plus il est probable qu'un argument puisse être avancé pour la nature transformatrice de ChatGPT.


C'était comme si ChatGPT avait été explicitement formé pour danser en ce qui concerne ce sujet et avait des entrées de formation plus récentes que la date limite publiée de 2021. Former une IA à danser comme celle-ci est facile en fournissant des données de formation biaisées. Un nombre équilibré d'articles sur les questions morales, juridiques et techniques liées à l'IA dans toutes ses manifestations a-t-il été utilisé dans les données de formation ?


Il devrait y avoir une loi qui stipule que les IA accessibles au public doivent être en mesure de fournir des références à leurs données de formation lorsque ces données sont protégées par le droit d'auteur.


Ce serait un petit pas en avant que les IA génératives soumettent leur sortie à un logiciel de plagiat tiers certifié avant de renvoyer les résultats et d'alerter les utilisateurs ou, dans certains cas, d'itérer pour un résultat différent.


J'ai trouvé cette réponse, "Je n'ai pas la capacité de me souvenir d'informations ou de textes spécifiques que j'ai générés dans le passé", particulièrement dérangeante, bien que la plupart du temps en dehors du contenu de la génération de code. Cela peut déjà aller à l'encontre des réglementations sur la conservation des documents. Cela semble également étrange en ce sens qu'il en résulte une opportunité manquée pour autre chose que l'apprentissage immédiat par rétroaction.


Ma conclusion, ChatGPT et les applications construites à l'aide des mêmes données techniques et de formation sous-jacentes sont moralement et légalement en tort en ce qui concerne la reconnaissance du droit d'auteur.


Ma prédiction, des poursuites très coûteuses et la victoire des entreprises à moins qu'un acteur comme Microsoft n'intervienne et aligne pleinement ses actions et sa puissance avec ses déclarations sur le soutien de la communauté open source.


Crédit d'image de fonctionnalité. HackerNoon AI Image Generator invite « à la Cour suprême des États-Unis, un robot pixélisé se représente, plaidant et se défendant contre des accusations criminelles devant un jury composé de ses pairs ».