paint-brush
Recours collectifs contre les sociétés d'intelligence artificielle, les luddites des temps modernes, etc.par@futuristiclawyer
186 lectures

Recours collectifs contre les sociétés d'intelligence artificielle, les luddites des temps modernes, etc.

par Futuristic Lawyer9m2023/06/23
Read on Terminal Reader

Trop long; Pour lire

Pessimistic Archive est une newsletter basée sur des coupures de journaux anciens. Les générations passées expriment leurs inquiétudes face à l'avenir et aux nouvelles technologies. Trois artistes plasticiens indépendants sont allés jusqu'à déposer un recours collectif contre Stable Diffusion. Le procès porte essentiellement sur tous les modèles d'IA générative formés sur des données protégées par le droit d'auteur.
featured image - Recours collectifs contre les sociétés d'intelligence artificielle, les luddites des temps modernes, etc.
Futuristic Lawyer HackerNoon profile picture

Introduction

Archives pessimistes est une newsletter basée sur des coupures de vieux journaux où les générations passées expriment leurs inquiétudes face à l'avenir et aux nouvelles technologies.


En 1859, le poète français Charles Baudelaire décrit la photographie comme* « le refuge de tout peintre en herbe, de tout peintre trop mal doté ou trop paresseux pour achever ses études »* et l'embrasser était un signe d' « aveuglement » et d'« imbécillité ».


En 1906, un écrivain appelé lettres d'amour écrites avec une machine à écrire la plus « production de sang-froid, mécanique et non romantique imaginable », tandis qu'un autre écrivain a déclaré que « la fille qui acceptera une lettre d'amour dactylographiée acceptera n'importe quoi ».


Au siècle dernier, titres de journaux accrocheurs a mis en garde contre la lecture au lit, les méfaits du patin à roulettes, le "visage de bicyclette" qui a été attribué à " la tension nerveuse exercée sur le cavalier, en gardant son équilibre", et l'American Society of Composers, Authors and Publishers a prouvé avec des graphiques comment « Le cinéma parlant, la radio et le phonographe » avaient « assassiné la musique.


Avance rapide jusqu'en 2023, nous avons ce qu'on appelle l'intelligence artificielle. Il peut générer de manière transparente et en quelques secondes du texte, des images, des vidéos et de la musique à partir d'invites de texte. De nombreux artistes sont concernés.


Trois artistes visuelles indépendantes - Sarah Andersen, Kelly Mckernan et Karla Ortiz - sont allées jusqu'à déposer un recours collectif contre Stable Diffusion avec l'aide de l'avocat Matthew Butterick et des plaideurs du cabinet d'avocats Joseph Saveri.


Matthew Butterick est déjà une figure connue de « la bataille juridique du droit d'auteur contre l'IA » depuis un autre recours collectif contre CoPilot de Github , un outil d'IA générative pour la génération de code.

Le recours collectif

Dans mon dernier message , j'ai écrit sur le générateur d'images AI open-source, Stable Diffusion. Le recours collectif vise le propriétaire de Stable Diffusion, Stability AI, une autre célèbre société d'images d'IA, Midjourney, et la communauté artistique en ligne, DevianArt.


Cependant, la plainte du plaignant est formulée dans un large champ d'application et s'attaque essentiellement à tous les modèles d'IA générative formés sur des données protégées par le droit d'auteur - ce que sont tous les grands, et en quantités gigantesques.


En effet, si le tribunal fédéral de San Francisco décide d'entendre l'affaire le 19 juillet, malgré les requêtes des défendeurs en rejet , la décision du tribunal pourrait avoir un impact considérable sur un industrie de plusieurs billions de dollars .


Dans l'ensemble, le trio d'artistes à l'origine du recours collectif tente d'imposer un "oui" à deux questions de droit d'auteur difficiles que les modèles d'IA génératives soulèvent - l'une relative aux entrées et l'autre aux sorties :


  1. La question d'entrée : Les développeurs doivent-ils obtenir la permission et/ou payer une licence aux titulaires de droits pour l'utilisation de leur matériel protégé par le droit d'auteur dans le processus de formation d'une IA ?


  1. La question de la sortie : si un produit d'IA générative génère une sortie qui ressemble à une œuvre créée par un artiste humain, le titulaire du droit peut-il intenter une action en contrefaçon contre le fournisseur ?


Je ne suis pas un expert en droit d'auteur américain, juste un observateur avec une position neutre sur les questions. Sur la base de mes recherches, je pense que la réponse à la première question est "non", tandis que la deuxième question est plus problématique à répondre et peut dépendre d'une évaluation au cas par cas.


Je doute fortement que ce recours collectif nous apporte des réponses.


Une autre affaire de droit d'auteur en cours concernant l'utilisation et la distribution d'images par Stable Diffusion a été déposée par le géant de l'image Getty Images en février de cette année.


À mon avis, le procès de Getty Images a de bien meilleures chances d'aller devant les tribunaux et de contribuer à la compréhension juridique des droits d'auteur par rapport à l'IA générative.


La principale différence tient en une phrase : le procès de Getty Images est mieux documenté. Getty Images peut prouver ses droits et signaler des violations spécifiques de ses droits, contrairement aux artistes à l'origine du recours collectif.


La plainte en recours collectif des artistes est malheureusement truffée d'erreurs rudimentaires et d'hypothèses erronées sur la manière dont Stable Diffusion a été formée et sur la manière dont le modèle génère des images.


Un groupe de passionnés de technologie a créé un site Web http://www.stablediffusionfrivolous.com/ où ils soulignent certaines des inexactitudes techniques de la plainte.


Ici, je me concentrerai sur la façon dont les artistes abordent, ou plutôt omettent d'aborder, les deux questions juridiques énoncées ci-dessus.

La question d'entrée

Voici une citation de la plainte (¶57-58), où les artistes donnent leur avis sur la question d'entrée :


« Stability a récupéré et a ainsi copié plus de cinq milliards d'images de sites Web en tant qu'images d'entraînement utilisées comme données d'entraînement pour Stable Diffusion.


Stability n'a pas demandé le consentement des créateurs des images d'entraînement ou des sites Web qui les hébergeaient à partir desquels elles ont été extraites.


Stability n'a tenté de négocier des licences pour aucune des images de formation. La stabilité les a simplement pris. Stability a intégré et stocké des copies compressées des images d'entraînement dans Stable Diffusion.


La première version de Stable Diffusion a été entraînée avec « Filtre CLIP » couples image-texte de la base de données publique LAION-5B.


LAION-5B contient des informations sur 5,85 milliards d'images et est la plus grande base de données de ce type. Il a été développé par l'organisation allemande à but non lucratif LAION (acronyme de Large-scale Artificial Intelligence Open Network), et Stability AI a aidé à financer son développement.


Il est important de noter qu'aucune image réelle n'est stockée dans LAION-5B. Au lieu de cela, les informations sur chaque image sont stockées et consistent en :


  • Un lien URL vers le site Web de l'image
  • Une courte description textuelle de ce que l'image représente
  • Hauteur et largeur de l'image
  • La similitude perçue avec d'autres images
  • un score de probabilité de la probabilité que l'image soit "dangereuse" (pornographique/NSFW)
  • un score de probabilité de la probabilité que l'image ait un filigrane


L'affirmation des artistes selon laquelle Stable Diffusion "stocke des copies compressées" de leur art est donc un abus de langage. En réalité, l'ensemble de données de formation de Stable Diffusion se compose de métadonnées sur certaines des images des artistes, et ces métadonnées ne sont pas en elles-mêmes protégées par le droit d'auteur.


De la même manière, une chanson sur Spotify est protégée par le droit d'auteur, mais les métadonnées la concernant telles que le nom de l'artiste, le titre de la chanson, le producteur, la date de sortie, le genre et la durée de la piste ne le sont pas. En effet, la récupération de ces données est un processus purement mécanique qui ne nécessite aucun effort créatif.


En tant qu'ensemble de données public, LAION-5B peut être examiné par toute personne intéressée. L'entreprise Frai a créé un outil de recherche haveibeentrained.com où les gens peuvent rechercher dans LAION-5B pour voir si leurs images sont incluses dans l'ensemble de données.


C'est ce qu'ont fait les trois artistes, Sarah Andersen, Kelly McKernan et Karla Ortiz, et elles ont trouvé respectivement plus de 200, plus de 30 et plus de 12 représentations de leur travail.


Plus précisément, la diffusion stable a été initialement formé avec 2,3 milliards d'images d'un sous-ensemble de LAION-5B appelé LAION-2B-EN qui ne contient que des images avec des descriptions textuelles en anglais.


Compte tenu de la taille des données d'entraînement de Stable Diffusions, les contributions involontaires apportées par les trois artistes sont de petites gouttes dans un vaste océan.


En comparaison, le procès de Getty Images contre Stability AI concernait plus de 12 millions de photographies de leur collection qui est encore une infime partie de l'ensemble de données.


De toutes les œuvres des artistes, seules 16 images ont été enregistrées auprès du bureau américain du droit d'auteur par Sarah Andersen.


Il découle de l'article 17 USC § 411(a) qu'" aucune action civile pour violation du droit d'auteur sur une œuvre des États-Unis ne sera intentée tant que le pré-enregistrement ou l'enregistrement de la revendication du droit d'auteur n'aura pas été effectué (..)".


En d'autres termes, si une œuvre n'est pas enregistrée auprès du bureau du droit d'auteur des États-Unis, le titulaire du droit ne peut généralement pas porter plainte pour contrefaçon dans le cadre d'une action en justice civile. Cela signifie que les artistes ne peuvent faire des réclamations qu'au nom des 16 œuvres détenues et enregistrées par Sarah Andersen.


Si seulement les artistes pouvaient prouver que Stable Diffusion peut parfois générer des sorties qui ressemblent à l'une de ces 16 images, les artistes pourraient peut-être plaider la cause de "la question de la sortie". Mais comme nous le verrons, ils en sont incapables.

La question de sortie

En ce qui concerne la question de la sortie, les artistes suggèrent que chaque sortie générée par Stable Diffusion est essentiellement dérivée de ses données de formation et par conséquent enfreint le droit d'auteur (voir ¶94-95). Cette théorie juridique est extrêmement farfelue.


Ci-dessous, une illustration tirée de l'article du professeur de droit Matthew Sag " Sécurité des droits d'auteur pour l'IA générative . » Les 15 images à gauche proviennent des données d'entraînement de Stable Diffusions avec les balises « white », « coffee » et « cup ».


Les images à droite ont été générées par Stable Diffusion avec l'invite textuelle « tasses à café sur fond blanc ». Selon la logique des artistes, toutes les images de droite porteraient atteinte au droit d'auteur des images de gauche.


Bien que les images ne semblent clairement pas sensiblement similaires.

Dans certaines conditions rares, il a été prouvé que Stable Diffusion peut en fait générer des images de sortie qui ressemblent beaucoup aux images de son jeu de données d'entraînement.


Cela est particulièrement susceptible de se produire lorsque l'image d'entraînement d'entrée est largement diffusée sur Internet et se reproduit encore et encore dans les données d'entraînement de Stable Diffusion.


Dans un article récent intitulé Extraction de données d'entraînement à partir de modèles de diffusion, Nicholas Carlini et ses co-auteurs ont identifié 350 000 des images les plus dupliquées dans les données d'entraînement Stable Diffusions.


Par la suite, ils ont généré 500 nouvelles images via Stable Diffusion avec des invites textuelles identiques aux descriptions textuelles associées à chacune des images de données d'entraînement.


Il s'est avéré que sur les 175 millions d'images (350 000 x 500), seules 109 images (0,03 %) pouvaient raisonnablement être considérées comme des "quasi-copies".


Ainsi, des violations du droit d'auteur peuvent se produire, mais les artistes ne donnent aucun exemple de la manière dont Stable Diffusion a copié leur travail. Au contraire, ils écrivent dans la plainte ¶ 93 :


“ En général, aucune des images de sortie de diffusion stable fournies en réponse à une invite de texte particulière ne correspond probablement à une image spécifique dans les données de formation.


Les artistes affirment que Stable Diffusion est capable d'imiter leurs styles artistiques personnels. Normalement, un « style artistique » ne peut pas être protégé par le droit d'auteur. Les réclamations pour contrefaçon doivent toujours être liées à des infractions à des œuvres spécifiques.


Cependant, il y a ici une question légitime qui a reçu une bonne dose d'attention du public. Les modèles d'IA générative peuvent copier les styles distinctifs d'artistes célèbres en quelques secondes, indéfiniment et à un coût proche de zéro.


Pour résoudre ce problème, Stability AI a supprimé les noms d'artistes célèbres des étiquettes de leur ensemble de données. dans le cadre d'une mise à niveau de novembre l'année dernière . Cela signifie que Stable Diffusion ne peut plus imiter les styles artistiques des gens.


Si vous demandez par exemple à Stable Diffusion de créer une image dans le style de Picasso ou de Rembrandt, il n'est plus en mesure de le faire. Le changement a été initié deux mois avant la plainte en recours collectif.


Dans l'ensemble, on ne sait pas comment et pourquoi les artistes pensent que Stable Diffusion copie leur travail. Les artistes semblent plus préoccupés par la façon dont Stable Diffusion pourrait menacer leurs emplois à l'avenir, et moins préoccupés par le fonctionnement actuel de Stable Diffusion.


L'une des trois artistes, Sarah Andersen, a écrit dans un article du NY Times depuis décembre dernier :


"J'ai joué avec plusieurs générateurs, et jusqu'à présent, aucun n'a imité mon style d'une manière qui puisse directement menacer ma carrière, un fait qui changera presque certainement à mesure que l'IA continuera de s'améliorer."


Ci-dessous, deux illustrations de l'article, une de Sarah Andersen et une de Stable Diffusion. Vous pouvez probablement deviner lequel a été créé par qui.

Pensée finale

En décembre 2022, Stabilité AI annoncée qu'ils s'étaient associés à Spawning, l'entreprise derrière haveibeentrained.com , et offrirait désormais aux artistes la possibilité d'accepter ou de refuser que leurs œuvres soient utilisées comme matériel de formation pour la prochaine version de Stable Diffusion.


Bien que l'initiative peut ne pas être parfait , cela pourrait être considéré comme un pas dans la bonne direction pour tout artiste soucieux d'alimenter son travail aux grands modèles de fondation.


Avant le recours collectif, Karla Ortiz a parlé à MIT Technology Review à propos de la nouvelle fonction d'opt-out, et elle ne pensait pas que Stability AI allait assez loin :


"La seule chose que Stability.AI peut faire est le dégorgement algorithmique où ils détruisent complètement leur base de données et ils détruisent complètement tous les modèles qui contiennent toutes nos données"


Cette déclaration est très révélatrice. Les trois artistes à l'origine de la loi sur les recours collectifs, ainsi que Matthew Butterick et le reste de leur représentation légale, prétendent défendre les droits de l'artiste, mais ils sont en fait des temps modernes Luddites .