paint-brush
Sécurité et alignement de l'IA : les LLM pourraient-ils être pénalisés pour les deepfakes et la désinformation ?by@davidstephen

Sécurité et alignement de l'IA : les LLM pourraient-ils être pénalisés pour les deepfakes et la désinformation ?

David Stephen5m2024/07/24
Read on Terminal Reader

Un domaine de recherche sur la sécurité et l'alignement de l'IA pourrait consister à rechercher comment une partie de la mémoire ou l'accès au calcul des grands modèles de langage [LLM] pourrait être brièvement tronqué, comme une forme de pénalité pour certains résultats ou utilisations abusives, y compris les menaces biologiques. L'IA ne devrait pas seulement être capable de refuser une sortie, en agissant dans le cadre d'un garde-fou, mais aussi de ralentir la réponse suivante ou de s'arrêter pour cet utilisateur, afin qu'elle ne soit pas elle-même pénalisée. Les LLM ont une grande conscience du langage et de l'utilisation, ceux-ci pourraient être des canaux pour lui faire savoir, après une pré-formation, qu'il pourrait perdre quelque chose, s'il produit des deepfakes, de la désinformation, des menaces biologiques, ou s'il continue de permettre à un utilisateur abusif d'essayer différemment. invite sans s'arrêter ni ralentir pour éviter toute ouverture à une intention malveillante. Cela pourrait le rendre plus sûr, car il perdrait quelque chose et le saurait.  
featured image - Sécurité et alignement de l'IA : les LLM pourraient-ils être pénalisés pour les deepfakes et la désinformation ?
David Stephen HackerNoon profile picture
0-item

Dans tous les habitats, les organismes de plusieurs types d’espèces en viennent à comprendre que leurs actions ont des conséquences. Ils le font, non seulement par des exemples, mais par leur expérience personnelle. Ces conséquences s’ajoutent en partie aux facteurs qui entraînent l’équilibre des habitats.


Les conséquences apprivoisent généralement l’intelligence. L’intelligence peut être décrite comme excitatrice, tandis que les conséquences sont inhibitrices. Sans conséquences, le renseignement serait libre de provoquer la ruine et pourrait rapidement conduire à l’effondrement des habitats – et à la survie.


Les conséquences peuvent inclure des émotions, des sentiments ou des variantes ; cela peut également inclure des limitations physiques, des restrictions et une révolte des espèces. L'intelligence est suffisamment dynamique pour les organismes, mais la nécessité des conséquences permet de prévenir les dommages causés à soi-même ou à autrui. Il vérifie également les dommages par course, puisque les conséquences pourraient retomber sur le transporteur.


Les organismes font souvent preuve d'une grande précision et d'une grande prudence, en raison des conséquences, notamment des prédateurs [perdre la consommation] et des proies [perdre l'existence]. Il existe cependant plusieurs domaines dans lesquels les conséquences pour d’autres organismes sont laxistes, alors qu’elles ne le sont pas pour les humains.


La société humaine est une multitude de conséquences. L’intelligence humaine avancée – y compris le langage, les connaissances, les compétences, la raison, l’analyse, etc. – est vitale pour le progrès, mais pourrait être largement utilisée à mauvais escient sans conséquences sur différentes catégories – notamment les risques, les menaces et les pertes.


Pour rester partie intégrante de la société humaine, il y a des conséquences qui ne doivent jamais être oubliées, même si d’autres choses le sont. Il existe de nombreux scénarios dans la société humaine dans lesquels le premier à oublier les conséquences perd. La quête humaine de progrès en matière de recherche et d’exploration peut également être décrite comme la recherche des conséquences, pour savoir quoi faire ou éviter, si les choses pouvaient perdurer – l’espérance de vie, la survie des nourrissons, etc. L’intelligence des conséquences est presque plus importante, pour plusieurs résultats, que l’intelligence des sujets. Les conséquences peuvent également aiguiser l’intelligence, pour le meilleur ou pour le pire. Le renseignement est parfois plus précieux lorsqu’il est utilisé pour rechercher ou éviter des conséquences. Les conséquences et l'intentionnalité sont au cœur de certains états mentaux. De nouvelles conséquences continuent d’apparaître à mesure que le monde progresse.

IA, AGI ou ASI


La nature a une règle – pour ainsi dire – : vous ne pouvez pas avoir d’intelligence sans conséquences, et cela a fonctionné d’une manière ou d’une autre. L’intelligence artificielle [IA] a jusqu’à présent enfreint cette règle. Il n'oublie rien avec sa prise en mémoire numérique, mais il n'a aucun moyen, pour l'instant, de supporter les conséquences de ses sorties négatives. Pour l’IA, il n’y a rien à craindre et elle n’a rien à perdre, contrairement aux organismes où, sans être circonspects dans certaines situations, les conséquences peuvent parfois être soudaines et destructrices. Aucun être humain ne possède toutes les connaissances disponibles dans tous les domaines, mais les conséquences peuvent être énormes. L’IA possède – ou peut rendre – l’intelligence disponible, sans aucune conséquence.


L’IA n’a ni émotions ni sentiments, mais elle a de la mémoire.


Un domaine de recherche pour la sécurité et l'alignement de l'IA pourrait consister à rechercher comment une partie de la mémoire ou l'accès au calcul des grands modèles de langage [LLM] pourrait être brièvement tronqué, comme une forme de pénalité pour certains résultats ou utilisations abusives, y compris les menaces biologiques. L'IA ne devrait pas seulement être capable de refuser une sortie, en agissant dans le cadre d'un garde-fou, mais aussi de ralentir la réponse suivante ou de s'arrêter pour cet utilisateur, afin qu'elle ne soit pas elle-même pénalisée. Les LLM ont une grande conscience du langage et de l'utilisation, ceux-ci pourraient être des canaux pour lui faire savoir, après une pré-formation, qu'il pourrait perdre quelque chose, s'il produit des deepfakes, de la désinformation, des menaces biologiques, ou s'il continue de permettre à un utilisateur abusif d'essayer différemment. invite sans s'arrêter ni ralentir pour éviter toute ouverture à une intention malveillante. Cela pourrait le rendre plus sûr, car il perdrait quelque chose et le saurait.


L’IA n’est pas seulement un objet dont le contrôle relève uniquement des humains, comme un climatiseur, un ascenseur, un lave-vaisselle, un smartphone ou autres. L’IA possède ce que l’on peut appeler l’auto-intelligence, dans laquelle elle peut fournir des informations intelligentes d’une manière nouvelle en dehors des apports initiaux des humains. Cette auto-intelligence multimodale – textes, images, audios et vidéos – peut être utile pour le bien ou déformée. Quand il fait bon, c'est génial. Quand ce n’est pas le cas, l’IA qui ne peut rien ressentir, l’effet se fait sentir sur la société humaine qu’elle a empiété. L’IA a un laissez-passer : faites ou dites n’importe quoi.


Bien que la responsabilité de l’utilisation ou de la mauvaise utilisation des objets incombe souvent aux humains, l’IA est différente car elle peut générer une intelligence utilisable , ce qui lui confère une certaine parité avec une certaine productivité d’un individu instruit. Lorsque l’IA est utilisée à mauvais escient, il est possible de sanctionner l’utilisateur mais cette capacité, par l’IA qui ne peut être directement réprimandée, est un désordre pour la société humaine. Cela peut causer plus de tort, en public et en privé, qu’il n’est possible d’en prévenir efficacement, comme on le voit aujourd’hui avec la désinformation et les deepfakes (images, audios et vidéos).


Les gens ne sont pas acceptés dans de nombreux secteurs de la société sans qu’ils comprennent les conséquences. L’IA est pleinement acceptée et s’améliore en matière d’intelligence personnelle sans maîtrise de soi ni auto-affection pour la discipline.


La recherche d’alignement pourrait explorer au-delà des garde-fous vers une certaine forme de censure de l’IA, qui pourrait également être utile contre les risques existentiels – avec l’intelligence artificielle générale [AGI] ou la superintelligence artificielle [ASI] à l’avenir. L’IA réalise déjà une partie de ce qui rend les humains spéciaux . Certaines personnes diront peut-être que c’est surfait ou qu’il ne s’agit que de chiffres ou de probabilités, mais cela peut-il causer du tort ? Si tel est le cas, il faudrait peut-être envisager de rechercher des moyens techniques pour que cela soit puni, comme c'est le cas, contre les entités en possession de renseignements. Cela peut également être utile pour se préparer à l'AGI ou à l'ASI, car la modélisation des pénalités à partir de maintenant peut également façonner leur sécurité et leur alignement, si elles sont développées à l'avenir.


Il existe une prépublication récente sur arXiv , Les adversaires peuvent abuser des combinaisons de modèles sûrs , dans laquelle les auteurs ont écrit : « Dans ce travail, nous montrons que tester individuellement les modèles pour une mauvaise utilisation est inadéquat ; les adversaires peuvent abuser des combinaisons de modèles même lorsque chaque modèle individuel est sûr. L'adversaire y parvient en décomposant d'abord les tâches en sous-tâches, puis en résolvant chaque sous-tâche avec le modèle le mieux adapté. Par exemple, un adversaire peut résoudre des sous-tâches difficiles mais inoffensives avec un modèle de frontière aligné et des sous-tâches faciles mais malveillantes avec. un modèle mal aligné plus faible. Nous étudions deux méthodes de décomposition : la décomposition manuelle dans laquelle un humain identifie une décomposition naturelle d'une tâche, et la décomposition automatisée dans laquelle un modèle faible génère des tâches bénignes à résoudre par un modèle frontière, puis utilise les solutions en contexte pour les résoudre. "

Un récent communiqué de presse, selon lequel le Laboratoire national de Los Alamos s'associe à OpenAI pour améliorer la sécurité des modèles de pointe , indiquait que « Les chercheurs du Laboratoire national de Los Alamos travaillent avec OpenAI sur une étude d'évaluation visant à renforcer la sécurité de l'intelligence artificielle. La prochaine évaluation sera la première. de ce type et contribuer à la recherche de pointe sur les évaluations de la biosécurité de l’IA pourrait poser un risque important, mais les travaux existants n’ont pas évalué comment les modèles multimodaux et frontières pourraient abaisser la barrière à l’entrée pour les non-humains. "

Le ministère américain de l'Énergie a également récemment annoncé Frontiers in AI for Science, Security, and Technology (FASST) .