paint-brush
IA générative : avis d'experts sur l'évolution, les défis et les tendances futuresby@elekssoftware
245

IA générative : avis d'experts sur l'évolution, les défis et les tendances futures

ELEKS11m2024/07/23
Read on Terminal Reader

Plongez dans le monde de l'IA générative avec l'analyse experte d'ELEKS, découvrez les défis et voyez ce que l'avenir nous réserve.
featured image - IA générative : avis d'experts sur l'évolution, les défis et les tendances futures
ELEKS HackerNoon profile picture

L’IA attire l’attention des passionnés de technologie et des experts du secteur depuis un certain temps. Dans cet article, nous approfondissons l’évolution de l’IA, mettant en lumière les enjeux qu’elle pose et les tendances émergentes à l’horizon.


Alors que nous observons la croissance exponentielle de la technologie de l’IA , il devient de plus en plus crucial d’avoir une compréhension globale de ses capacités afin d’en maximiser les avantages potentiels. En plongeant dans ce domaine complexe, Volodymyr Getmanskyi, chef du bureau de science des données chez ELEKS, partage ses idées et son expertise sur ce sujet d'actualité.

AI vs GenAI – Principales différences expliquées

Premièrement, l’IA générative fait partie du domaine de l’IA. Alors que l’IA se concentre principalement sur l’automatisation ou l’optimisation des tâches humaines, l’IA générative se concentre sur la création de différents objets. Les tâches typiques de l'IA telles que la création d'agents conversationnels ou décisionnels, l'automatisation intelligente, la reconnaissance et le traitement d'images, ainsi que la traduction, peuvent être améliorées avec GenAI. Il permet de générer du texte et des rapports, des images et des designs, de la parole et de la musique, et bien plus encore.


En conséquence, l’intégration de l’IA générative dans les tâches et flux de travail quotidiens est devenue de plus en plus transparente et efficace. On pourrait se demander quel type de génération de données est le plus populaire. Toutefois, la réponse n’est pas simple.


Les modèles multimodaux permettent de générer différents types de données basées sur diverses entrées. Ainsi, même si nous disposions de statistiques d’utilisation, il serait difficile de déterminer le type de données généré le plus populaire. Cependant, compte tenu des besoins actuels des entreprises, les grands modèles de langage sont parmi les plus populaires.


Ces modèles peuvent traiter à la fois des informations textuelles et numériques et peuvent être utilisés pour des tâches telles que la réponse à des questions, la transformation de texte (traduction, vérification orthographique, enrichissement) et la génération de rapports. Cette fonctionnalité représente une partie importante des activités opérationnelles des entreprises de tous secteurs, contrairement à la génération d’images ou de vidéos, qui est moins courante.

Grands modèles de langage : de la génération de texte aux géants modernes

Les grands modèles de langage (LLM) sont d'énormes transformateurs, qui sont une sorte de modèle d'apprentissage profond ou, pour le dire simplement, des réseaux de neurones spécifiques. Généralement, les LLM comportent entre 8 et 70 milliards de paramètres et sont formés sur de grandes quantités de données. Par exemple, Crawl, l’un des plus grands ensembles de données, contient des pages Web et des informations de la dernière décennie, représentant des dizaines de pétaoctets de données.


Pour mettre les choses en perspective, l'ensemble de données du Titanic, qui comprend environ 900 échantillons décrivant quels passagers ont survécu au naufrage du Titanic, fait moins de 1 Mo, et le modèle qui peut prédire efficacement la probabilité de survie peut avoir environ 25 à 100 paramètres. .


Les LLM ont également une longue histoire et ils ne sont pas apparus soudainement. Par exemple, le département de science des données d'ELEKS a utilisé GPT-2 pour la génération de réponses en 2019, tandis que le premier modèle GPT (transformateur pré-entraîné génératif) a été publié en 2018. Cependant, même ce n'était pas la première apparition des modèles de génération de texte. . Avant le début de l'ère des transformateurs en 2017, des tâches telles que la génération de texte avaient été abordées en utilisant différentes approches, par exemple :


  • Réseaux adverses génératifs - une approche où le générateur s'entraîne sur la base des commentaires d'un autre réseau ou discriminateur,
  • Auto-encodeurs - une approche générale et bien connue où le modèle tente de reproduire l'entrée.


En 2013, des intégrations efficaces de mots vectoriels comme word2vec ont été proposées, et même plus tôt, au siècle précédent, il y avait des exemples de génération probabiliste et basée sur des modèles, comme le chatbot Eliza en 1964. Ainsi, comme nous pouvons le voir, le langage naturel Les tâches et tentatives de génération (NLG) existent depuis de nombreuses années.


La plupart des utilisateurs actuels de LLM, tels que ChatGPT, GPT, Gemini, Copilot, Claude, etc., l'ignorent probablement car les résultats n'étaient pas aussi prometteurs qu'après la première version d'InstructGPT, où OpenAI proposait un accès public, favorisant il. Suite à la première version de ChatGPT en novembre 2022, qui a reçu des millions de mentions sur les réseaux sociaux.

Le débat sur la réglementation de l’IA : équilibrer innovation et sécurité

De nos jours, la communauté de l’IA est divisée sur le thème des risques liés à l’IA et des besoins de conformité, certains plaidant en faveur d’une réglementation de l’IA et d’un contrôle de sécurité, tandis que d’autres s’y opposent. Parmi les critiques, il y a Yann LeCun, chef de Meta (Facebook) AI, qui a déclaré que ces agents d'IA ont une intelligence qui n'est même pas semblable à celle d'un chien.


Le groupe Meta AI (anciennement Facebook AI Research) est l'un des développeurs de modèles d'IA gratuits et accessibles au public tels que Detectron, Llama, SegmentAnything et ELF, qui peuvent être téléchargés et utilisés gratuitement avec seulement certaines limitations commerciales. Le libre accès a définitivement été accueilli favorablement par la communauté mondiale de l’IA.


Ces systèmes sont encore très limités ; ils n'ont aucune compréhension de la réalité sous-jacente du monde réel parce qu'ils sont uniquement formés sur le texte, une quantité massive de texte.


— Yann LeCun, scientifique en chef de l'IA chez Meta


Les préoccupations concernant la réglementation ont également été soulevées par les responsables. Par exemple, le président français Emmanuel Macron a averti qu’une législation européenne historique conçue pour lutter contre le développement de l’intelligence artificielle risquait de gêner les entreprises technologiques européennes par rapport à leurs rivales aux États-Unis, au Royaume-Uni et en Chine.


D’un autre côté, il existe des partisans de la réglementation de l’IA. Selon Elon Musk, PDG de Tesla, l’IA constitue l’un des plus grands risques pour l’avenir de la civilisation. C'est la même chose que les représentants non publics/payants de l'IA, mais ici, le véritable moteur d'une telle position peut être la concurrence sur le marché, afin de limiter la propagation des modèles d'IA concurrents.

Aperçu de la loi européenne sur l'intelligence artificielle

En 2023, le Parlement européen a adopté la loi sur l’IA, le premier ensemble de règles complètes régissant l’utilisation des technologies d’IA au sein de l’Union européenne. Cette législation crée un précédent en matière de développement et de mise en œuvre responsables et éthiques de l’IA.


Questions clés abordées par la loi de l’UE sur l’IA :

  • Premièrement, il existe des limites logiques aux données personnelles, comme déjà soulignées par différentes normes, comme le RGPD (UE), l'APPI (Japon), la HIPPA (États-Unis) et la PIPEDA (Canada), qui couvrent le traitement des données personnelles, l'identification biométrique, etc.


  • À cela s’ajoutent les systèmes de notation ou toute forme de catégorisation des personnes, où les biais du modèle peuvent avoir un impact significatif, conduisant potentiellement à la discrimination.


  • Enfin, il existe la manipulation comportementale, où certains modèles peuvent tenter d’augmenter n’importe quel KPI business (taux de conversion, surconsommation).

Préparation et utilisation du modèle d'IA : défis et préoccupations

Il existe de nombreux problèmes et préoccupations liés à la préparation, à l'utilisation et à d'autres activités cachées du modèle. Par exemple, les données utilisées pour la formation du modèle sont des données personnelles qui n'ont pas été autorisées à de telles fins. Les fournisseurs mondiaux proposent des services axés sur la correspondance privée (e-mails) ou d'autres actifs privés (photos, vidéo) qui peuvent être utilisés pour la formation du modèle en mode caché sans aucune annonce.


Une question a récemment été adressée au CTO d'OpenAI concernant l'utilisation de vidéos privées pour la formation SORA, un service OpenAI non public permettant de générer des vidéos basées sur des requêtes textuelles, mais elle n'a pas pu fournir de réponse claire.


Un autre problème peut être lié à l'étiquetage et au filtrage des données : nous ne connaissons pas les caractéristiques personnelles, les compétences, les stéréotypes et les connaissances des spécialistes impliqués, ce qui peut introduire des déclarations/contenus indésirables dans les données. Il y avait également un problème éthique : des informations circulaient selon lesquelles certains des fournisseurs mondiaux de GenAI faisaient appel à des étiqueteurs du Kenya et les sous-payaient.


Les biais de modèle et les hallucinations de modèle, dans lesquelles les modèles fournissent des réponses incorrectes ou partiellement incorrectes qui semblent parfaites, constituent également des problèmes. Récemment, l'équipe de science des données d'ELEKS a travaillé sur l'amélioration de la solution de génération augmentée de récupération (RAG) de nos clients, qui couvre l'affichage de certaines données pour le modèle, et le modèle résume ou fournit des réponses basées sur ces données.


Au cours du processus, notre équipe s'est rendu compte que de nombreux modèles modernes en ligne (plus grands mais payants) ou hors ligne (plus petits et publics) confondent les noms et les numéros d'entreprise.


  • Nous disposions de données contenant des états financiers et des informations d'audit pour quelques entreprises, et la demande visait à montrer les revenus de l'entreprise A. Cependant, les revenus de l'entreprise A n'étaient pas directement fournis dans les données et devaient être calculés. La plupart des modèles, y compris les leaders du benchmark LLM Arena, ont répondu avec le mauvais niveau de revenus appartenant à la société B. Cette erreur s'est produite en raison de combinaisons de caractères partiellement similaires dans les noms de sociétés telles que « Ltd », « Service », etc.


    Ici, même un apprentissage rapide n’a pas aidé ; l'ajout d'une déclaration telle que « si vous n'êtes pas sûr de vous ou si certaines informations sont manquantes, veuillez répondre : "Je ne sais pas » n'a pas résolu le problème.


  • Une autre chose concerne la représentation numérique : les LLM perçoivent les nombres comme des jetons, ou même de nombreux jetons, comme 0,33333 peuvent être codés en « 0,3 » et « 3333 » selon l'approche de codage par paire d'octets, il est donc difficile de gérer des valeurs numériques compliquées. transformations sans adaptateurs supplémentaires.


La récente nomination du général à la retraite de l'armée américaine Paul M. Nakasone au conseil d'administration d'OpenAI a suscité des réactions mitigées. D'une part, la vaste expérience de Nakasone en matière de cybersécurité et de renseignement est considérée comme un atout important, susceptible de mettre en œuvre des stratégies robustes de défense contre les cyberattaques, cruciales pour une entreprise engagée dans la recherche et le développement de l'IA.


D'un autre côté, des inquiétudes existent quant aux implications potentielles de la nomination de Nakasone en raison de son expérience militaire et du renseignement (ancien chef de la National Security Agency (NSA) et du US Cyber Command), qui pourrait conduire à une surveillance et une intervention accrues du gouvernement.


La crainte est que Nakasone puisse faciliter un accès plus étendu des agences gouvernementales aux données et services d'OpenAI. Ainsi, certains craignent que cette nomination puisse affecter à la fois l'utilisation du service, les données, les demandes des agences gouvernementales et les limites du service lui-même.


Enfin, il existe d'autres problèmes, tels que la vulnérabilité du code généré, les suggestions contradictoires, l'utilisation inappropriée (réussir des examens ou obtenir des instructions sur la façon de créer la bombe), et bien plus encore.

Comment améliorer l'utilisation des LLM pour des résultats plus robustes

Tout d’abord, il est crucial de déterminer si l’utilisation du LLM est nécessaire et si elle doit constituer un modèle fondamental général. Dans certains cas, l'objectif et la tâche décomposée ne sont pas si compliqués et peuvent être résolus par des modèles hors ligne plus simples tels que les fautes d'orthographe, la génération basée sur des modèles et l'analyse/récupération d'informations. De plus, le modèle général peut répondre à des questions non liées à l'objectif prévu de l'intégration LLM.


Il existe des exemples où l'entreprise a encouragé l'intégration LLM en ligne (par exemple, GPT, Gemini) sans aucun adaptateur supplémentaire (pré et post-processeurs) et a rencontré un comportement inattendu. Par exemple, l'utilisateur a demandé à un chatbot d'un concessionnaire automobile d'écrire le script Python pour résoudre l'équation d'écoulement des fluides de Navier-Stokes, et le chatbot a répondu : "Certainement ! Je vais le faire."


Vient ensuite la question de savoir quel LLM utiliser : public et hors ligne ou payant et hors ligne. La décision dépend de la complexité de la tâche et des possibilités informatiques. Les modèles en ligne et payants sont plus grands et offrent des performances plus élevées, tandis que les modèles hors ligne et publics nécessitent des dépenses d'hébergement importantes, nécessitant souvent au moins 40 Go de VRAM. Lorsque vous utilisez des modèles en ligne, il est essentiel d'avoir un contrôle strict des données sensibles partagées avec le fournisseur.


Généralement, pour de telles choses, nous construisons le module de prétraitement qui peut supprimer les informations personnelles ou sensibles, telles que les détails financiers ou les accords privés, sans modifier de manière significative la requête pour préserver le contexte, en laissant des informations telles que la taille de l'entreprise ou l'emplacement approximatif si nécessaire.


La première étape pour réduire les biais du modèle et éviter les hallucinations consiste à choisir les bonnes données ou le bon contexte ou à classer les candidats (par exemple pour RAG). Parfois, la représentation vectorielle et les mesures de similarité, telles que la similarité cosinusoïdale, peuvent ne pas être efficaces. En effet, de petites variations, comme la présence du mot « non » ou de légères différences dans les noms (par exemple Oracle vs Orache), peuvent avoir un impact significatif.


En ce qui concerne le post-traitement, nous pouvons demander au modèle de répondre « ne sait pas » si la confiance est faible et développer un adaptateur de vérification qui vérifie l'exactitude des réponses du modèle.

Tendances émergentes et orientations futures dans le domaine LLM

De nombreuses directions de recherche existent dans le domaine des LLM, et de nouveaux articles scientifiques paraissent chaque semaine. Ces articles couvrent une gamme de sujets, notamment l'optimisation des transformateurs/LLM, la robustesse, l'efficacité (comme comment généraliser les modèles sans augmenter significativement leur taille ou leur nombre de paramètres), les techniques d'optimisation typiques (comme la distillation) et les méthodes pour augmenter les entrées (contexte). longueur.


Parmi les différentes directions, les plus importantes au cours de la période récente comprennent le mélange de jetons, le mélange d'experts, le mélange de profondeur, le squelette de pensées, le RoPE et l'incitation à la chaîne de pensées. Décrivons brièvement ce que chacun de ces éléments signifie.


  1. Le mélange d'experts (MoE) est une architecture de transformateur différente. Il comporte généralement une couche dynamique composée de plusieurs (8 dans Mixtral) ou de nombreuses couches denses/aplaties représentant différentes connaissances. Cette architecture comprend des méthodes de commutation ou de routage, par exemple une fonction de contrôle qui permet de sélectionner quels jetons doivent être traités par quels experts, ce qui conduit à un nombre réduit de couches (« experts ») par jeton ou groupe de jetons à un seul expert (couche de commutation ).


    Cela permet une mise à l'échelle efficace du modèle et améliore les performances en utilisant différents sous-modèles (experts) pour les pièces d'entrée, ce qui le rend plus efficace que l'utilisation d'une couche générale encore plus grande.


  2. Le mélange de jetons est connecté au mélange d'experts mentionné, où nous regroupons les jetons en fonction de leur importance (activation softmax) pour un expert spécifique.


  3. La technique du mélange de profondeur est également liée aux MoE mentionnés, notamment en termes de routage. Il vise à diminuer le graphique de calcul (budget de calcul), en le limitant aux principaux jetons qui seront utilisés dans le mécanisme d'attention. Les jetons jugés moins importants (par exemple la ponctuation) pour la séquence spécifique sont ignorés. Cela se traduit par une participation dynamique des jetons, mais le nombre k (k premiers jetons) de jetons est statique, nous pouvons donc diminuer les tailles en fonction du budget de calcul (ou k, que nous avons choisi).


  4. Le squelette de pensées est efficace pour la mise à l'échelle LLM et permet la génération de parties de la complétion (réponse du modèle) en parallèle sur la base de la requête du squelette principal, qui consiste en des points pouvant être parallélisés.


  5. Il existe d'autres défis, par exemple la taille de l'entrée. Les utilisateurs souhaitent souvent fournir à un LLM de grandes quantités d'informations, parfois même des livres entiers, tout en gardant le nombre de paramètres inchangé. Voici deux méthodes connues ALiBi (Attention Layer with Linear Biases) et RoPE (Rotary Position Embedding) , qui peuvent extrapoler, ou éventuellement interpoler, l'intégration d'entrée en utilisant le codage de position dynamique et le facteur de mise à l'échelle, permettant aux utilisateurs d'augmenter la longueur du contexte en comparaison. auquel a été utilisé pour la formation.


  6. Le prompting Chain-of-thoughts , qui est un exemple de prompting en quelques étapes (l'utilisateur assure la supervision du LLM dans le contexte), vise à décomposer la question en plusieurs étapes. La plupart du temps, cela s'applique aux problèmes de raisonnement, par exemple lorsque vous pouvez diviser la logique en un plan de calcul. L'exemple du journal d'origine : "Roger a 5 balles de tennis. Il achète 2 boîtes supplémentaires de balles de tennis. Chaque boîte contient 3 balles de tennis. Combien de balles de tennis a-t-il maintenant ? Plan de réflexion : Roger a commencé avec 5 balles. 2 boîtes de 3 balles de tennis chacune équivaut à 6 balles de tennis 5 + 6 = 11. La réponse est 11. "


En plus de cela, il existe de nombreuses autres directions, et chaque semaine, plusieurs nouveaux articles importants paraissent autour d'elles. Parfois, il existe un problème supplémentaire pour les data scientists qui doivent suivre tous ces défis et réalisations.

Que peuvent attendre les utilisateurs finaux des derniers développements de l’IA ?

Il existe également de nombreuses tendances, pour résumer, il pourrait y avoir des réglementations plus strictes en matière d'IA, ce qui limiterait les différentes solutions et aboutirait finalement à une généralisation ou à une couverture de champ des modèles disponibles. D'autres tendances concernent principalement l'amélioration des approches existantes, par exemple la diminution du nombre de paramètres et de la mémoire nécessaire (par exemple la quantification ou même les LLM 1 bit – où chaque paramètre est ternaire (peut prendre des valeurs -1, 0, 1)).


Nous pouvons donc nous attendre à ce que des LLM ou Diffusion Transformers hors ligne (DiT – modèles de diffusion modernes et successeurs de Visual Transformers (principalement pour les tâches de génération d'images)) fonctionnent même sur nos téléphones (de nos jours, il existe plusieurs exemples, par exemple le modèle Phi-2 de Microsoft). avec la vitesse de génération est d'environ 3 à 10 jetons par seconde sur les appareils Android modernes basés sur Snapdragon).


En outre, il y aura une personnalisation plus avancée (utilisant toute l’expérience utilisateur et les commentaires précédents pour fournir des résultats plus adaptés), jusqu’aux jumeaux numériques. Beaucoup d'autres choses qui sont actuellement disponibles auront été améliorées – assistants/personnalisation des modèles et places de marché, un modèle pour tout (direction multimodale), la sécurité (un mécanisme plus efficace pour travailler avec les données personnelles, pour les encoder, etc.), et autres.


Prêt à libérer le potentiel de l’IA pour votre entreprise ? Contactez l'expert ELEKS .