paint-brush
Le potentiel révolutionnaire des modèles de langage 1 bit (LLM)par@thebojda
6,864 lectures
6,864 lectures

Le potentiel révolutionnaire des modèles de langage 1 bit (LLM)

par Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

Trop long; Pour lire

Les LLM 1 bit constituent un moyen potentiel de créer des réseaux neuronaux beaucoup plus efficaces, plus plausibles sur le plan biologique et fonctionnant plus efficacement sur du matériel spécialisé. Étudier l’efficacité avec laquelle les réseaux 1 bit peuvent être formés avec des méthodes sans gradient pourrait être un sujet de recherche très intéressant.
featured image - Le potentiel révolutionnaire des modèles de langage 1 bit (LLM)
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Quiconque s'intéresse à l'évolution de la technologie de l'intelligence artificielle sait que les solutions actuelles concernent uniquement les grands modèles linguistiques (LLM) et les transformateurs . En un mot, les LLM sont des réseaux de neurones capables de prédire le prochain jeton en fonction des jetons d'entrée. Généralement, ces jetons sont des mots (ce n'est pas tout à fait exact, mais c'est plus facile à conceptualiser de cette façon), et la sortie du réseau est également un mot. C'est ainsi que fonctionne ChatGPT. Vous saisissez une question et le réseau génère un mot. Ensuite, la question et le mot deviennent ensemble l’entrée du réseau, générant un autre mot, et ainsi de suite, jusqu’à ce qu’une réponse complète soit formée.


Cependant, les jetons peuvent être plus que de simples mots. Les modèles de langage avancés comme GPT-4 ou Gemini sont désormais multimodaux, ce qui signifie que leur saisie peut inclure des images et des mots. Tout comme une phrase peut être décomposée en mots, une image peut être divisée en petits morceaux, et à partir de là, la même architecture de transformateur peut les traiter. Par exemple, il peut être demandé à un réseau multimodal de décrire le contenu d’une image ou de coder l’interface utilisateur vue dans l’image.

source : https://production-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Cette architecture est encore plus générale. Le système Gato de DeepMind est un excellent exemple, où un seul réseau de transformateurs peut simultanément répondre à des questions, jouer à des jeux vidéo ou contrôler un robot, et les robots ont même été contrôlés à l'aide de ChatGPT . Puisqu'un LLM fonctionne avec des jetons et que n'importe quelle tâche peut être tokenisée, un LLM fournit une solution universelle pour n'importe quelle tâche.


source : https://deepmind.google/discover/blog/a-generalist-agent/



L'une des actualités technologiques les plus médiatisées récemment concerne le développement par la société Groq d'un ASIC (Application-Specific Integrated Circuit) capable d'exécuter des LLM beaucoup plus efficacement et avec moins d'énergie que les GPU traditionnels. Cela montre clairement que l'architecture LLM est devenue si fondamentale qu'il vaut désormais la peine de créer du matériel spécialisé pour celle-ci.


Récemment également, une publication intitulée « L'ère des LLM 1 bit : tous les grands modèles de langage sont en 1,58 bits » a fait son apparition. La quantification des réseaux de neurones est une méthode courante pour réduire la taille et la demande de calcul. L'essence de la solution consiste à effectuer la formation sur de grands clusters GPU à l'aide de nombres à virgule flottante, puis à convertir les poids du réseau fini dans un format moins précis, ce qui permet aux processeurs des appareils des utilisateurs de travailler plus efficacement. Par exemple, la formation est effectuée avec des nombres à virgule flottante de 16 ou 32 bits, qui sont ensuite convertis en nombres à virgule fixe de 8 ou 4 bits pour des opérations rapides côté client. De cette façon, le modèle peut bien fonctionner même sur des appareils mobiles ou IoT. Une forme extrême de cette quantification consiste à convertir les poids en nombres à 1 bit. Cela peut être une conversion binaire complète , ou comme le suggère la publication, en utilisant les valeurs {-1,0,1} (d'où les 1,58 bits). On pourrait penser qu’une quantification aussi extrême rendrait le réseau totalement inutilisable, mais en réalité, c’est le contraire ; ces réseaux 1 bit fonctionnent exceptionnellement bien.


Pourquoi est-ce une grosse affaire?

Si ces trois valeurs suffisent à représenter les poids, alors la multiplication, qui est actuellement l'opération la plus utilisée dans les réseaux de neurones, n'est plus nécessaire. C'est pourquoi les clusters GPU sont utilisés pour les réseaux de neurones, car les GPU peuvent effectuer des multiplications très efficacement. Sans avoir besoin de multiplications, il n'y a pas besoin de GPU, et les modèles peuvent être exécutés efficacement même sur des CPU, ou il est possible de construire du matériel spécialisé (ASIC) capable (même de manière analogique) d'exécuter ces réseaux 1 bit.


Actuellement, la quantification est une opération post-formation. Ainsi, l'utilisation de réseaux 1 bit n'accélère pas le processus de formation. Néanmoins, ils restent utiles car la formation est une opération ponctuelle, mais le réseau neuronal est ensuite exécuté d’innombrables fois. Par conséquent, l’exploitation des réseaux représente une consommation d’énergie nettement supérieure à celle de la formation. Nous pourrions donc bénéficier de cette technologie même dans le cadre de la formation.


Étant donné que la formation basée sur le gradient ne fonctionne pas avec les réseaux 1 bit ou binarisés, les technologies non basées sur le gradient deviennent pertinentes (vérifiez nevergrad et PyGAD ), comme les algorithmes génétiques ou d'autres technologies sans gradient. Bien que dans la plupart des cas, la rétropropagation soit beaucoup plus efficace que les solutions sans gradient, les réseaux 1 bit peuvent être exécutés beaucoup plus efficacement que leurs homologues à virgule flottante. Il se pourrait donc qu'avec la rétropropagation, nous trouvions le réseau optimal 10 fois plus rapidement en utilisant des nombres à virgule flottante qu'avec, par exemple, des algorithmes génétiques. Mais si le réseau 1 bit fonctionne 20 fois plus vite, la formation sera toujours deux fois plus rapide grâce aux algorithmes génétiques. Étudier l’efficacité avec laquelle les réseaux 1 bit peuvent être formés avec des méthodes sans gradient pourrait être un sujet de recherche très intéressant.


Une autre raison pour laquelle ce sujet est si fascinant est que ces réseaux ressemblent davantage aux réseaux neuronaux trouvés dans le cerveau naturel (biologiquement plausible). Par conséquent, je pense qu’en choisissant un bon algorithme d’entraînement sans gradient et en appliquant ces réseaux 1 bit, nous pouvons construire des systèmes beaucoup plus similaires au cerveau humain. De plus, cela ouvre la possibilité de solutions technologiques au-delà des ASIC qui n'étaient auparavant pas réalisables, telles que des processeurs analogiques, basés sur la lumière ou même biologiques.


Il est possible que cette orientation se révèle être une impasse à long terme, mais pour l'instant, son potentiel révolutionnaire est évident, ce qui en fait une voie de recherche très prometteuse pour toute personne impliquée dans le domaine de l'intelligence artificielle.