paint-brush
Gratter la surface de la singularité : le passé, le présent et l'avenir mystérieux des LLMpar@ivanilin
1,736 lectures
1,736 lectures

Gratter la surface de la singularité : le passé, le présent et l'avenir mystérieux des LLM

par Ivan Ilin14m2023/05/16
Read on Terminal Reader

Trop long; Pour lire

Il s'agit d'un essai avec quelques réflexions du week-end sur l'état actuel de la technologie d'apprentissage automatique, avec un accent particulier sur les LLM, c'est-à-dire l'IA. Ce n'est pas un rapport complet sur l'industrie et il n'était pas censé en être un, mais j'espère que ce serait une lecture intéressante à la fois pour les ingénieurs en apprentissage automatique et pour un public plus large intéressé par l'essor actuel de l'IA. Il y a trois parties dans l'histoire :
featured image - Gratter la surface de la singularité : le passé, le présent et l'avenir mystérieux des LLM
Ivan Ilin HackerNoon profile picture

Il s'agit d'un essai avec quelques réflexions du week-end sur l'état actuel de la technologie d'apprentissage automatique avec un accent particulier sur les LLM aka AI et notre point actuel dans l'histoire.


Avant de nous lancer dans cette passionnante singularité, j'aimerais mentionner qu'en tant qu'essai, il s'agit d'une écriture plus personnelle et moins formelle, partageant mon point de vue sur l'évolution de la compréhension du langage naturel et mettant en évidence certaines idées qui semblent importantes dans ce contexte. . Ce n'est pas un rapport complet sur l'industrie et il n'était pas censé en être un, mais j'espère que ce serait une lecture intéressante à la fois pour les ingénieurs en apprentissage automatique et pour un public plus large intéressé par l'essor actuel de l'IA.


Il y a trois parties dans l'histoire :


  • La partie historique nous rappelle brièvement comment nous sommes arrivés à notre état actuel d'AGI à partir d'un perceptron multicouche en seulement douze ans.


  • La section actuelle se concentre sur les dernières réalisations des LLM et les tendances actuelles de l'industrie. Si vous êtes plongé dans le contexte et que vous recherchez de nouvelles idées, passez à cette partie.


  • La partie mystère présente quelques idées sur ce qui pourrait suivre l'étape AGI actuelle.


L'histoire

Donc, tout d'abord, l'apprentissage automatique existe depuis un certain temps, environ une décennie ou duodécennal, selon que vous comptez sur la publication word2vec de Tomas Mikolov ou sur le cours d'apprentissage automatique d'Andrew Ng sur Coursera. Kaggle a été lancé en 2010 et Fei-Fei Li a rassemblé Imagenet en 2009. Il n'y a pas si longtemps, vous seriez probablement d'accord si vous avez plus de 30 ans.


Certaines personnes diraient que l'apprentissage automatique existe depuis bien plus longtemps, mais je parle maintenant de l'adoption par l'industrie d'algorithmes d'apprentissage en profondeur, c'est-à-dire de l'élan technologique, et non de la recherche pure. Et ici, nous ne touchons pas à des choses comme les algorithmes ML classiques couverts dans scikitlearn, tous les types de choses de régression, de regroupement et de prévision de séries chronologiques. Ils font silencieusement leur travail important mais les gens ne les appellent pas IA, pas de battage médiatique, vous savez.


Pourquoi ce printemps de l'IA s'est-il produit il y a 12 ans ? L'apprentissage en profondeur (formation d'un réseau de neurones à plusieurs couches avec rétropropagation des erreurs) est finalement devenu possible sur un GPU moyen. En 2010, l'architecture de réseau de neurones la plus simple, un perceptron multicouche, avait battu d'autres algorithmes de reconnaissance de chiffres manuscrits (célèbre jeu de données MNIST), un résultat obtenu par Juergen Schmidhuber et al.


Depuis ce moment vers 2010, la technologie est devenue de plus en plus robuste. Il y a eu quelques moments qui ont changé la donne - a déclaré la version du modèle word2vec qui a apporté une compréhension sémantique au monde du traitement du langage naturel (NLP), la publication publique des cadres d'apprentissage en profondeur Tensorflow et Keras un peu plus tard, et bien sûr, l'invention de Transformer en 2017, qui est toujours une architecture de réseau de neurones SOTA, s'étant étendue au-delà du monde de la PNL. Pourquoi donc? Parce que Transformer a de l'attention et est capable de gérer des séquences telles que des textes avec une complexité O(n2) qui est permise par l'approche de multiplication matricielle nous permettant de regarder l'ensemble de la séquence d'entrée. La deuxième raison du succès de Transformer est à mon avis l' architecture flexible d'encodeur-décodeur nous permettant d'entraîner et d'utiliser des modèles conjointement et séparément (séquence à séquence ou séquence à vecteur).


Les modèles de la famille OpenAI GPT (le Transformer Decoder) ont fait du bruit au-delà de l'industrie technologique puisque GPT-3 pouvait déjà produire des textes assez humains et était capable d'apprendre quelques coups et quelques coups zéro. La dernière partie est plus importante, l' article GPT-3 est même nommé "Les modèles de langage sont des apprenants peu nombreux" - cette capacité des grands modèles de langage à apprendre rapidement à partir d'exemples a été énoncée pour la première fois par OpenAI en 2020.


Mais bang !


La sortie de ChatGPT a suscité un battage médiatique que nous n'avions jamais vu auparavant, attirant finalement l'attention du public. Et maintenant, le GPT-4 va au-delà de cela.


Pourquoi donc? Au cours des 7 dernières années, depuis que les réseaux de neurones ont commencé à montrer des résultats décents, ce que nous appelons l'IA était en fait une intelligence artificielle étroite - nos modèles ont été formés pour résoudre un ensemble spécifique de tâches - reconnaître des objets, effectuer une classification ou prédire les jetons suivants dans la séquence. Et les gens n'ont fait que rêver de l' AGI - une intelligence générale artificielle, capable d'accomplir de multiples tâches à un niveau humain.


Aujourd'hui

Les capacités de raisonnement des LLM changent la donne

En fait, que s'est-il passé avec le réglage des LLM basé sur les instructions, ou, comme ils l'appellent dans OpenAI, l'apprentissage par renforcement à partir de la rétroaction humaine -
Les modèles GPT-3.5+ ont finalement appris la capacité de raisonner sur les informations fournies. Et cela change les choses - avant que les LLM ne soient plus proches d'un perroquet statistique raisonnablement bon, mais toujours très utiles pour de nombreuses applications telles que les incorporations de texte, la recherche de vecteurs, les chatbots, etc. Mais avec une formation basée sur des instructions, ils apprennent efficacement le raisonnement des humains .


Qu'est-ce que le raisonnement exactement ?


La capacité d'utiliser les informations fournies afin de tirer des conclusions à travers certaines opérations logiques. Disons que A est connecté à B et B est connecté à C, donc A est-il connecté à C ? GPT-4 propose un exemple de raisonnement beaucoup plus complexe sur leur page de produit officielle. La capacité de raisonnement du modèle est si forte et flexible qu'il peut produire une séquence structurée d'instructions ou d'opérations logiques à suivre pour atteindre un objectif donné en utilisant la "connaissance commune" ou le "bon sens" en cours de route, et pas seulement les informations fournies. dans l'invite.


Avant les LLM avec de telles capacités de raisonnement, l'autre outil bien conçu pour le raisonnement était un graphe de connaissances , avec des nœuds contenant des entités et des arêtes comme prédicats ou relations d'entités. Il s'agit d'une forme de stockage d'informations qui fournit des capacités de raisonnement explicites. À un moment donné, j'ai été impliqué dans la construction d'un système de questions-réponses qui utilisait entre autres un graphe de connaissances pour trouver l'information demandée — il fallait juste détecter l'intention, voir si nous avons ce genre de relations dans le graphe, vérifier les entités particulières mentionnées, et, si elles existaient, interroger ce sous-graphe. En fait, ce pipeline a fourni une traduction de la requête en langage naturel en une requête SPARQL.


Vous pouvez maintenant fournir ces informations factuelles au modèle en texte brut en tant que partie contextuelle de votre invite et il "l'apprendra" en zéro coup et pourra raisonner là-dessus. Waouh, non ?


Et vous n'êtes pas limité au nombre d'entités et de types de relations contenus dans le graphique. De plus, vous avez ce «bon sens», la compréhension générale des concepts de notre monde et de leurs relations, qui était la partie la plus délicate de la séparation des modèles d'apprentissage automatique de la cognition humaine. Nous n'avons même pas remarqué comment nous sommes devenus capables de donner des instructions en langage naturel et ils ont commencé à fonctionner correctement sans explications trop explicites.


Le raisonnement et la connaissance sont les deux composantes essentielles de l'intelligence. Au cours des 20 dernières années, nous avons mis à peu près toutes les connaissances humaines sur Internet sous la forme de Wikipédia, de publications scientifiques, de descriptions de services, de blogs, de milliards de lignes de code et de réponses Stackoverflow, et de milliards d'opinions dans les médias sociaux.
Maintenant, nous pouvons raisonner avec cette connaissance.



GPT-4 est l'AGI

Ces capacités de raisonnement sont bien démontrées dans le rapport technique officiel d'OpenAI sur GPT4 :


GPT-4 présente des performances de niveau humain sur la majorité de ces examens professionnels et académiques. Notamment, il réussit une version simulée de l'examen uniforme du barreau avec un score dans le top 10% des candidats.


Selon les résultats du GPT-4 sur un certain nombre de tests humains, nous sommes quelque part autour d'AGI - OpenAI utilise même ces mots sur leur page Web, et un article récent de Microsoft de plus de 150 pages avec une étude approfondie des capacités du GPT-4 sur différents Les domaines nommés "Sparks of Artificial General Intelligence: Early experiences with GPT-4" affirment soigneusement mais explicitement que l'AGI est là :


Compte tenu de l'étendue et de la profondeur des capacités de GPT-4, nous pensons qu'il pourrait raisonnablement être considéré comme une version précoce (mais encore incomplète) d'un système d'intelligence générale artificielle (AGI).


et ensuite:


La combinaison de la généralité des capacités de GPT-4, avec de nombreuses capacités couvrant un large éventail de domaines, et ses performances sur un large éventail de tâches au niveau humain ou au-delà, nous permet de dire que GPT-4 est une étape importante. envers AGI.


La raison de cette réclamation est :

Bien qu'il s'agisse purement d'un modèle de langage, cette première version de GPT-4 démontre des capacités remarquables dans une variété de domaines et de tâches, y compris l'abstraction, la compréhension, la vision, le codage, les mathématiques, la médecine, le droit, la compréhension des motivations et des émotions humaines, et plus.


Et pour le clouer :

Cependant, même dans un premier temps, GPT-4 remet en question un nombre considérable d'hypothèses largement répandues sur l'intelligence artificielle et présente des comportements et des capacités émergents dont les sources et les mécanismes sont, à l'heure actuelle, difficiles à discerner avec précision <…>. Notre objectif principal dans la rédaction de cet article est de partager notre exploration des capacités et des limites de GPT-4 à l'appui de notre évaluation selon laquelle un saut technologique a été réalisé. Nous pensons que l'intelligence de GPT-4 signale un véritable changement de paradigme dans le domaine de l'informatique et au-delà.



Je vous recommande vivement de consacrer du temps à cette étude, car derrière ces affirmations bruyantes, il y a une analyse très intéressante du fonctionnement de ces modèles et une comparaison approfondie des résultats de GPT-4 à ChatGPT sur une variété de tâches non triviales de différents domaines.


LLM plus recherche

Si nous avons besoin d'appliquer les capacités de raisonnement de LLM pour tirer des conclusions sur certaines informations spécifiques qui ne devraient pas être apprises par le modèle pendant la formation, nous pouvons utiliser n'importe quel type de mécanisme de recherche - récupération plus classement, peu importe si vous stockez vos données en tant que vecteurs intégrés dans certains index ANN comme Faiss ou dans un index de texte intégral à l'ancienne comme Elastic - puis alimentez ces résultats de recherche dans un LLM en tant que contexte, en les injectant dans une invite. C'est un peu ce que font les recherches Bing 2.0 et Bard (maintenant optimisées par PaLM2 ).


J'ai implémenté ce système de recherche + appel LLM avec une architecture DPR , où ChatGPT a remplacé le modèle Reader, et avec la recherche en texte intégral Elastic, dans les deux cas, la qualité globale du système dépend de la qualité des données que vous avez dans votre index - s'il est spécifique et complet, vous pouvez compter sur de meilleures réponses que celles fournies par ChatGPT vanille.


Certains ont même réussi à créer une bibliothèque de couteaux suisses autour de GPT, à l'appeler une base de données vectorielle et à faire un bon tour là-dessus - mon chapeau s'en va !
Mais en raison de l'interface textuelle des modèles GPT, vous pouvez construire n'importe quoi autour avec tous les outils que vous connaissez, aucun adaptateur n'est nécessaire.


Analyse du modèle

L'une des questions qui pourraient donner un indice sur les avancées futures des modèles est de savoir comment ces grands modèles apprennent réellement et où ces impressionnantes capacités de raisonnement sont stockées dans les poids des modèles .


Cette semaine, OpenAI a publié un article "Les modèles de langage peuvent expliquer les neurones dans les modèles de langage" et un projet open-source visant à répondre à ces questions en décollant les couches de LLM. La façon dont cela fonctionne - ils observent l'activité d'une partie du réseau neuronal du modèle fréquemment activée sur un domaine de connaissance, puis un modèle GPT-4 plus puissant écrit ses explications sur ce qu'est cette partie particulière ou un neurone du LLM étudié. responsable, puis ils essaient de prédire la sortie du LLM d'origine sur un certain nombre de séquences de texte pertinentes avec GPT-4, ce qui se traduit par l'attribution d'un score à chacune de ses explications.


Cependant, cette technique présente quelques inconvénients. D'abord, comme le précisent les auteurs, leur méthode n'a donné de bonnes explications qu'à 1000 neurones sur environ 300000 neurones étudiés.


Voici la citation du papier :

Cependant, nous avons constaté que les explications basées sur GPT-4 et les entrepreneurs humains obtiennent toujours de mauvais résultats en termes absolus. En examinant les neurones, nous avons également constaté que le neurone typique apparaissait assez polysémantique. Cela suggère que nous devrions changer ce que nous expliquons.


Le deuxième point est que cette technique ne fournit pas actuellement d'informations sur la manière dont le processus de formation pourrait être amélioré. Mais c'est un bon effort en termes d'étude d'interprétabilité du modèle.


Peut-être que si les neurones étudiés étaient unis dans certains clusters en fonction de leurs interdépendances et que ces clusters démontraient certains modèles de comportement qui pourraient être modifiés en raison de différentes procédures de formation, cela nous donnerait une certaine compréhension de la façon dont certaines capacités du modèle sont corrélées aux données de formation et politique de formation. D'une certaine manière, ce regroupement et cette différenciation pourraient ressembler à la segmentation du cerveau en différentes zones responsables de compétences particulières. Cela pourrait nous donner des idées sur la façon d'affiner efficacement un LLM afin qu'il acquière une nouvelle compétence particulière.


Agents

Une autre idée tendance est de créer un agent autonome avec un LLM en boucle - Twitter regorge d'expériences comme AutoGPT, AgentGPT, BabyAGI , et al. L'idée est de définir un objectif pour un tel agent et de lui fournir des outils externes tels que les API d'autres services afin qu'il puisse fournir le résultat souhaité via une boucle d'itérations ou de modèles de chaînage.


La semaine dernière, Huggingface a publié Agents dans sa célèbre bibliothèque Transformers pour :

"créez facilement des applications GenerativeAI et des agents autonomes à l'aide de LLM comme OpenAssistant, StarCoder, OpenAI, et plus encore". (c) Philippe Schmid


La bibliothèque fournit une interface pour chaîner des modèles et des API capables de répondre à des requêtes complexes en langage naturel et de supporter des données multimodales (texte, images, vidéo, audio). Dans ce cas, l'invite comprend la description de l'agent, un ensemble d'outils (principalement d'autres réseaux de neurones à cas étroit), quelques exemples et une tâche. Les agents faciliteraient l'utilisation du modèle pour les non-ingénieurs, mais constituent également un bon début pour construire un système plus complexe au-dessus des LLM. Et, en passant, voici l'API Natural Language, un type d'Internet différent de ce que vous connaissez.


BTW, Twitter devient vraiment fou ces jours-ci autour de l'IA, tout le monde construit quelque chose sur les modèles LLM et le montre au monde - je n'ai jamais vu autant d'enthousiasme dans l'industrie. Si vous voulez enquêter sur ce qui se passe, je vous recommande de commencer cette plongée dans le terrier du lapin avec le récent tweet d'Andrew Karpathy.


Coder les copilotes

Codex , qui alimente le copilote de Github, existe depuis un certain temps, et il y a quelques jours, en tant qu'abonné Colab Pro, j'ai reçu une lettre de Google, disant qu'ils le feraient en juin (citant la lettre)


commencer à ajouter progressivement des fonctionnalités de programmation IA à Colab Parmi les premiers à apparaître :

  • conseils sur une ou plusieurs lignes pour la saisie automatique du code ;
  • génération de code en langage naturel, qui vous permet d'envoyer des demandes de génération de code aux modèles Google et de les coller dans un bloc-notes.


Soit dit en passant, la semaine dernière, Google a annoncé la famille de modèles PaLM 2 , parmi lesquels Codey, le modèle spécialisé de Google pour le codage et le débogage, qui alimenterait probablement ces fonctionnalités annoncées.


Pour conclure cette section, j'aimerais dire que mon choix personnel de PNL plutôt que CV vers 2016 a été fait en raison du fait que la langue est le moyen universel et ultime de transfert d'informations . Nous pensons même avec les concepts de notre langue, de sorte que le système est suffisamment complexe pour nous définir et définir le monde qui nous entoure. Et cela apporte la possibilité de créer un système basé sur le langage avec des capacités de raisonnement et une conscience qui sont humaines ou même qui dépassent ce niveau. Nous venons d'effleurer la surface de ce véritable raisonnement il y a environ six mois. Imaginez où nous en sommes et ce qui va suivre .


Le mystère

Si, pour une raison quelconque, vous n'êtes pas familier avec Tim Urban, l'auteur du blog waitbutwhy , lisez son article sur AGI , daté de 2015 - découvrez à quoi cela ressemblait par le passé, il y a à peine 7 ans, quand il n'y avait AUCUN LLM et aucun Transformer modèles non plus. Je citerai ici quelques lignes de son billet, histoire de vous rappeler où nous en étions il y a 7 ans.


Créer une IA capable de battre n'importe quel humain aux échecs ? Fait. En faire un qui puisse lire un paragraphe du livre d'images d'un enfant de six ans et non seulement reconnaître les mots mais en comprendre le sens ? Google dépense actuellement des milliards de dollars pour essayer de le faire.


Mais après avoir atteint AGI, les choses commenceraient à bouger à un rythme beaucoup plus rapide, promet-il. Cela est dû à la loi des rendements accélérés formulée par Ray Kurzweil :


Ray Kurzweil appelle la loi des retours accélérés de l'histoire humaine. Cela se produit parce que les sociétés plus avancées ont la capacité de progresser à un rythme plus rapide que les sociétés moins avancées — parce qu'elles sont plus avancées.


En appliquant cette loi aux LLM actuels, il est facile d'aller plus loin et de dire que la capacité d'apprendre et de raisonner sur toutes les données enregistrées sur Internet amènerait cette mémoire surhumaine au raisonnement au niveau humain et bientôt les personnes les plus intelligentes autour seraient déjouées par le machine de la même manière que le champion d'échecs Kasparov a été battu par l'ordinateur Deep Blue en 1997.


Cela nous amènerait à la super intelligence artificielle (ASI) mais nous ne savons pas encore à quoi cela ressemble. Peut-être aurions-nous besoin d'une autre boucle de rétroaction pour l'entraîner, car l'apprentissage par rétroaction humaine GPT-4 fournit uniquement un raisonnement au niveau humain. Il est fort possible que les meilleurs modèles enseignent les plus faibles et ce serait un processus itératif. ** Juste spéculer - nous verrons.

La chose que Tim décrit vraiment dans la deuxième partie de son article sur AGI est qu'en raison de cette loi des retours accélérés, nous pourrions même ne pas remarquer le moment où nos systèmes dépassent AGI et que les choses seraient alors un peu hors de notre compréhension.


Pour l'instant, seul un petit pourcentage de personnes qui travaillent dans la technologie comprennent le rythme réel des progrès et l'étonnant potentiel de réglage des LLM basé sur les instructions. Geoffrey Hinton est l'un d'entre eux, parlant publiquement de risques tels que la pression du marché du travail, la production de faux contenus et l'utilisation malveillante. Ce que je trouve encore plus important, c'est qu'il souligne que les systèmes actuels capables d'apprendre sans coup férir des compétences complexes pourraient avoir un meilleur algorithme d'apprentissage que les humains .


Le problème avec les LLM modernes vient du fait que, bien qu'ils fournissent un énorme effet de levier dans de nombreuses tâches, les capacités de travailler avec ces modèles - pré-former, affiner, faire des incitations significatives ou les incorporer dans des produits numériques - est manifestement inégal au sein de la société, tant en termes de coûts de formation/d'utilisation que de compétences. Certaines personnes de la communauté Twitter ou huggingface diraient que nous avons maintenant des LLM open source tout à fait capables comme alternative à l'hégémonie OpenAI, mais ils suivent toujours la tendance et sont moins puissants, en plus ils nécessitent certaines compétences à gérer. Et bien que les modèles OpenAI soient un tel succès, Microsoft et Google investiraient encore plus dans cette recherche, pour essayer de les arrêter. Oh, Meta aussi, s'ils laissaient enfin le Metaverse partir.


L'une des compétences les plus demandées de nos jours est l'écriture de code - le génie logiciel a dominé la scène technologique et les salaires au cours des 20 dernières années. Avec l'état actuel des copilotes de codage, il semble qu'une bonne partie du code passe-partout serait bientôt soit généré, soit récupéré et adapté efficacement, ce qui aurait le même aspect pour un utilisateur, faisant gagner beaucoup de temps aux développeurs et prenant peut-être un peu de temps. possibilités d'emploi hors du marché.


Il y a une autre idée dans ce très bon article sur AGI et au-delà, il semble qu'AGI serait capable de s'améliorer de manière autonome . Pour l'instant, les LLM vanille ne sont toujours pas des agents autonomes et n'intègrent en aucun cas la volonté - les deux idées qui effraient les gens. Au cas où. Ne confondez pas le processus de formation du modèle impliquant l'apprentissage par renforcement avec la rétroaction humaine, où l'algorithme RL utilisé est l'optimisation de la politique proximale d'OpenAI, le modèle final n'étant qu'une partie du décodeur des séquences de jetons de prédiction du transformateur.


Vous avez probablement remarqué que quelques articles que j'ai cités ont été publiés la semaine dernière - je suis sûr que les semaines suivantes apporteront de nouvelles versions et idées que j'aurais aimé couvrir dans cet article, mais c'est le signe du temps.


Il semble que nous entrons rapidement dans la nouvelle ère du logiciel et que nous ayons fait quelques pas vers le point de singularité , car les innovations dans l'industrie de l'apprentissage automatique se produisent déjà à un rythme sans précédent - comme plusieurs par mois alors que l'année dernière, nous avons vu juste quelques grosses sorties. Appréciez la balade!


PS La prochaine explosion serait lorsque Musk nous connecterait aux LLM via Neuralink.

SPP . Pas un seul appel à l'API OpenAI n'a été effectué pour écrire ce texte. Je parie.