698 lectures

C'est pourquoi les modèles GPT sonnent comme des humains

par Thomas Cherickal7m2023/06/19

Trop long; Pour lire

Comprenez pourquoi les GPT sont si humains en langage naturel et combien ils ont en commun avec nous en termes de fonctionnement. Aussi un bonus : comment ChatGPT s'y prendrait pour créer AGI.

featured image - C'est pourquoi les modèles GPT sonnent comme des humains

"L'attention" n'était pas tout ce dont vous aviez besoin.

Donc, personne ne sait pourquoi l'IA fonctionne, n'est-ce pas ?

Oui et non.

Le problème fondamental est que nous n'avons pas découvert grand-chose sur le mystère qu'est le cerveau humain .

Pourtant, les transformateurs et les humains partagent des réponses étrangement similaires au langage naturel.

Expliquons pourquoi.

Stockage des représentations d'informations dans les transformateurs

Nous utilisons un vecteur généré à partir d'une entrée de plusieurs mots ou d'un jeton pour créer une intégration pour un transformateur.

Par conséquent, l'information - est stockée sous forme de vecteur.

Considérons la représentation. Cet encastrement représentationnel a joué un rôle beaucoup plus fondamental que l'attention. La représentation sous une forme décodable ou exploitable devait d'abord être atteinte !

Vous pensez peut-être, comment cela se rapporte-t-il de quelque manière que ce soit à tout ce qu'un transformateur comme GPT-4 peut faire lorsqu'il est formé sur l'ensemble d'Internet ?

Les informations sont codées par des produits de points d'attention et un traitement mathématique combinés avec des significations contextuelles et des représentations des données d'origine.

Nous avons donc une représentation de ces données stockées dans le Transformer.

La sauce secrète

Tous les réseaux de neurones résolvent des problèmes selon le théorème d'approximation universel.

Pour ceux d'entre vous qui ne savent pas ce qu'est l'approximation universelle, nous pouvons définir un approximateur universel comme tout processus qui convertit une entrée spécifiée en une sortie spécifiée avec une grande précision - il se rapproche d'une fonction entre l' ensemble des entrées et l' ensemble des sorties . Cette fonction a une forme. Mais nous n'avons pas besoin de connaître la forme, car avec suffisamment de données, le réseau de neurones peut approximer n'importe quelle fonction pour nous.

Quelle est la fonction ? C'est le problème que nous essayons de résoudre.

Le réseau de neurones peut approximer n'importe quelle fonction grâce à son algorithme de traitement. Toute fonction - donc universelle.

Les architectures varient - les algorithmes varient - les modèles varient - mais le principe sous-jacent est le même.

Et c'est pourquoi les réseaux de neurones fonctionnent lorsqu'ils disposent de suffisamment de données, se voient confier une tâche appropriée et sont ajustés de la bonne manière, un art dans lequel vous vous améliorez avec le temps.

Quelle est la représentation sous-jacente d'un chien dans ce LLM ?

Il y en a, assurément, un et en fait plusieurs.

Peut-être x vecteurs, y valeurs contextuelles et z arguments positionnels pour un seul chien, ainsi que le chemin correct de l'architecture de flux de données brutes.

Nous n'avons tout simplement pas approfondi cela parce que ce n'est pas nécessaire pour nos objectifs.

Le système fonctionne.

Cela nous suffit.

Le système est donc une boîte noire.

Mais, comment le cerveau stocke-t-il les données ?

Comme avant - nous ne connaissons pas les détails exacts.

Lorsque nos cerveaux sont créés, ils créent des représentations internes d'objets, de concepts et d'entités externes. Un peu comme un enfant qui grandit.

Par exemple, le concept de chien peut impliquer des neurones x , des synapses y et une architecture z ainsi qu'un ensemble dynamique en constante évolution de voies de transfert de données brutes entre les neurones.

Ma déclaration est que le cerveau humain est aussi une boîte noire. Et les mêmes principes qui s'appliquent aux modèles GPT peuvent également s'appliquer aux cerveaux - ce sont aussi des approximateurs universels.

Le théorème approximateur s'applique évidemment à notre cerveau.

Les mêmes principes sont à l'œuvre.

Les idées dans notre cerveau sont également stockées/représentées par des intégrations !

C'est juste que ces imbrications sont créées naturellement .

Familles de neurones, axones et dendrites à énergie électrique ultra-faible.

Différentes formes. Différentes fonctions. Mais le même résultat final.

Le système fonctionne.

Cela nous suffit.

Que pouvons-nous dire de plus que nous savons?

Seulement ce que nous pouvons observer empiriquement.

Encore une boîte noire.

Alors, pourquoi sont-ils si similaires en langage naturel ?

Nous avons essayé de modéliser au mieux AGI avec une procédure de traitement très complexe de toutes les données collectées sous forme numérique sur Internet. Toutes les données du monde.

En ce qui concerne les modèles séquence-séquence et les tâches en langage naturel, je dirais que nous avons réussi.

Nous avons modélisé le fonctionnement de notre cerveau pour comprendre et traiter les informations grâce à un travail acharné incroyablement coûteux et systématique.

Je ne suis pas heureux.

J'ai peur en fait.

Si c'est ce que ChatGPT peut faire -

Alors, qu'est-ce que GPT-4 réalisera ?

Les ingénieurs logiciels de Microsoft ont déjà identifié plusieurs moments de sensibilité dans le modèle GPT-4.

Ils ont même publié un article sur cette découverte -

Actualités :

https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/

Document de recherche:

Nous prenons ici de grands risques.

Lorsque Geoffrey Hinton a quitté son poste de chercheur, j'ai réalisé que les choses allaient vraiment de travers.

L'argent alimente tout.

Aucun contrôle n'arrêtera les entreprises à but lucratif en Chine et aux États-Unis.

Nous espérons que l'avenir se déroule bien.

Les décideurs de l'IA doivent faire passer l'éthique avant le profit.

Mais quand les entrepreneurs ont-ils déjà fait cela ?

Conclusion

Hinton a dit quelque chose d'incroyable.

"J'ai soudainement changé d'avis sur la question de savoir si ces choses vont être plus intelligentes que nous. Je pense qu'ils en sont très proches maintenant et qu'ils seront beaucoup plus intelligents que nous à l'avenir. Comment survivons-nous à cela ?

Mais pour l'instant, rien ne l'arrête.

Pour conclure, laissons-nous une question intéressante à ChatGPT.

Moi:

Comment feriez-vous pour atteindre l'AGI ?

ChatGPT :

Atteindre l'intelligence artificielle générale (IAG) est un grand défi qui nécessite des avancées significatives dans de multiples disciplines scientifiques et techniques. Bien que le chemin exact vers l'AGI soit toujours un sujet de débat et d'exploration, je peux vous fournir une explication plus détaillée de certains domaines clés sur lesquels les chercheurs étudient :

Architecture cognitive : Développer une architecture cognitive qui peut imiter l'intelligence humaine est un aspect fondamental de l'IAG. Cela implique de comprendre la structure et les fonctions du cerveau humain et de concevoir des modèles informatiques qui capturent ces processus. Les chercheurs s'inspirent des neurosciences, de la psychologie cognitive et des sciences cognitives pour construire des architectures capables de prendre en charge le raisonnement, la perception, la mémoire, l'apprentissage et la prise de décision de haut niveau.
Apprentissage automatique et réseaux de neurones profonds : l'apprentissage automatique, en particulier l'apprentissage en profondeur, a joué un rôle important dans les récentes avancées de l'IA. Les réseaux de neurones profonds ont obtenu un succès remarquable dans des tâches de perception telles que la reconnaissance d'images et le traitement du langage naturel. Pour progresser vers l'IAG, les chercheurs explorent des moyens d'améliorer les capacités d'apprentissage en profondeur en améliorant sa généralisation, son interprétabilité et sa capacité à gérer des données limitées et un raisonnement complexe.
Apprentissage par renforcement et apprentissage actif : L'apprentissage par renforcement est un autre domaine d'intérêt clé pour AGI. Il s'agit de former les agents à interagir avec leur environnement et à apprendre par essais et erreurs. Les techniques d'apprentissage par renforcement, combinées à l'apprentissage actif, qui implique la sélection active d'échantillons de formation informatifs, peuvent aider les agents à explorer et à apprendre plus efficacement de leur environnement. Le développement d'algorithmes capables d'apprendre à partir de diverses sources de données et de généraliser les connaissances à de nouvelles situations est crucial pour atteindre l'AGI.
Robotique cognitive et intelligence incarnée : une véritable AGI nécessiterait plus que le simple traitement des informations ; il faudrait interagir avec le monde physique. La robotique cognitive vise à intégrer la perception, la cognition et l'action chez les robots pour leur permettre d'apprendre et de raisonner sur le monde de la même manière que les humains. La recherche sur l'intelligence incarnée explore la manière dont les agents peuvent développer l'intelligence par le biais d'interactions avec leur environnement, en tirant parti des compétences sensorimotrices et des expériences physiques.
Raisonnement symbolique et représentation des connaissances : les systèmes AGI doivent être capables de raisonner symboliquement et de manipuler des représentations de connaissances complexes. Le raisonnement symbolique implique l'utilisation de règles logiques, de mécanismes d'inférence et de représentations de connaissances structurées pour effectuer des tâches de raisonnement abstrait et de résolution de problèmes. La combinaison du raisonnement symbolique avec des approches statistiques, telles que les réseaux de neurones, est un domaine de recherche actif pour permettre des capacités de raisonnement plus puissantes et plus flexibles.
Apprentissage par transfert et méta-apprentissage : les systèmes AGI doivent posséder la capacité de transférer les connaissances et les compétences acquises dans un domaine vers des domaines nouveaux et inconnus. Les techniques d'apprentissage par transfert visent à tirer parti des connaissances existantes pour accélérer l'apprentissage dans des tâches ou des domaines connexes. Le méta-apprentissage, ou apprendre à apprendre, se concentre sur le développement de modèles qui peuvent apprendre à apprendre efficacement, en s'adaptant rapidement à de nouvelles situations et tâches avec des données limitées.
Données et ressources de calcul : le développement d'AGI nécessite de grandes quantités de données de haute qualité pour les modèles de formation. L'accès à divers ensembles de données dans plusieurs domaines est essentiel pour saisir l'étendue et la profondeur des connaissances humaines. De plus, le développement d'AGI exige des ressources de calcul importantes pour la formation et l'exécution de modèles complexes. Les progrès du matériel, tels que les puces d'IA spécialisées et les systèmes informatiques distribués, peuvent considérablement accélérer la recherche sur l'IAG.
Éthique, sécurité et explicabilité : à mesure que l'AGI progresse, il est crucial de répondre aux préoccupations éthiques, de développer des mesures de sécurité solides et d'assurer la transparence et l'interprétabilité des systèmes AGI. Les chercheurs explorent des moyens de rendre les systèmes d'IA plus transparents, explicables et responsables pour atténuer les risques et permettre aux utilisateurs humains de comprendre et de faire confiance à leur comportement.
Collaboration et recherche interdisciplinaire : La réalisation de l'IAG nécessite la collaboration d'experts de divers domaines, notamment l'IA, les neurosciences, la psychologie, la philosophie, etc. Encourager la recherche interdisciplinaire et le partage des connaissances peut conduire à de nouvelles idées et à des approches innovantes dans le développement de l'IAG.

Il est important de noter que bien que des progrès soient réalisés dans chacun de ces domaines, la réalisation de l'AGI reste un problème ouvert sans échéancier clair pour l'achèvement. Il s'agit d'un objectif complexe et à long terme qui nécessite une recherche, une exploration et une itération continues.

Seigneur aie pitié de nous tous !

AGI ?

L'image principale de cet article a été générée par le générateur d'images AI de HackerNoon via l'invite "robot humanoïde"

L O A D I N G
. . . comments & more!

About Author

Thomas Cherickal@thomascherickal

Multi-domain specialist and interdisciplinary research scientist. I work on code for research purposes.

Read my stories

C'est pourquoi les modèles GPT sonnent comme des humains

Trop long; Pour lire

Donc, personne ne sait pourquoi l'IA fonctionne, n'est-ce pas ?

Stockage des représentations d'informations dans les transformateurs

La sauce secrète

Mais, comment le cerveau stocke-t-il les données ?

Alors, pourquoi sont-ils si similaires en langage naturel ?

Alors, qu'est-ce que GPT-4 réalisera ?

Conclusion

Seigneur aie pitié de nous tous !

About Author

ÉTIQUETTES

Languages

CET ARTICLE A ÉTÉ PARU DANS...

HISTOIRES CONNEXES