Préparez-vous à un tremblement de terre IA ! Une équipe de chercheurs de l'UCLA (   n,   ,   ,     ) a abandonné certaines clés majeures de l'AGI. Il ne s’agit pas seulement du code d’une IA à consonance humaine sérieuse, mais ils ont également mis le tout en open source. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu  Vous pouvez désormais développer de meilleurs LLM sans avoir besoin de lui fournir des tonnes de nouvelles données annotées par l'homme.   Tout d’abord, concentrons-nous sur ce qui change la donne : un modèle de langage auto-apprenant.  Cette méthode permet à un modèle de langage   de s'améliorer sans cesse sans quantités massives de nouvelles données organisées en externe. de s'auto-apprendre,  Présentation de SPIN : le réglage fin en libre-service convertit les modèles de langage faibles en modèles de langage forts  Je suis passé en mode approfondissement – j'ai lu leur article («   »), j'ai parcouru les informations sur des forums comme   ,   et   avec Google Gemini Ultra et GPT-4. Turbo – et le concept de base de SPIN ont fait tomber mes chaussettes métaphoriques passionnées de technologie : Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models HackerNews X Reddit  L'astuce du « partenaire de conversation »  Imaginez commencer avec un modèle de langage qui maîtrise les compétences de base (disons l'étiquette conversationnelle). Avec SPIN, le modèle   créant un ensemble de données à partir de ce qu'il sait déjà. génère des « conversations » internes,   Expansion instantanée des connaissances !  La deuxième étape consiste à lancer un nouveau modèle et à lui confier une seule tâche : repérer la différence entre   et une véritable communication humaine. Cela oblige le modèle original à améliorer son jeu, devenant de plus en plus   à chaque réponse pour éviter d'être détecté. les discussions générées par des machines humain  C'est ici que les choses deviennent intéressantes. Ils ont commencé avec   (déjà affiné avec   ). SPIN a lancé un système de formation itératif avec ce modèle de base, l'améliorant de manière exponentielle sans s'appuyer sur des tonnes de nouvelles données créées en externe. zephyr-7b-sft-full le corpus UltraChat  SPIN vs formation traditionnelle en IA (DPO) : un nouveau champion ?  Nous pensons généralement que l’apprentissage automatique, en particulier pour ces énormes modèles de langage, nécessite des tonnes de données soigneusement organisées et étiquetées. Les méthodes   impliquent que les humains évaluent minutieusement les réponses de l’IA les unes par rapport aux autres pour l’entraînement. Non seulement cela demande beaucoup de main-d’œuvre, mais cela fait également gonfler les coûts à mesure que l’ensemble de données grandit. d’optimisation directe des préférences (DPO)  L'optimisation directe des préférences (DTO) est une méthode de formation dans laquelle un modèle est affiné à l'aide d'un ensemble de données de préférences, impliquant souvent des jugements humains qui décident lesquelles des réponses générées par le modèle sont préférées. Cette méthode nécessite de collecter de nouvelles données où chaque pièce est étiquetée en fonction de ces préférences, ce qui peut nécessiter beaucoup de ressources.  En revanche, SPIN utilise   , réduisant considérablement le besoin de nouvelles données. l'auto-jeu itératif  Dès la première itération,   , soulignant son efficience et son efficacité dans l'exploitation des données existantes pour améliorer les performances du modèle.  les performances de SPIN dépassent déjà celles du DPO dans la plupart des cas  SPIN montre sa force en atteignant   . Le processus de   améliore méthodiquement les performances du modèle sur plusieurs itérations,   , en particulier sur des benchmarks difficiles comme TruthfulQA et GSM8k.  des performances comparables avec des modèles formés sur des ensembles de données plus étendus formation itérative présentant des améliorations substantielles  Ainsi, SPIN surpasse les méthodes de formation conventionnelles, y compris le DPO, en exploitant efficacement les ensembles de données synthétiques générés via l'auto-jeu, sans avoir besoin de données supplémentaires annotées par l'homme.  Quels sont les points forts et les coûts de SPIN ?  SPIN lance une balle courbe avec sa dynamique de jeu personnel.  Considérez-le comme un modèle de langage s'affrontant dans un ring de boxe linguistique, chaque tour lui apprenant de nouveaux tours.  L'efficacité des données de SPIN évite le besoin de nouveaux ensembles de données annotés par l'homme.  Mais plus important encore, cela   ,   . accélère la boucle d'amélioration rendant le modèle de plus en plus apte à générer du texte de type humain  Non seulement SPIN semble correspondre aux modèles formés sur des ensembles de données externes plus vastes, mais sa puissance itérative signifie des gains constants car il étudie essentiellement ses propres résultats.  Époustouflant, non ?  D'accord, parlons de l'éléphant dans la pièce – COÛT  Le co-fondateur de Nous Research   a raison. Ces grands modèles de langage ne deviennent pas plus intelligents gratuitement. Le recyclage itératif avec SPIN implique à chaque fois le processus coûteux de réglage fin supervisé (SFT). , @Teknium1,  Cependant, il mentionne également : « Je pense que ça vaut le coup ! ». En outre, les avantages à long terme d’une évolution plus rapide et d’une dépendance potentiellement moindre à l’égard des données annotées par l’homme l’emportent-ils sur l’investissement initial ? C'est la question passionnante !  BOOM! C'est l'heure de l'IA open source  Hier encore,   , professeur agrégé d'informatique à l'UCLA et directeur de la recherche sur l'IA chez ByteDance, a annoncé que   . Cela ne signifie pas seulement du code et des ensembles de données, mais aussi des modèles pré-entraînés pour lancer vos propres parcours d'IA. Quanquan Gu n'importe qui peut désormais utiliser le modèle et l'ensemble de données SPIN   SPIN reflète les processus de pensée humaine.  En générant un texte qui semble humain, SPIN fait allusion aux éléments fondamentaux du raisonnement que pourrait faire l’IA du futur. Vous savez à quel point certaines sorties LLM semblent robotiques, n'est-ce pas ? Eh bien, SPIN est différent. Cela reflète en fait la façon dont les humains pensent. La façon dont il écrit semble si naturelle, c'est comme un aperçu de la façon dont l'IA future pourrait être capable de raisonner par elle-même.  Il ne s’agit pas seulement de rendre les chatbots plus agréables.    Il s’agit de créer une sorte de pensée numérique qui fonctionne comme la nôtre. Ce type d’IA serait bien plus flexible et capable d’une réelle compréhension.  Bien que SPIN représente un grand pas en avant pour rendre les modèles linguistiques plus naturels,   . il est facile de s'enthousiasmer et de surestimer ce que cela signifie  Le texte qu’elle produit est impressionnant (vous pouvez consulter la base de données), mais il est important de rappeler que l’IA n’a pas encore la capacité d’un véritable raisonnement indépendant.  Bien que SPIN ne soit pas une véritable   , la façon dont il imite l'écriture humaine démontre des progrès impressionnants dans la façon dont l'IA pourrait traiter et utiliser le langage à l'avenir. AGI  Néanmoins, cela suggère des possibilités étonnantes quant à la façon dont l'IA et le langage pourraient se développer à l'avenir (si vous vous souvenez que nous sommes au début du bâton de hockey, l'avenir n'est pas loin d'aujourd'hui...)  Les effets d’entraînement seront énormes et voici votre pass d’accès :  Code : Disponible sur   :  GitHub https://github.com/uclaml/SPIN  Données : hébergé sur   , l'ensemble de données est facilement accessible pour ceux désireux d'appliquer les méthodologies SPIN :  Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…  Modèles : des modèles pré-entraînés sont également disponibles, offrant une longueur d'avance pour expérimenter des modèles de langage améliorés par SPIN :  https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…  Page du projet : pour des informations complètes et des informations complémentaires, la page du projet est une ressource inestimable :  https://uclaml.github.io/SPIN/  Pour résumer, sa méthodologie itérative et auto-améliorée constitue une avancée significative vers la création d’un LLM capable de s’engager dans une communication véritablement humaine.  Partagé à l'origine sur mon  compte X.

Let's connect and explore together!

Read My Stories

Cet audio est produit dans la langue originale de l'histoire !

Plan AGI ? SPIN open source des chercheurs de l'UCLA : un modèle linguistique auto-améliorable

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Télégramme : le pont de Crypto Island vers le continent

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Télégramme : le pont de Crypto Island vers le continent

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps