Préparez-vous à un tremblement de terre IA ! Une équipe de chercheurs de l'UCLA ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) a abandonné certaines clés majeures de l'AGI. Il ne s’agit pas seulement du code d’une IA à consonance humaine sérieuse, mais ils ont également mis le tout en open source.
Vous pouvez désormais développer de meilleurs LLM sans avoir besoin de lui fournir des tonnes de nouvelles données annotées par l'homme.
Tout d’abord, concentrons-nous sur ce qui change la donne : un modèle de langage auto-apprenant.
Cette méthode permet à un modèle de langage de s'auto-apprendre, de s'améliorer sans cesse sans quantités massives de nouvelles données organisées en externe.
Je suis passé en mode approfondissement – j'ai lu leur article (« Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models »), j'ai parcouru les informations sur des forums comme HackerNews , X et Reddit avec Google Gemini Ultra et GPT-4. Turbo – et le concept de base de SPIN ont fait tomber mes chaussettes métaphoriques passionnées de technologie :
Imaginez commencer avec un modèle de langage qui maîtrise les compétences de base (disons l'étiquette conversationnelle). Avec SPIN, le modèle génère des « conversations » internes, créant un ensemble de données à partir de ce qu'il sait déjà.
Expansion instantanée des connaissances !
La deuxième étape consiste à lancer un nouveau modèle et à lui confier une seule tâche : repérer la différence entre les discussions générées par des machines et une véritable communication humaine. Cela oblige le modèle original à améliorer son jeu, devenant de plus en plus humain à chaque réponse pour éviter d'être détecté.
C'est ici que les choses deviennent intéressantes. Ils ont commencé avec zephyr-7b-sft-full (déjà affiné avec le corpus UltraChat ). SPIN a lancé un système de formation itératif avec ce modèle de base, l'améliorant de manière exponentielle sans s'appuyer sur des tonnes de nouvelles données créées en externe.
Nous pensons généralement que l’apprentissage automatique, en particulier pour ces énormes modèles de langage, nécessite des tonnes de données soigneusement organisées et étiquetées. Les méthodes d’optimisation directe des préférences (DPO) impliquent que les humains évaluent minutieusement les réponses de l’IA les unes par rapport aux autres pour l’entraînement. Non seulement cela demande beaucoup de main-d’œuvre, mais cela fait également gonfler les coûts à mesure que l’ensemble de données grandit.
L'optimisation directe des préférences (DTO) est une méthode de formation dans laquelle un modèle est affiné à l'aide d'un ensemble de données de préférences, impliquant souvent des jugements humains qui décident lesquelles des réponses générées par le modèle sont préférées. Cette méthode nécessite de collecter de nouvelles données où chaque pièce est étiquetée en fonction de ces préférences, ce qui peut nécessiter beaucoup de ressources.
En revanche, SPIN utilise l'auto-jeu itératif , réduisant considérablement le besoin de nouvelles données.
Dès la première itération, les performances de SPIN dépassent déjà celles du DPO dans la plupart des cas , soulignant son efficience et son efficacité dans l'exploitation des données existantes pour améliorer les performances du modèle.
SPIN montre sa force en atteignant des performances comparables avec des modèles formés sur des ensembles de données plus étendus . Le processus de formation itérative améliore méthodiquement les performances du modèle sur plusieurs itérations, présentant des améliorations substantielles , en particulier sur des benchmarks difficiles comme TruthfulQA et GSM8k.
Ainsi, SPIN surpasse les méthodes de formation conventionnelles, y compris le DPO, en exploitant efficacement les ensembles de données synthétiques générés via l'auto-jeu, sans avoir besoin de données supplémentaires annotées par l'homme.
SPIN lance une balle courbe avec sa dynamique de jeu personnel.
Considérez-le comme un modèle de langage s'affrontant dans un ring de boxe linguistique, chaque tour lui apprenant de nouveaux tours.
L'efficacité des données de SPIN évite le besoin de nouveaux ensembles de données annotés par l'homme.
Mais plus important encore, cela accélère la boucle d'amélioration , rendant le modèle de plus en plus apte à générer du texte de type humain .
Non seulement SPIN semble correspondre aux modèles formés sur des ensembles de données externes plus vastes, mais sa puissance itérative signifie des gains constants car il étudie essentiellement ses propres résultats.
Époustouflant, non ?
Le co-fondateur de Nous Research , @Teknium1, a raison. Ces grands modèles de langage ne deviennent pas plus intelligents gratuitement. Le recyclage itératif avec SPIN implique à chaque fois le processus coûteux de réglage fin supervisé (SFT).
Cependant, il mentionne également : « Je pense que ça vaut le coup ! ». En outre, les avantages à long terme d’une évolution plus rapide et d’une dépendance potentiellement moindre à l’égard des données annotées par l’homme l’emportent-ils sur l’investissement initial ? C'est la question passionnante !
Hier encore, Quanquan Gu , professeur agrégé d'informatique à l'UCLA et directeur de la recherche sur l'IA chez ByteDance, a annoncé que n'importe qui peut désormais utiliser le modèle et l'ensemble de données SPIN . Cela ne signifie pas seulement du code et des ensembles de données, mais aussi des modèles pré-entraînés pour lancer vos propres parcours d'IA.
SPIN reflète les processus de pensée humaine.
En générant un texte qui semble humain, SPIN fait allusion aux éléments fondamentaux du raisonnement que pourrait faire l’IA du futur. Vous savez à quel point certaines sorties LLM semblent robotiques, n'est-ce pas ? Eh bien, SPIN est différent. Cela reflète en fait la façon dont les humains pensent. La façon dont il écrit semble si naturelle, c'est comme un aperçu de la façon dont l'IA future pourrait être capable de raisonner par elle-même.
Il ne s’agit pas seulement de rendre les chatbots plus agréables.
Il s’agit de créer une sorte de pensée numérique qui fonctionne comme la nôtre. Ce type d’IA serait bien plus flexible et capable d’une réelle compréhension.
Bien que SPIN représente un grand pas en avant pour rendre les modèles linguistiques plus naturels, il est facile de s'enthousiasmer et de surestimer ce que cela signifie .
Le texte qu’elle produit est impressionnant (vous pouvez consulter la base de données), mais il est important de rappeler que l’IA n’a pas encore la capacité d’un véritable raisonnement indépendant.
Bien que SPIN ne soit pas une véritable AGI , la façon dont il imite l'écriture humaine démontre des progrès impressionnants dans la façon dont l'IA pourrait traiter et utiliser le langage à l'avenir.
Néanmoins, cela suggère des possibilités étonnantes quant à la façon dont l'IA et le langage pourraient se développer à l'avenir (si vous vous souvenez que nous sommes au début du bâton de hockey, l'avenir n'est pas loin d'aujourd'hui...)
Les effets d’entraînement seront énormes et voici votre pass d’accès :
Pour résumer, sa méthodologie itérative et auto-améliorée constitue une avancée significative vers la création d’un LLM capable de s’engager dans une communication véritablement humaine.
Partagé à l'origine sur mon compte X.