Auteurs:
(1) Jianhui Pang, de l'Université de Macao, et le travail a été réalisé lorsque Jianhui Pang et Fanghua Ye étaient stagiaires au Tencent AI Lab ([email protected]) ;
(2) Fanghua Ye, University College London, et le travail a été réalisé lorsque Jianhui Pang et Fanghua Ye étaient stagiaires au Tencent AI Lab ([email protected]) ;
(3) Derek F. Wong, Université de Macao ;
(4) Longyue Wang, Tencent AI Lab, et auteur correspondant.
3 grands modèles de langage basés sur l'ancrage
3.2 Réseaux d'auto-attention basés sur l'ancrage
3.3 Inférence basée sur l'ancre
4 Expériences et 4.1 Notre mise en œuvre
4.2 Données et procédure de formation
7 Conclusion, limites, déclaration d'éthique et références
Des résultats plus expérimentaux
Dans notre étude, nous utilisons une collection diversifiée de repères avec des longueurs de texte variables pour évaluer nos résultats, notamment OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) et ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) et BoolQ (Clark et al., 2019). Ces repères fournissent une évaluation complète de divers aspects, notamment le raisonnement, la compréhension, la compréhension du monde physique et la prédiction d'événements futurs. Il est important de noter qu'ils couvrent des textes de longueurs variées, ce qui facilite une évaluation approfondie des performances de notre modèle dans diverses tâches et complexités de texte, allant des contextes d'entrée plus courts dans OBQA aux textes plus longs dans BoolQ. Pour mesurer la précision et l'efficacité de nos modèles, nous les évaluons sur trois dimensions à l'aide de trois mesures distinctes pour les paramètres zéro-shot et cinq-shot. Pour AnLLMAC dans le cadre de cinq-shot, nous incorporons le jeton d'ancrage à la fin de chaque démonstration.
• Précision (Acc). Cette mesure conventionnelle est utilisée pour évaluer la précision de prédiction des modèles. Conformément aux études précédentes (Gao et al., 2023), nous choisissons les options avec les probabilités les plus élevées comme prédictions et calculons la précision en utilisant les étiquettes de référence.
• Réduction des caches clés/valeurs (C⇓). Dans le cadre de l'évaluation en cinq étapes, les démonstrations peuvent être mises en cache dans la mémoire du GPU pour une réutilisation ultérieure. Néanmoins, les démonstrations étendues peuvent nécessiter une consommation de mémoire accrue. Cette mesure est conçue pour évaluer l'efficacité de la mémoire de la technique AnSAN.
• Taux d'accélération d'inférence (T⇑). Comme Wang et al. (2023), en capitalisant sur les clés/valeurs mises en cache, nous présentons le taux d'accélération d'inférence, qui sert d'indicateur de l'efficacité d'inférence de la technique AnSAN.
Notez que nous rapportons d’abord les résultats d’inférence d’attention complète pour tous les modèles, puis présentons les résultats avec la méthode AnSAN (+AnSAN) appliquée, en compressant les informations de séquence dans des jetons d’ancrage.
Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.