Autores:
(1) Jianhui Pang, de la Universidad de Macao, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);
(2) Fanghua Ye, University College London, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Universidad de Macao;
(4) Longyue Wang, Tencent AI Lab y autor correspondiente.
3 modelos de lenguaje grandes basados en anclas
3.2 Redes de autoatención basadas en anclas
3.3 Inferencia basada en anclas
4 Experimentos y 4.1 Nuestra Implementación
4.2 Procedimiento de datos y entrenamiento
7 Conclusión, limitaciones, declaración ética y referencias
En nuestra investigación, empleamos una colección diversa de puntos de referencia con diferentes longitudes de texto para evaluar nuestros resultados, incluidos OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) y ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) y BoolQ (Clark et al., 2019). Estos puntos de referencia proporcionan una evaluación integral de varios aspectos, incluido el razonamiento, la comprensión, la comprensión del mundo físico y la predicción de eventos futuros. Es importante destacar que cubren textos de distintas longitudes, lo que facilita una evaluación exhaustiva del rendimiento de nuestro modelo en diversas tareas y complejidades de texto, que van desde contextos de entrada más cortos en OBQA hasta textos más largos en BoolQ. Para medir la precisión y la eficiencia de nuestros modelos, los evaluamos en tres dimensiones utilizando tres métricas distintas para configuraciones de cero disparos y de cinco disparos. Para AnLLMAC en la configuración de cinco disparos, incorporamos el token de anclaje al final de cada demostración.
• Precisión (Acc). Esta métrica convencional se utiliza para medir la precisión de las predicciones de los modelos. De acuerdo con estudios previos (Gao et al., 2023), elegimos las opciones con las mayores probabilidades como predicciones y calculamos la precisión utilizando las etiquetas estándar.
• Reducción de cachés de claves y valores (C⇓). En el contexto de la evaluación de cinco disparos, las demostraciones se pueden almacenar en caché en la memoria de la GPU para su posterior reutilización. Sin embargo, las demostraciones extendidas pueden requerir un mayor consumo de memoria. Esta métrica está diseñada para evaluar la eficiencia de la memoria de la técnica AnSAN.
• Relación de aceleración de inferencia (T⇑). De manera similar a Wang et al. (2023), aprovechando las claves/valores almacenados en caché, presentamos la relación de aceleración de inferencia, que sirve como indicador de la eficiencia de inferencia de la técnica AnSAN.
Tenga en cuenta que primero informamos los resultados de inferencia de atención completa para todos los modelos, luego presentamos los resultados con el método AnSAN (+AnSAN) aplicado, comprimiendo la información de la secuencia en tokens de anclaje.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.