paint-brush
Evaluación comparativa de los LLM: perspectivas de OpenBookQA y BoolQpor@anchoring
Nueva Historia

Evaluación comparativa de los LLM: perspectivas de OpenBookQA y BoolQ

por Anchoring2m2024/10/10
Read on Terminal Reader

Demasiado Largo; Para Leer

En esta sección, evaluamos los AnLLMs utilizando una variedad de puntos de referencia, incluidos OpenBookQA y BoolQ, para evaluar el rendimiento del modelo en tareas de razonamiento y comprensión. Medimos la precisión, la eficiencia de la memoria (reducción de cachés de claves/valores) y la aceleración de la inferencia. Los resultados muestran qué tan bien se desempeñan los AnLLMs en varios contextos, utilizando el método AnSAN para mejorar la eficiencia y la eficacia.
featured image - Evaluación comparativa de los LLM: perspectivas de OpenBookQA y BoolQ
Anchoring HackerNoon profile picture
0-item

Autores:

(1) Jianhui Pang, de la Universidad de Macao, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);

(2) Fanghua Ye, University College London, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);

(3) Derek F. Wong, Universidad de Macao;

(4) Longyue Wang, Tencent AI Lab y autor correspondiente.

Tabla de enlaces

Resumen y 1 Introducción

2 Trabajos relacionados

3 modelos de lenguaje grandes basados en anclas

3.1 Antecedentes

3.2 Redes de autoatención basadas en anclas

3.3 Inferencia basada en anclas

4 Experimentos y 4.1 Nuestra Implementación

4.2 Procedimiento de datos y entrenamiento

4.3 Evaluación

5 resultados

6 Análisis

7 Conclusión, limitaciones, declaración ética y referencias


Resultados más experimentales

B Configuración de datos

4.3 Evaluación

En nuestra investigación, empleamos una colección diversa de puntos de referencia con diferentes longitudes de texto para evaluar nuestros resultados, incluidos OpenBookQA (OBQA) (Mihaylov et al., 2018), WinoGrande (WG) (Sakaguchi et al., 2021), ARC-easy (ARC-e) y ARCchallenge (ARC-c) (Clark et al., 2018), PIQA (Bisk et al., 2020), HellaSwag (HS) (Zellers et al., 2019), SCIQ (Welbl et al., 2017) y BoolQ (Clark et al., 2019). Estos puntos de referencia proporcionan una evaluación integral de varios aspectos, incluido el razonamiento, la comprensión, la comprensión del mundo físico y la predicción de eventos futuros. Es importante destacar que cubren textos de distintas longitudes, lo que facilita una evaluación exhaustiva del rendimiento de nuestro modelo en diversas tareas y complejidades de texto, que van desde contextos de entrada más cortos en OBQA hasta textos más largos en BoolQ. Para medir la precisión y la eficiencia de nuestros modelos, los evaluamos en tres dimensiones utilizando tres métricas distintas para configuraciones de cero disparos y de cinco disparos. Para AnLLMAC en la configuración de cinco disparos, incorporamos el token de anclaje al final de cada demostración.


• Precisión (Acc). Esta métrica convencional se utiliza para medir la precisión de las predicciones de los modelos. De acuerdo con estudios previos (Gao et al., 2023), elegimos las opciones con las mayores probabilidades como predicciones y calculamos la precisión utilizando las etiquetas estándar.


• Reducción de cachés de claves y valores (C⇓). En el contexto de la evaluación de cinco disparos, las demostraciones se pueden almacenar en caché en la memoria de la GPU para su posterior reutilización. Sin embargo, las demostraciones extendidas pueden requerir un mayor consumo de memoria. Esta métrica está diseñada para evaluar la eficiencia de la memoria de la técnica AnSAN.


• Relación de aceleración de inferencia (T⇑). De manera similar a Wang et al. (2023), aprovechando las claves/valores almacenados en caché, presentamos la relación de aceleración de inferencia, que sirve como indicador de la eficiencia de inferencia de la técnica AnSAN.


Tenga en cuenta que primero informamos los resultados de inferencia de atención completa para todos los modelos, luego presentamos los resultados con el método AnSAN (+AnSAN) aplicado, comprimiendo la información de la secuencia en tokens de anclaje.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.