Autores:  (1) Jianhui Pang, de la Universidad de Macao, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab (nlp2ct.pangjh3@gmail.com);  (2) Fanghua Ye, University College London, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab (fanghua.ye.19@ucl.ac.uk);  (3) Derek F. Wong, Universidad de Macao;  (4) Longyue Wang, Tencent AI Lab y autor correspondiente.  Tabla de enlaces   Resumen y 1 Introducción   2 Trabajos relacionados  3 modelos de lenguaje grandes basados en anclas   3.1 Antecedentes   3.2 Redes de autoatención basadas en anclas   3.3 Inferencia basada en anclas   4 Experimentos y 4.1 Nuestra Implementación   4.2 Procedimiento de datos y entrenamiento   4.3 Evaluación   5 resultados   6 Análisis   7 Conclusión, limitaciones, declaración ética y referencias   Resultados más experimentales   B Configuración de datos  Abstracto  Los modelos de lenguaje grandes (LLM) emplean predominantemente arquitecturas de transformadores que solo utilizan decodificadores, lo que requiere la retención de información de claves/valores para tokens históricos para proporcionar información contextual y evitar cálculos redundantes. Sin embargo, el tamaño sustancial y el volumen de parámetros de estos LLM requieren una memoria GPU masiva. Esta demanda de memoria aumenta con la longitud del texto de entrada, lo que genera una necesidad urgente de métodos más eficientes de almacenamiento y procesamiento de información. Este estudio presenta los LLM basados en anclas (AnLLM), que utilizan una innovadora red de autoatención basada en anclas (AnSAN) y también una estrategia de inferencia basada en anclas. Este enfoque permite a los LLM comprimir la información de secuencia en un token de ancla, lo que reduce la caché de claves/valores y mejora la eficiencia de la inferencia. Los experimentos en puntos de referencia de respuesta a preguntas revelan que los AnLLM mantienen niveles de precisión similares al tiempo que logran una reducción de la caché de claves/valores de hasta el 99% y una inferencia hasta 3,5 veces más rápida. A pesar de un pequeño compromiso en la precisión, las mejoras sustanciales de los AnLLM que emplean la técnica AnSAN en la utilización de recursos y la eficiencia computacional subrayan su potencial para aplicaciones prácticas de LLM.  1 Introducción  Los modelos de lenguaje grande (LLM) utilizan principalmente arquitecturas de transformadores que solo utilizan decodificadores, lo que requiere almacenar en caché la información de claves/valores para tokens históricos durante la inferencia autorregresiva para proporcionar información contextual y evitar cálculos redundantes (Wei et al., 2022; Touvron et al., 2023a; OpenAI, 2023; Touvron et al., 2023b). Sin embargo, debido a su inmenso tamaño y al alto recuento de parámetros, se requiere una cantidad considerable de memoria de GPU para la carga. Además, como la longitud   A medida que aumenta la cantidad de texto de entrada, el almacenamiento de cachés de claves/valores requiere cada vez más memoria de GPU, como se evidencia en el aprendizaje en contexto, las instrucciones complejas y las conversaciones prolongadas (Dong et al., 2022; Jiang et al., 2023; Wang et al., 2023), lo que no es propicio para escenarios con recursos computacionales limitados. Un enfoque alternativo implica recalcular estas entradas extensas, lo que, sin embargo, da como resultado una mayor sobrecarga de tiempo. Por lo tanto, este estudio tiene como objetivo  reducir la demanda de almacenamiento de cachés de claves/valores durante la fase de inferencia de los LLM, mejorando la eficiencia de la memoria y, en consecuencia, acelerando también la velocidad de inferencia.  En un estudio reciente, Wang et al. (2023) demuestran que las palabras de etiqueta en demostraciones de prefijos pueden actuar como anclas durante la inferencia, lo que proporciona un enfoque de compresión de contexto eficaz para mejorar la eficiencia de la inferencia en el aprendizaje en contexto. Sin embargo, en aplicaciones prácticas, no todas las entradas o demostraciones de prefijos contienen palabras de etiqueta adecuadas para comprimir información, lo que hace que la dependencia de las palabras de etiqueta sea un enfoque menos universal para la compresión de información de texto. Además, Pang et al. (2024) observan que los LLM tienden a prestar atención solo a unos pocos tokens de prefijo, pero consistentes, durante la inferencia. Sin embargo, los tokens específicos utilizados son a menudo impredecibles e incontrolables. Estas observaciones plantean una pregunta intrigante: ¿los textos en lenguaje natural contienen puntos de anclaje que comprimen la información semántica general de las secuencias? En este contexto, estudios previos sobre incrustaciones de secuencias han demostrado que el estado oculto de un token especial en modelos de redes neuronales puede encapsular información semántica (Baudiš et al., 2016; Devlin et al., 2018). Además, los LLM contemporáneos suelen utilizar el mecanismo de autoatención causal durante las fases de entrenamiento e inferencia (Touvron et al., 2023a,b), prestando atención a cada token anterior. Esto sugiere que el token final de una secuencia puede ser más adecuado para servir como un punto de compresión de información natural en comparación con otros tokens, ya que no pueden observar tokens futuros. Por lo tanto, un enfoque metódico que identifique y explote los tokens de anclaje de secuencia de una manera confiable y controlable es esencial para comprimir la información de la secuencia, reducir eficazmente los cachés de claves/valores y mejorar la eficiencia de la inferencia para los LLM.  Para este fin, proponemos nuevos   de     basados en   (AnLLMs), equipados con una innovadora red de autoatención basada en anclas (AnSAN) y una estrategia de inferencia basada en anclas. La AnSAN está diseñada para obligar a los modelos a comprimir la información de la secuencia en el token de ancla (el último token en nuestra implementación) durante el proceso de entrenamiento, con la ayuda de máscaras de atención basadas en anclas. Durante la inferencia, la estrategia de inferencia basada en anclas retiene las cachés de claves/valores de los tokens de anclas, que han agregado toda la información de la secuencia, y descarta las de los tokens que no son de anclas, reduciendo así las demandas de memoria. Específicamente, las máscaras de atención basadas en anclas para AnSAN sirven para dos objetivos: 1) asegurar que los tokens de anclas atiendan exclusivamente a tokens dentro de la misma secuencia, evitando la atención a otras secuencias, y 2) dirigir la atención de los tokens que no son de anclas a anclas de secuencias anteriores, bloqueando los otros tokens que no son de anclas de secuencias anteriores. Cabe destacar que la técnica de atención basada en anclas guarda similitudes con los principios que sustentan la atención dispersa (Child et al., 2019). Sin embargo, a diferencia de la investigación existente que emplea la atención dispersa para extender la longitud del contexto de los LLM (Chen et al., 2023; Ratner et al., 2023), nuestro método se centra en entrenar previamente de forma continua el modelo para comprimir la información de la secuencia en el token de ancla. modelos lenguaje grande anclas  Este artículo está   bajo la licencia CC BY 4.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

Este audio es producido en el idioma original de la historia!

Modelos de lenguaje de gran tamaño basados en anclas

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

La fuga rápida del sistema Claude Sonnet 3.5: un análisis forense

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

La fuga rápida del sistema Claude Sonnet 3.5: un análisis forense

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Una guía del arquitecto para crear una arquitectura de referencia para un lago de datos de IA/ML

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps