paint-brush
Estado de LLM en 2023: un resumen rápido de los últimos avancesby@vndee
611
611

Estado de LLM en 2023: un resumen rápido de los últimos avances

Duy Huynh8m2024/01/26
Read on Terminal Reader

El año 2023 marcó un período de importante crecimiento e innovación en el campo de los grandes modelos lingüísticos (LLM).
featured image - Estado de LLM en 2023: un resumen rápido de los últimos avances
Duy Huynh HackerNoon profile picture
0-item

Bien, ha pasado más de un año desde que se lanzó ChatGPT. Antes de este punto de inflexión, la comunidad investigadora y los líderes de la industria ya estaban trabajando activamente en la IA generativa, particularmente en el ámbito de la visión por computadora, con una serie de hallazgos y aplicaciones de difusión estable. En resumen, 2022 podría considerarse el año de la difusión estable y 2023 el año de los grandes modelos lingüísticos (LLM).


Una pandilla de llamas llegó a la ciudad - Imagen de DALL-E 3.


El comienzo de 2023 marcó el predominio de los LLM, con ChatGPT a la cabeza en adopción e innovación generalizadas. Este año, los LLM se volvieron omnipresentes en varios sectores, cerrando efectivamente la brecha entre la investigación teórica y las aplicaciones prácticas de la industria. Exploremos los hitos y tendencias clave que dieron forma al panorama de LLM en 2023, y también tengamos una idea de cómo han revolucionado nuestra interacción con la tecnología.

Año del LLM de código abierto

En 2023, fuimos testigos de un año extraordinario para los modelos de lenguajes grandes (LLM) de código abierto. El lanzamiento más importante fue la serie LLaMa de Meta, que sentó un precedente de lanzamientos frecuentes a partir de entonces, con nuevos modelos surgiendo cada mes, semana y, a veces, diariamente. Actores clave como Meta, EleutherAI, MosaicML, TIIUAE y StabilityAI introdujeron una variedad de modelos entrenados en conjuntos de datos públicos, que satisfacen diversas necesidades dentro de la comunidad de IA. La mayoría de estos modelos eran Transformers solo con decodificador, continuando la tendencia establecida por ChatGPT. Estos son algunos de los modelos más destacados lanzados este año:

  • LLaMa por Meta: La familia LLaMa presenta modelos de varios tamaños, y el modelo más grande cuenta con 65 mil millones de parámetros, entrenados en 1,4 billones de tokens. En particular, los modelos más pequeños, especialmente el que tiene 13 mil millones de parámetros, entrenados en 1 billón de tokens, demostraron un rendimiento superior al aprovechar períodos de entrenamiento prolongados con más datos, superando incluso a los modelos más grandes en algunos puntos de referencia. El modelo 13B LLaMa superó al GPT-3 en la mayoría de las pruebas, y el modelo más grande estableció nuevas pruebas de rendimiento de última generación tras su lanzamiento.

  • Pitia de Eleuther AI: Pythia comprende un conjunto de 16 modelos con 154 puntos de control parcialmente entrenados, diseñados para facilitar la investigación científica controlada en LLM de acceso abierto y capacitados de forma transparente. Esta serie ayuda enormemente a los investigadores al proporcionar artículos detallados y una base de código completa para la formación de LLM.

  • MPT de MosaicML y Serie Falcon de TIIUAE: Ambos fueron capacitados en una amplia gama de fuentes de datos, desde tokens de 1T a 1,5T, y produjeron versiones con parámetros 7B y 30B. En particular, a finales de año, TIIUAE lanzó un modelo 180B, el modelo de código abierto más grande hasta la fecha.

  • Mistral , Fi y Orca : Estos modelos resaltan otra tendencia en 2023, centrándose en entrenar modelos más pequeños y más eficientes adecuados para restricciones limitadas de hardware y presupuesto, lo que marca un cambio significativo hacia la accesibilidad y la practicidad en el desarrollo de modelos de IA.


Llama 2 está preentrenada utilizando datos en línea disponibles públicamente. Luego se crea una versión inicial de Llama Chat mediante el uso de ajustes supervisados. A continuación, Llama Chat se refina de forma iterativa utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), que incluye muestreo de rechazo y optimización de políticas próximas (PPO). - Llama 2: código abierto, gratuito para investigación y uso comercial

Modelo pequeño y eficiente

En 2023, también hemos sido testigos del lanzamiento de numerosos modelos pequeños y eficientes. La razón principal de esta tendencia es el costo prohibitivamente alto de entrenar modelos grandes para la mayoría de los grupos de investigación. Además, los modelos grandes a menudo no son adecuados para muchas aplicaciones del mundo real debido a sus elevados costos de capacitación e implementación, así como a sus importantes requisitos de memoria y potencia computacional. Por ello, los modelos pequeños y eficientes se han convertido en una de las principales tendencias del año. Como se mencionó anteriormente, las series Mistral y Orca han sido protagonistas clave en esta tendencia. Mistral sorprendió a la comunidad con un modelo 7B que superó a sus homólogos más grandes en la mayoría de los puntos de referencia, mientras que la serie Phi es aún más pequeña, con sólo 1,3 B a 2,7 B de parámetros, pero ofrece un rendimiento impresionante.

Rendimiento de Mistral-7b sobre la serie LLaMA - https://mistral.ai/news/annunciando-mistral-7b/


Otro enfoque innovador es Orca 2: Enseñar modelos de lenguaje pequeños a razonar , que implica destilar conocimiento de un modelo más grande, como GPT-4, en uno más pequeño. A diferencia de estudios anteriores que se basaban principalmente en el aprendizaje por imitación para replicar los resultados de modelos más grandes, Orca 2 tiene como objetivo equipar a los LLM "más pequeños", específicamente aquellos con parámetros 7B y 13B, con varios métodos de razonamiento, como análisis y recuperación paso a paso. -luego-generar técnicas. Este enfoque permite que estos modelos identifiquen y apliquen el método más apropiado para cada tarea, lo que permite a Orca 2 superar significativamente a modelos de tamaño similar e incluso competir con modelos que son de 5 a 10 veces más grandes.

Resultados que comparan Orca 2 (7B y 13B) con LLaMA-2-Chat (13B y 70B) y WizardLM (13B y 70B) en una variedad de puntos de referencia (en una configuración de disparo cero) que cubren la comprensión del lenguaje, el razonamiento de sentido común y varios pasos. razonamiento, resolución de problemas matemáticos, etc. - Orca 2: Enseñar modelos de lenguaje pequeños a razonar


El éxito de modelos pequeños y eficientes depende en gran medida de la calidad de los datos y de trucos de atención rápida. Si bien Mistral no ha revelado los detalles de sus datos de entrenamiento, varias investigaciones y modelos han demostrado que la calidad de los datos es crucial para entrenar modelos efectivos. Uno de los hallazgos más notables de este año es LIMA: "Menos es más para el alineamiento" , que demostró que un conjunto de datos de alta calidad generado por humanos que consta de solo 1000 ejemplos de entrenamiento se puede utilizar para realizar ajustes y superar al mismo modelo ajustado en 50 000 respuestas generadas por ChatGPT.

Ajuste de adaptación de bajo rango

Bien, hablemos de lora , que ha brillado como la estrella más brillante entre los métodos de ajuste fino de parámetros eficientes introducidos el año pasado. La Adaptación de Bajo Rango (LoRA) surgió como un punto de inflexión para ajustar los LLM de manera eficiente. Al introducir la aproximación de matrices de bajo rango en modelos previamente entrenados, LoRA permite un ajuste fino eficiente de los parámetros, lo que reduce significativamente la carga computacional y los requisitos de almacenamiento. Este enfoque no sólo ahorra recursos sino que también permite la personalización para diferentes aplicaciones sin comprometer las capacidades centrales del modelo base.


Diferencia entre LoRA y el ajuste fino regular: consejos prácticos para ajustar los LLM utilizando LoRA (adaptación de bajo rango)


LoRA básicamente congela los pesos de los modelos previamente entrenados e inyecta capas entrenables ( matrices de descomposición de rangos ). Estas matrices son compactas pero capaces de aproximar las adaptaciones necesarias al comportamiento del modelo, lo que permite un ajuste eficiente y al mismo tiempo mantiene la integridad del conocimiento del modelo original. Una de las variantes más utilizadas de LoRA es QLoRA (adaptación cuantificada de bajo rango) . Es la versión eficiente en memoria de Vanilla LoRA al cuantificar las matrices de bajo rango. Este enfoque permite el uso de matrices de bajo rango en el proceso de ajuste fino sin aumentar la huella de memoria y con un menor uso computacional.


QLORA mejora con respecto a LoRA al cuantificar el modelo del transformador con una precisión de 4 bits y utilizar optimizadores paginados para manejar picos de memoria. - Imagen del artículo: QLoRA (adaptación cuantificada de bajo rango)

Mezcla de expertos

El Mezcla de Expertos (MoE) El enfoque representa un salto significativo en la arquitectura LLM el año pasado. MoE es un paradigma de aprendizaje automático de larga data que simplifica problemas complejos dividiéndolos en subproblemas más pequeños y manejables, cada uno de los cuales es abordado por un submodelo especializado o "experto". Esto es similar a tener un equipo de especialistas, donde cada miembro sobresale en un dominio particular. En un modelo MoE, cada experto se concentra en un subconjunto específico de datos o tarea. La decisión de qué experto utilizar para una entrada determinada se toma mediante un "mecanismo de control", que actúa como director de tráfico y dirige las tareas al experto más apropiado. Este método permite que los modelos MoE manejen de manera eficiente y precisa un amplio espectro de tareas. MoE es particularmente beneficioso porque combina las fortalezas de diversos modelos, lo que conduce a un mejor desempeño en tareas complejas que podrían ser difíciles de abordar para un modelo único y uniforme. Es comparable a tener un equipo de especialistas a su disposición, lo que garantiza que cada faceta de un problema sea manejada por alguien con la experiencia necesaria, lo que genera soluciones más refinadas y efectivas.

Capa MoE del artículo Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente cerrada, 2017.


Uno de los modelos MoE más notables lanzados el año pasado es Mixtral-8x-7B , que logró un rendimiento impresionante al combinar ocho modelos más pequeños, cada uno con parámetros 7B, utilizando el enfoque MoE. También hay rumores de que GPT-4 podría ser un modelo MoE, que consta de ocho modelos expertos, cada uno con 220 mil millones de parámetros.

Rendimiento Mixtral-8x-7b - Mixtral-8x-7B

Del lenguaje a los modelos básicos generales

Los LLM están evolucionando hacia modelos básicos generales, ampliando sus capacidades más allá del procesamiento del lenguaje. Esta transición significa un cambio hacia modelos que pueden comprender y generar no solo texto sino también código, contenido visual, audio y más. El año pasado vimos la introducción de modelos como LLaVA y GPT-4 para visión, que proporcionó capacidades impresionantes para comprender contenido visual. Esto ha provocado investigaciones prometedoras en el campo de los modelos de cimentaciones generales. En un futuro próximo, los modelos básicos generales podrán ver, oír y comprender el mundo que los rodea, lo que permitirá interacciones más naturales e intuitivas con los humanos.


Un ejemplo del proyecto LLaVA.

Agentes equipados con herramientas

La integración de los LLM con diversas herramientas y plataformas está haciendo que la IA sea más accesible y práctica para el uso diario. Los agentes equipados con estas herramientas se están adaptando a tareas específicas, que van desde asistencia en codificación hasta escritura creativa, lo que convierte a la IA en una parte indispensable de muchos flujos de trabajo profesionales. Este desarrollo ha sido posible gracias a las capacidades de razonamiento y acción de los LLM. Este tipo de característica a menudo se conoce como llamada de función bajo el Reaccionar estructura. También hay muchos modelos entrenados en conjuntos de datos que incluyen llamadas a funciones para habilitar esta función. Esta funcionalidad permite a los desarrolladores crear agentes LLM capaces de automatizar una amplia gama de tareas y flujos de trabajo simples.


Comparación del método ReAct con otras técnicas de indicaciones - ReAct: sinergizando el razonamiento y la actuación en modelos de lenguaje

OpenAI sigue dominando el panorama de la industria

OpenAI continúa dominando el panorama de la industria, manteniendo su liderazgo en términos de investigación y aplicación. El GPT-4 y el nuevo tienda GPT La característica de ChatGPT sigue siendo el estándar de la industria, ofreciendo aplicaciones de IA generativa de alta calidad que son incomparables y únicas, sin competidores que se le acerquen en este momento. OpenAI también ha demostrado un apoyo significativo a su comunidad de usuarios al organizar la primera Día del desarrollador de OpenAI y proporcionando varias funciones fáciles de usar para los desarrolladores en 2023. Anthropic emerge como uno de los competidores más prometedores, aunque su LLM insignia, claudio , aún no está ampliamente disponible. Otro gigante tecnológico, Google, lanzado Geminis el año pasado, lo que ha sido bastante impresionante en comparación con la serie GPT de OpenAI, según los informes. Sin embargo, aún no ha ganado suficiente impulso dentro de la comunidad. Veremos qué pasa en 2024 cuando planean lanzar la versión más grande de Gemini.


Día del desarrollador de OpenAI: https://www.youtube.com/watch?v=U9mJuUkhUzk

Conclusión

El año 2023 marcó un período de importante crecimiento e innovación en el campo de los grandes modelos lingüísticos (LLM). Desde la democratización de la IA a través de modelos de código abierto hasta el desarrollo de sistemas más eficientes y especializados, estos avances no son sólo hazañas técnicas sino también pasos para hacer que la IA sea más accesible y aplicable en diversos ámbitos. De cara al futuro, el potencial de estas tecnologías para transformar industrias y mejorar las capacidades humanas sigue siendo una perspectiva apasionante. En 2024, anticipamos hitos aún más notables: Meta anunció planes para entrenar LLaMA-3 y tenía un plan para abrirlo. En el panorama de la industria, también hay un gran interés en ver si gigantes como Google o startups como Anthropic pueden superar a OpenAI.


Visite y suscríbase a mi blog personal para obtener más artículos.