paint-brush
Una inmersión profunda en LLaMA v2 para aplicaciones de chatpor@mikeyoung44
1,200 lecturas
1,200 lecturas

Una inmersión profunda en LLaMA v2 para aplicaciones de chat

por Mike Young5m2023/07/19
Read on Terminal Reader

Demasiado Largo; Para Leer

Implementación de A16z-infra del nuevo modelo de chat [llama13b-v2-chat] de Meta. El modelo está alojado en Replicate, un servicio de alojamiento de modelos de IA que le permite interactuar con modelos complicados con solo unas pocas líneas de código o una simple llamada a la API. Con la friolera de 13 mil millones de parámetros, este modelo se ha adaptado significativamente a las aplicaciones de chat.
featured image - Una inmersión profunda en LLaMA v2 para aplicaciones de chat
Mike Young HackerNoon profile picture
0-item
1-item
2-item


Piense en las complejidades de generar respuestas similares a las humanas en las aplicaciones de chat en línea. ¿Cómo puede hacer que la infraestructura sea eficiente y las respuestas realistas? La solución son los modelos de lenguaje de IA. En esta guía, profundizamos en la implementación de a16z-infra del nuevo llama13b-v2-chat LLM de Meta , un modelo de lenguaje de 13 mil millones de parámetros ajustado específicamente para aplicaciones de chat. Este modelo está alojado en Replicate, un servicio de alojamiento de modelos de IA que le permite interactuar con modelos complicados y potentes con solo unas pocas líneas de código o una simple llamada a la API.


En esta guía, cubriremos de qué se trata el modelo llama13b-v2-chat, cómo pensar en sus entradas y salidas, y cómo usarlo para crear finalizaciones de chat. También lo guiaremos a través de cómo encontrar modelos similares para mejorar sus aplicaciones de IA usando AIModels.fyi . Así que analicemos la jerga de la IA y lleguemos al núcleo.


¡ Suscríbete o sígueme en Twitter para más contenido como este!

Sobre el modelo de chat LLaMA-v2

El modelo LLaMA13b-v2-chat disponible en Replicate fue creado por el equipo a16z-infra y se basa en el nuevo modelo LLaMA v2 de Meta. Meta creó LLaMA con el objetivo de comprender y generar mejor el lenguaje humano, y el modelo de chat que examinaremos se ha perfeccionado aún más para mejorar las interacciones entre los usuarios humanos y los chatbots de IA. Con la friolera de 13 mil millones de parámetros, este modelo se ha adaptado significativamente para este caso de uso específico. Puede encontrar más detalles sobre este modelo y los otros modelos de a16z-infra en la página del creador en AIModels.fyi .


La implementación de Replicate del modelo llama13b-v2-chat utiliza la potente GPU Nvidia A100 (40 GB) para las predicciones, con un tiempo de ejecución promedio de 7 segundos por predicción. Tiene un precio de solo $ 0.014 por ejecución, lo que lo hace ampliamente accesible para proyectos o nuevas empresas de bajo presupuesto.

Comprender las entradas y salidas del chat LLaMA v2

Comprender lo que entra y sale de un modelo es clave para aprovechar sus capacidades de manera efectiva. Entonces, familiaricémonos con las entradas y salidas del modelo.

Entradas

El modelo acepta las siguientes entradas:


  1. prompt (cadena): El aviso para enviar a Llama v2.


  2. max_length (entero): el número máximo de tokens para generar. Tenga en cuenta que una palabra es generalmente 2-3 tokens. El valor predeterminado es 500.


  3. temperature (número): Ajusta la aleatoriedad de las salidas. Mayor que 1 es aleatorio y 0 es determinista. Un buen valor inicial es 0,75.


  4. top_p (número): durante la decodificación de texto, toma muestras del porcentaje p superior de los tokens más probables. Baje esto para ignorar tokens menos probables. El valor predeterminado es 1.


  5. repetition_penalty (number): proporciona una penalización por palabras repetidas en el texto generado. 1 no es penalti. Valores superiores a 1 desalientan la repetición, inferiores a 1 la fomentan.


  6. debug (booleano): se utiliza para proporcionar resultados de depuración en los registros.


Tenga en cuenta que los creadores del modelo recomiendan que siga esta estructura al crear su aviso:

 User: <your prompt goes here> Assistant:


Por ejemplo...

 User: give me tips on things to do in Maine Assistant:

Salidas del modelo

El modelo produce el siguiente resultado:


  1. Un esquema JSON sin procesar, que cataloga la estructura de salida: una matriz de cadenas que se usará para el cálculo posterior o la interfaz de usuario. Aquí hay un ejemplo del esquema de salida:
 { "type": "array", "items": { "type": "string" }, "title": "Output", "x-cog-array-type": "iterator", "x-cog-array-display": "concatenate" }


Ahora, pasemos al meollo de la cuestión de cómo usar este modelo.

Uso de LLaMA v2 Chat para generar finalizaciones de chat naturales

Ya sea que sea un novato que incursiona en el código o un veterano experimentado, usar el modelo llama13b-v2-chat para crear finalizaciones de chat realistas puede ser muy divertido.


Use este enlace de demostración para interactuar con la interfaz del modelo y comprender su funcionamiento si solo está jugando y quiere tener una idea de cómo funciona. Una vez que esté listo para implementarlo en su proyecto, siga los pasos a continuación.


En primer lugar, deberá configurar su entorno instalando el cliente Node.js:

 npm install Replicate


Luego, autentique su token API y configúrelo como una variable de entorno. Este token es personal y, por lo tanto, debe mantenerse confidencial:

 export REPLICATE_API_TOKEN=r8_******


Luego, puede ejecutar el modelo con el siguiente script:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", { input: { prompt: "..." } } );


También puede configurar un webhook para que se llame cuando se complete su predicción. Esto podría ser beneficioso para mantener registros o configurar alertas automáticas.

 const prediction = await replicate.predictions.create({ version: "df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", input: { prompt: "..." }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

Para obtener más detalles, siempre puede consultar la documentación sobre Replicar .

Ir más allá: encontrar otros modelos de texto a texto con AIModels.fyi

¿Quiere explorar otros chatbots para su aplicación? Encontrar modelos similares a llama13b-v2-chat es fácil cuando usa AIModels.fyi .


Aquí hay una guía paso a paso para ayudarlo a encontrar otros modelos de IA que se adapten a sus necesidades específicas:

Paso 1: Visite AIModels.fyi

Dirígete a AIModels.fyi para comenzar tu exploración.

Paso 2: usa la barra de búsqueda

Escriba frases clave como "texto a texto", "modelos de lenguaje", etc. El motor de búsqueda proporcionará una lista de modelos que se ajusten a su consulta.

Paso 3: filtrar los resultados

Los filtros para restringir su búsqueda se pueden encontrar en su página de resultados de búsqueda. Puede filtrar y ordenar los modelos por tipo, costo, popularidad o incluso por creadores específicos. Por ejemplo, si está buscando un modelo de texto a texto económico, puede ordenar los modelos por precio para encontrar la opción más barata.

Conclusión

En esta guía, exploramos el potencial de LLaMA v2, un modelo de lenguaje rentable y rico en funciones. Es la columna vertebral potencial para su próxima aplicación de chat, impulsando una conversación matizada y realista. Ahora sabe cómo implementar este modelo, comprender sus entradas/salidas y generar de manera efectiva las finalizaciones de chat relevantes.


Puede encontrar estas otras guías útiles a medida que continúa desarrollando su conocimiento:


Al tomar tu imaginación y unirla con estas herramientas de IA, te lanzas al vasto universo de la inteligencia artificial, creando proyectos nuevos y emocionantes. Estamos emocionados de ver a dónde irás a continuación. No olvide suscribirse para obtener más tutoriales, mantenerse actualizado sobre modelos de IA nuevos y mejorados y alimentar su creatividad para su próximo proyecto de IA. Hasta entonces, feliz aventura AI y recuerda saludarme en mi twitter .


¡ Suscríbete o sígueme en Twitter para más contenido como este!