Este es el año decisivo para la IA generativa
Bien; por decir lo menos, este año he tenido muchas opciones para elegir cómo ejecutar un modelo LLM localmente.
Empecemos:
Todas las imágenes creadas por Bing Image Creator
Para ejecutar Hugging Face Transformers sin conexión a Internet, siga estos pasos: Instale Transformers con las dependencias necesarias y asegúrese de no depender de las actualizaciones automáticas durante la instalación. Puede instalar mediante pip o conda como se describe en la documentación de Hugging Face
pip install transformers==4.xy
Cargue modelos previamente entrenados desde su máquina local después de descargarlos desde Hugging Face Hub con acceso a Internet. Guarde el modelo usando save_pretrained() y luego cárguelo más tarde en modo fuera de línea.
from transformers import AutoModelForSequenceClassification, BertTokenizerFast
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") model.save_pretrained("/my/local/directory/bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("/my/local/directory/bert-base-uncased") tokenizer = BertTokenizerFast.from_pretrained("/my/local/directory/bert-base-uncased")
Configure las variables de entorno TRANSFORMERS_OFFLINE y HF_DATASETS_OFFLINE para habilitar el uso sin conexión.
export TRANSFORMERS_OFFLINE=1 export HF_DATASETS_OFFLINE=1
Clona el repositorio de modelos directamente si prefieres no descargar archivos individuales.
git clone https://huggingface.co/<username>/<repository> /my/local/directory
Asegúrese de que todos los archivos necesarios estén presentes en el directorio donde planea ejecutar sus scripts. Recuerde que configurar TRANSFORMERS_OFFLINE en 1 por sí solo no funcionará si el modelo aún no está disponible localmente. Debe descargar el modelo con acceso a Internet y guardarlo localmente o clonar el repositorio de modelos.
gpt4all es un proyecto de código abierto que permite a cualquiera acceder y utilizar potentes modelos de IA como GPT-3. Aquí hay instrucciones paso a paso para instalar y usar gpt4all:
pip install gpt4all
OPENAI_API_KEY
con su clave API como valor. export OPENAI_API_KEY="YOUR_API_KEY_HERE"
from gpt4all import completions summary = completions.generate(engine="text-davinci-003", prompt="Summarize this text: [insert long text here]", max_tokens=50) print(summary.text)
Ollamma es una biblioteca de código abierto que brinda fácil acceso a modelos de lenguaje grandes como GPT-3. Aquí están los detalles sobre los requisitos, la instalación y el uso del sistema:
Requisitos del sistema:
Instalación:
pip install ollamma
Uso:
import os os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"
from ollamma import Client client = Client()
response = client.generate( engine="text-davinci-003", prompt="Hello world", max_tokens=100 ) print(response.generations[0].text)
El método de generación le permite especificar el motor, el mensaje y parámetros como tokens máximos para configurar su solicitud.
También puedes ajustar los motores, moderar el contenido y más. Consulte la documentación de Ollamma para obtener detalles adicionales sobre todos los métodos disponibles.
En resumen, ¡Ollamma hace que sea realmente fácil aprovechar GPT-3 y otros modelos en solo unas pocas líneas de código Python una vez instalado y configurado!
LM Studio es una herramienta de código abierto que agiliza el proceso de capacitación, evaluación y uso de modelos de lenguaje de última generación a nivel local. Estos son los pasos para que LM Studio se ejecute localmente:
a. Instale Docker Engine y Docker Compose en su máquina
b. Clona el repositorio de LM Studio GitHub:
git clone https://github.com/lm-studio/lm-studio.git
config/
. Los archivos comunes incluyen: a. model.yaml
: especifica arquitecturas modelo
b. training.yaml
: establece los parámetros de entrenamiento.
C. evaluation.yaml
: ajustar la configuración de evaluación
a. Construir imágenes: docker-compose build
b. Inicie todos los servicios: docker-compose up -d
C. Ver registros: docker-compose logs -f
d. Detener servicios: docker-compose down
Los servicios exponen varios puertos que puede utilizar para interactuar con la interfaz de usuario, las API, las computadoras portátiles y más.
En resumen, LM Studio agiliza la experimentación con modelos de lenguaje local. Los usuarios solo necesitan clonar el repositorio, configurar archivos de configuración y usar comandos simples de Docker para comenzar a entrenar, evaluar y usar modelos.
Creo que esta es la forma más cómoda y sencilla de todas. La explicación completa se da en el siguiente enlace:
Resumido:
localllm
combinado con Cloud Workstations revoluciona el desarrollo de aplicaciones impulsado por IA al permitirle usar LLM localmente en la CPU y la memoria dentro del entorno de Google Cloud. Al eliminar la necesidad de GPU, puede superar los desafíos que plantea la escasez de GPU y desbloquear todo el potencial de los LLM. Con productividad mejorada, rentabilidad y seguridad de datos mejorada, localllm le permite crear aplicaciones innovadoras con facilidad
Para instalar y usar Llama.cpp para entrenamiento e inferencia local, siga estos pasos:
Instalar dependencias:
Python 3 CMake Optional (for GPU acceleration) NVIDIA drivers, CUDA, and cuDNN For Windows, use Visual Studio Community with Desktop C++ Environment and Python 3 Clone the repository:
git clone --recursive https://github.com/abetlen/llama-cpp-python.git Si desea utilizar la aceleración de GPU, configure la variable de entorno como se describe en el repositorio (por ejemplo, en Linux):
export CMAKE_ARGS="-DLLAMA_CUBLAS=ON" Install Llamma.cpp:
Para compilación local y del sistema:
cd llama-cpp-python pip install -e . For Windows, or if you want prebuilt binaries, consider the following: No GPU support: pip install llama-cpp-python[server]
python -m llama_cpp.server --model models/7B/llama-model.gguf With GPU support: set FORCE_CMAKE=1 set CMAKE_ARGS=-DLLAMA_CUBLAS=ON pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
python -m llama_cpp.server --model "path/to/your/model" Download and place Llama models in the models/ subdirectory within the Llama.cpp repository if they are not included (models like llama-model.gguf or ggml-* files are available on Hugging Face or GGML).
The llama_cpp/llama_cpp.py script provides a simple high-level interface in Python. Replace llama-model.gguf with your downloaded Llama model to test inference. If you want to train your own Llama model, you'll need to train it according to the official documentation and manually convert the GGML files into GGUF files (for GPU deployment).
Esta es una implementación gradio de código abierto de una webui para generar texto usando langchain.
Algunos extractos del archivo README.md:
Este es un directorio de extensiones para
Si crea su propia extensión, puede enviarla a esta lista en un PR.
Una extensión sofisticada que crea una memoria a largo plazo para los bots en modo chat.
AllTalk se basa en el motor Coqui TTS, similar a la extensión Coqui_tts para la interfaz de usuario web de generación de texto, sin embargo, admite una variedad de funciones avanzadas.
Extensión para Webui de generación de texto basada en EdgeGPT de acheong08, para un acceso rápido a Internet para su bot.
Una variante de la extensión coqui_tts en el repositorio principal. Ambos usan el modelo XTTSv2, pero éste tiene una función de "narrador" para el texto escrito *entre asteriscos*.
Esta extensión proporciona un cuaderno avanzado independiente que siempre estará presente en la pestaña superior. Tiene muchas características que no se encuentran en el portátil:
Y hay mucho más por explorar: echa un vistazo:
https://github.com/oobabooga/text-generación-webui-extensiones
¡Y hay más! ¡Mucho más! LangChain, llm, ollamma, ¡la lista sigue creciendo cada vez más!
Por un año glorioso de hermosa creatividad. ¡Salud!