C'est l'année charnière pour l'IA générative
Bien; pour le moins, cette année, j'ai eu l'embarras du choix quant à la manière de gérer un modèle LLM localement.
Commençons:
Toutes les images créées par Bing Image Creator
Pour exécuter Hugging Face Transformers hors ligne sans accès à Internet, suivez ces étapes : Installez Transformers avec les dépendances nécessaires tout en vous assurant de ne pas compter sur les mises à jour automatiques lors de l'installation. Vous pouvez installer via pip ou conda comme décrit dans la documentation Hugging Face
pip install transformers==4.xy
Chargez des modèles pré-entraînés à partir de votre ordinateur local après les avoir téléchargés depuis Hugging Face Hub avec accès à Internet. Enregistrez le modèle à l'aide de save_pretrained(), puis chargez-le ultérieurement en mode hors ligne.
from transformers import AutoModelForSequenceClassification, BertTokenizerFast
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") model.save_pretrained("/my/local/directory/bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("/my/local/directory/bert-base-uncased") tokenizer = BertTokenizerFast.from_pretrained("/my/local/directory/bert-base-uncased")
Définissez les variables d'environnement TRANSFORMERS_OFFLINE et HF_DATASETS_OFFLINE pour activer l'utilisation hors ligne.
export TRANSFORMERS_OFFLINE=1 export HF_DATASETS_OFFLINE=1
Clonez directement le référentiel de modèles si vous préférez ne pas télécharger de fichiers individuels.
git clone https://huggingface.co/<username>/<repository> /my/local/directory
Assurez-vous que tous les fichiers nécessaires sont présents dans le répertoire dans lequel vous prévoyez d'exécuter vos scripts. N'oubliez pas que définir TRANSFORMERS_OFFLINE sur 1 seul ne fonctionnera pas si le modèle n'est pas déjà disponible localement. Vous devez soit télécharger le modèle avec un accès Internet et l'enregistrer localement, soit cloner le référentiel de modèles.
gpt4all est un projet open source qui permet à quiconque d'accéder et d'utiliser de puissants modèles d'IA comme GPT-3. Voici les instructions étape par étape pour installer et utiliser gpt4all :
pip install gpt4all
OPENAI_API_KEY
avec votre clé API comme valeur. export OPENAI_API_KEY="YOUR_API_KEY_HERE"
from gpt4all import completions summary = completions.generate(engine="text-davinci-003", prompt="Summarize this text: [insert long text here]", max_tokens=50) print(summary.text)
Ollamma est une bibliothèque open source qui offre un accès facile à de grands modèles de langage comme GPT-3. Voici les détails sur la configuration système requise, l'installation et l'utilisation :
Configuration requise:
Installation:
pip install ollamma
Usage:
import os os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"
from ollamma import Client client = Client()
response = client.generate( engine="text-davinci-003", prompt="Hello world", max_tokens=100 ) print(response.generations[0].text)
La méthode generate vous permet de spécifier le moteur, l'invite et les paramètres tels que le nombre maximum de jetons pour configurer votre demande.
Vous pouvez également affiner les moteurs, modérer le contenu, etc. Reportez-vous à la documentation Ollamma pour plus de détails sur toutes les méthodes disponibles.
Donc, en résumé, Ollamma permet d'exploiter très facilement GPT-3 et d'autres modèles en quelques lignes de code Python une fois installés et configurés !
LM Studio est un outil open source qui rationalise le processus de formation, d'évaluation et d'utilisation locale de modèles linguistiques de pointe. Voici les étapes pour faire fonctionner LM Studio localement :
un. Installez Docker Engine et Docker Compose sur votre machine
b. Clonez le dépôt GitHub de LM Studio :
git clone https://github.com/lm-studio/lm-studio.git
config/
. Les fichiers courants incluent : un. model.yaml
: spécifier les architectures de modèles
b. training.yaml
: définir les paramètres d'entraînement
c. evaluation.yaml
: ajuster les paramètres d'évaluation
un. Construire des images : docker-compose build
b. Démarrez tous les services : docker-compose up -d
c. Afficher les journaux : docker-compose logs -f
d. Arrêter les services : docker-compose down
Les services exposent divers ports que vous pouvez utiliser pour interagir avec l'interface utilisateur, les API, les blocs-notes, etc.
En résumé, LM Studio rationalise l'expérimentation de modèles de langage local. Les utilisateurs doivent simplement cloner le dépôt, configurer les fichiers de paramètres et utiliser des commandes Docker simples pour commencer la formation, l'évaluation et l'utilisation des modèles.
Je trouve que c’est le moyen le plus pratique et le plus simple de tous. L’explication complète est donnée sur le lien ci-dessous :
Résumé:
localllm
combiné à Cloud Workstations révolutionne le développement d'applications basées sur l'IA en vous permettant d'utiliser les LLM localement sur le processeur et la mémoire au sein de l'environnement Google Cloud. En éliminant le besoin de GPU, vous pouvez surmonter les défis posés par la rareté des GPU et libérer tout le potentiel des LLM. Avec une productivité améliorée, une rentabilité et une sécurité des données améliorées, localllm vous permet de créer facilement des applications innovantes.
Pour installer et utiliser Llama.cpp pour la formation et l'inférence locales, procédez comme suit :
Installer les dépendances :
Python 3 CMake Optional (for GPU acceleration) NVIDIA drivers, CUDA, and cuDNN For Windows, use Visual Studio Community with Desktop C++ Environment and Python 3 Clone the repository:
git clone --recursive https://github.com/abetlen/llama-cpp-python.git Si vous souhaitez utiliser l'accélération GPU, définissez la variable d'environnement comme décrit dans le dépôt (par exemple, sous Linux) :
export CMAKE_ARGS="-DLLAMA_CUBLAS=ON" Install Llamma.cpp:
Pour la compilation locale et la compilation du système :
cd llama-cpp-python pip install -e . For Windows, or if you want prebuilt binaries, consider the following: No GPU support: pip install llama-cpp-python[server]
python -m llama_cpp.server --model models/7B/llama-model.gguf With GPU support: set FORCE_CMAKE=1 set CMAKE_ARGS=-DLLAMA_CUBLAS=ON pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
python -m llama_cpp.server --model "path/to/your/model" Download and place Llama models in the models/ subdirectory within the Llama.cpp repository if they are not included (models like llama-model.gguf or ggml-* files are available on Hugging Face or GGML).
The llama_cpp/llama_cpp.py script provides a simple high-level interface in Python. Replace llama-model.gguf with your downloaded Llama model to test inference. If you want to train your own Llama model, you'll need to train it according to the official documentation and manually convert the GGML files into GGUF files (for GPU deployment).
Il s'agit d'une implémentation open source gradio d'un webui pour générer du texte à l'aide de langchain.
Quelques extraits du fichier README.md :
Ceci est un répertoire d'extensions pour
Si vous créez votre propre extension, vous êtes invités à la soumettre à cette liste dans un PR.
Une extension sophistiquée qui crée une mémoire à long terme pour les robots en mode chat.
AllTalk est basé sur le moteur Coqui TTS, similaire à l'extension Coqui_tts pour l'interface Web de génération de texte, mais prend cependant en charge une variété de fonctionnalités avancées.
Extension pour Webui de génération de texte basée sur EdgeGPT par acheong08, pour un accès Internet rapide pour votre bot.
Une variante de l'extension coqui_tts dans le référentiel principal. Les deux utilisent le modèle XTTSv2, mais celui-ci dispose d'une fonctionnalité « narrateur » pour le texte écrit *entre astérisques*.
Cette extension fournit un bloc-notes avancé indépendant qui sera toujours présent depuis l'onglet supérieur. Il possède de nombreuses fonctionnalités introuvables dans le notebook :
Et il y a encore bien d’autres choses à explorer : Découvrez :
https://github.com/oobabooga/text-generation-webui-extensions
Et il y a plus ! Tellement plus! LangChain, llm, ollamma, la liste ne cesse de s'allonger !
En route pour une glorieuse année de belle créativité. Acclamations!