Dies ist das Durchbruchsjahr für Generative AI
Nun, um es gelinde auszudrücken, hatte ich dieses Jahr die Qual der Wahl, was die Durchführung eines LLM-Modells vor Ort angeht.
Lasst uns beginnen:
Alle Bilder wurden mit Bing Image Creator erstellt.
Um Hugging Face Transformers offline ohne Internetzugang auszuführen, befolgen Sie diese Schritte: Installieren Sie Transformers mit den erforderlichen Abhängigkeiten und stellen Sie sicher, dass Sie sich während der Installation nicht auf automatische Updates verlassen. Sie können die Installation über pip oder conda durchführen, wie in der Hugging Face-Dokumentation beschrieben.
pip install transformers==4.xy
Laden Sie vorab trainierte Modelle von Ihrem lokalen Computer, nachdem Sie sie von Hugging Face Hub mit Internetzugang heruntergeladen haben. Speichern Sie das Modell mit save_pretrained() und laden Sie es später im Offlinemodus.
from transformers import AutoModelForSequenceClassification, BertTokenizerFast
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") model.save_pretrained("/my/local/directory/bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("/my/local/directory/bert-base-uncased") tokenizer = BertTokenizerFast.from_pretrained("/my/local/directory/bert-base-uncased")
Legen Sie die Umgebungsvariablen TRANSFORMERS_OFFLINE und HF_DATASETS_OFFLINE fest, um die Offline-Nutzung zu aktivieren.
export TRANSFORMERS_OFFLINE=1 export HF_DATASETS_OFFLINE=1
Klonen Sie das Modell-Repository direkt, wenn Sie keine einzelnen Dateien herunterladen möchten.
git clone https://huggingface.co/<username>/<repository> /my/local/directory
Stellen Sie sicher, dass alle erforderlichen Dateien in dem Verzeichnis vorhanden sind, in dem Sie Ihre Skripte ausführen möchten. Denken Sie daran, dass das Setzen von TRANSFORMERS_OFFLINE auf 1 allein nicht funktioniert, wenn das Modell nicht bereits lokal verfügbar ist. Sie müssen das Modell entweder mit Internetzugang herunterladen und lokal speichern oder das Modell-Repository klonen.
gpt4all ist ein Open-Source-Projekt, das jedem den Zugriff auf leistungsstarke KI-Modelle wie GPT-3 und deren Nutzung ermöglicht. Hier finden Sie eine Schritt-für-Schritt-Anleitung zur Installation und Nutzung von gpt4all:
pip install gpt4all
OPENAI_API_KEY
mit Ihrem API-Schlüssel als Wert fest. export OPENAI_API_KEY="YOUR_API_KEY_HERE"
from gpt4all import completions summary = completions.generate(engine="text-davinci-003", prompt="Summarize this text: [insert long text here]", max_tokens=50) print(summary.text)
Ollamma ist eine Open-Source-Bibliothek, die einfachen Zugriff auf große Sprachmodelle wie GPT-3 bietet. Hier sind die Details zu den Systemanforderungen, der Installation und der Verwendung:
System Anforderungen:
Installation:
pip install ollamma
Verwendung:
import os os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"
from ollamma import Client client = Client()
response = client.generate( engine="text-davinci-003", prompt="Hello world", max_tokens=100 ) print(response.generations[0].text)
Mit der Methode „Generieren“ können Sie die Engine, die Eingabeaufforderung und Parameter wie die maximale Anzahl an Token angeben, um Ihre Anfrage zu konfigurieren.
Sie können auch Engines optimieren, Inhalte moderieren und mehr. Weitere Einzelheiten zu allen verfügbaren Methoden finden Sie in der Ollamma-Dokumentation.
Zusammenfassend lässt sich also sagen: Ollamma macht es wirklich einfach, GPT-3 und andere Modelle nach der Installation und Konfiguration mit nur wenigen Zeilen Python-Code zu nutzen!
LM Studio ist ein Open-Source-Tool, das den Prozess des Trainierens, Auswertens und lokalen Verwendens modernster Sprachmodelle optimiert. So bringen Sie LM Studio lokal zum Laufen:
a. Installieren Sie Docker Engine und Docker Compose auf Ihrem Computer
b. Klonen Sie das LM Studio GitHub-Repository:
git clone https://github.com/lm-studio/lm-studio.git
config/
. Zu den üblichen Dateien gehören: a. model.yaml
: Modellarchitekturen angeben
b. training.yaml
: Trainingsparameter festlegen
c. evaluation.yaml
: Auswertungseinstellungen anpassen
a. Images erstellen: docker-compose build
b. Starten Sie alle Dienste: docker-compose up -d
c. Protokolle anzeigen: docker-compose logs -f
d. Dienste stoppen: docker-compose down
Die Dienste stellen verschiedene Ports bereit, die Sie zur Interaktion mit der Benutzeroberfläche, APIs, Notebooks und mehr verwenden können.
Zusammenfassend lässt sich also sagen, dass LM Studio das Experimentieren mit lokalen Sprachmodellen optimiert. Benutzer müssen lediglich das Repository klonen, Einstellungsdateien konfigurieren und einfache Docker-Befehle verwenden, um mit dem Trainieren, Auswerten und Verwenden von Modellen zu beginnen.
Ich finde, das ist die bequemste und einfachste Methode von allen. Die vollständige Erklärung finden Sie unter dem folgenden Link:
Zusammengefasst:
localllm
in Kombination mit Cloud Workstations revolutioniert die KI-gesteuerte Anwendungsentwicklung, indem Sie LLMs lokal auf CPU und Speicher innerhalb der Google Cloud-Umgebung verwenden können. Durch den Wegfall der Notwendigkeit von GPUs können Sie die Herausforderungen des GPU-Mangels überwinden und das volle Potenzial von LLMs ausschöpfen. Mit gesteigerter Produktivität, Kosteneffizienz und verbesserter Datensicherheit können Sie mit localllm mühelos innovative Anwendungen erstellen.
Um Llama.cpp für lokales Training und Inferenz zu installieren und zu verwenden, führen Sie diese Schritte aus:
Installieren Sie Abhängigkeiten:
Python 3 CMake Optional (for GPU acceleration) NVIDIA drivers, CUDA, and cuDNN For Windows, use Visual Studio Community with Desktop C++ Environment and Python 3 Clone the repository:
git clone --recursive https://github.com/abetlen/llama-cpp-python.git Wenn Sie die GPU-Beschleunigung verwenden möchten, legen Sie die Umgebungsvariable wie im Repo beschrieben fest (z. B. unter Linux):
export CMAKE_ARGS="-DLLAMA_CUBLAS=ON" Install Llamma.cpp:
Für den lokalen Build und die Systemkompilierung:
cd llama-cpp-python pip install -e . For Windows, or if you want prebuilt binaries, consider the following: No GPU support: pip install llama-cpp-python[server]
python -m llama_cpp.server --model models/7B/llama-model.gguf With GPU support: set FORCE_CMAKE=1 set CMAKE_ARGS=-DLLAMA_CUBLAS=ON pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
python -m llama_cpp.server --model "path/to/your/model" Download and place Llama models in the models/ subdirectory within the Llama.cpp repository if they are not included (models like llama-model.gguf or ggml-* files are available on Hugging Face or GGML).
The llama_cpp/llama_cpp.py script provides a simple high-level interface in Python. Replace llama-model.gguf with your downloaded Llama model to test inference. If you want to train your own Llama model, you'll need to train it according to the official documentation and manually convert the GGML files into GGUF files (for GPU deployment).
Dies ist eine Open-Source-Gradio-Implementierung einer WebUI zur Textgenerierung mit Langchain.
Einige Auszüge aus der Datei README.md:
Dies ist ein Verzeichnis von Erweiterungen für
Wenn Sie Ihre eigene Erweiterung erstellen, können Sie sie gerne in einem PR an diese Liste senden.
Eine ausgeklügelte Erweiterung, die ein Langzeitgedächtnis für Bots im Chat-Modus erstellt.
AllTalk basiert auf der Coqui-TTS-Engine, ähnlich der Coqui_tts-Erweiterung für die WebUI zur Textgenerierung, unterstützt jedoch eine Vielzahl erweiterter Funktionen.
Erweiterung für Text Generation Webui basierend auf EdgeGPT von acheong08, für einen schnellen Internetzugriff für Ihren Bot.
Eine Variante der coqui_tts-Erweiterung im Hauptrepository. Beide verwenden das XTTSv2-Modell, aber dieses verfügt über eine „Erzähler“-Funktion für Text, der *zwischen Sternchen* geschrieben ist.
Diese Erweiterung bietet ein unabhängiges erweitertes Notizbuch, das immer auf der oberen Registerkarte angezeigt wird. Es verfügt über viele Funktionen, die im Notizbuch nicht vorhanden sind:
Und es gibt noch so viel mehr zu entdecken: Schauen Sie sich an:
https://github.com/oobabooga/text-generation-webui-extensions
Und es gibt noch mehr! So viel mehr! LangChain, llm, ollamma, die Liste wird einfach immer länger!
Auf ein herrliches Jahr voller wunderbarer Kreativität. Prost!