Đây là năm đột phá của Generative AI
Tốt; ít nhất phải nói rằng, năm nay tôi có rất nhiều lựa chọn về cách chạy Mô hình LLM tại địa phương.
Hãy bắt đầu:
Tất cả hình ảnh được tạo bởi Bing Image Creator
Để chạy Hugging Face Transformers ngoại tuyến mà không cần truy cập internet, hãy làm theo các bước sau: Cài đặt Transformers với các phụ thuộc cần thiết đồng thời đảm bảo bạn không dựa vào các bản cập nhật tự động trong quá trình cài đặt. Bạn có thể cài đặt qua pip hoặc conda như được mô tả trong tài liệu Ôm mặt
pip install transformers==4.xy
Tải các mô hình đã được huấn luyện trước từ máy cục bộ của bạn sau khi tải chúng xuống từ Hugging Face Hub có quyền truy cập internet. Lưu mô hình bằng save_pretrain(), sau đó tải mô hình sau ở chế độ ngoại tuyến.
from transformers import AutoModelForSequenceClassification, BertTokenizerFast
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") model.save_pretrained("/my/local/directory/bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("/my/local/directory/bert-base-uncased") tokenizer = BertTokenizerFast.from_pretrained("/my/local/directory/bert-base-uncased")
Đặt các biến môi trường TRANSFORMERS_OFFLINE và HF_DATASETS_OFFLINE để cho phép sử dụng ngoại tuyến.
export TRANSFORMERS_OFFLINE=1 export HF_DATASETS_OFFLINE=1
Sao chép trực tiếp kho lưu trữ mô hình nếu bạn không muốn tải xuống các tệp riêng lẻ.
git clone https://huggingface.co/<username>/<repository> /my/local/directory
Đảm bảo rằng tất cả các tệp cần thiết đều có trong thư mục nơi bạn dự định thực thi tập lệnh của mình. Hãy nhớ rằng chỉ cài đặt TRANSFORMERS_OFFLINE thành 1 sẽ không hiệu quả nếu kiểu máy này chưa có sẵn tại địa phương. Bạn phải tải xuống mô hình có quyền truy cập internet và lưu nó cục bộ hoặc sao chép kho lưu trữ mô hình.
gpt4all là một dự án nguồn mở cho phép mọi người truy cập và sử dụng các mô hình AI mạnh mẽ như GPT-3. Dưới đây là hướng dẫn từng bước để cài đặt và sử dụng gpt4all:
pip install gpt4all
OPENAI_API_KEY
với khóa API làm giá trị. export OPENAI_API_KEY="YOUR_API_KEY_HERE"
from gpt4all import completions summary = completions.generate(engine="text-davinci-003", prompt="Summarize this text: [insert long text here]", max_tokens=50) print(summary.text)
Ollamma là thư viện mã nguồn mở cung cấp khả năng truy cập dễ dàng vào các mô hình ngôn ngữ lớn như GPT-3. Dưới đây là chi tiết về yêu cầu hệ thống, cài đặt và cách sử dụng:
Yêu cầu hệ thống:
Cài đặt:
pip install ollamma
Cách sử dụng:
import os os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"
from ollamma import Client client = Client()
response = client.generate( engine="text-davinci-003", prompt="Hello world", max_tokens=100 ) print(response.generations[0].text)
Phương thức tạo cho phép bạn chỉ định công cụ, lời nhắc và các tham số như mã thông báo tối đa để định cấu hình yêu cầu của bạn.
Bạn cũng có thể tinh chỉnh công cụ, kiểm duyệt nội dung, v.v. Tham khảo tài liệu của Ollamma để biết thêm chi tiết về tất cả các phương pháp có sẵn.
Vì vậy, tóm lại - Ollamma giúp việc tận dụng GPT-3 và các mô hình khác thực sự dễ dàng chỉ bằng một vài dòng mã Python sau khi được cài đặt và định cấu hình!
LM Studio là một công cụ nguồn mở giúp hợp lý hóa quy trình đào tạo, đánh giá và sử dụng các mô hình ngôn ngữ tiên tiến tại địa phương. Dưới đây là các bước để LM Studio chạy cục bộ:
Một. Cài đặt Docker Engine và Docker Compose trên máy của bạn
b. Sao chép kho lưu trữ LM Studio GitHub:
git clone https://github.com/lm-studio/lm-studio.git
config/
. Các tập tin phổ biến bao gồm: Một. model.yaml
: chỉ định kiến trúc mô hình
b. training.yaml
: đặt tham số đào tạo
c. evaluation.yaml
: điều chỉnh cài đặt đánh giá
Một. Xây dựng hình ảnh: docker-compose build
b. Bắt đầu tất cả các dịch vụ: docker-compose up -d
c. Xem nhật ký: docker-compose logs -f
d. Dừng dịch vụ: docker-compose down
Các dịch vụ cung cấp nhiều cổng khác nhau mà bạn có thể sử dụng để tương tác với giao diện người dùng, API, sổ ghi chép, v.v.
Vì vậy, tóm lại, LM Studio hợp lý hóa việc thử nghiệm mô hình ngôn ngữ địa phương. Người dùng chỉ cần sao chép repo, định cấu hình tệp cài đặt và sử dụng các lệnh Docker đơn giản để bắt đầu đào tạo, đánh giá và sử dụng mô hình.
Tôi thấy rằng đây là cách thuận tiện và đơn giản nhất. Lời giải thích đầy đủ được đưa ra trên liên kết dưới đây:
Tóm tắt:
localllm
kết hợp với Cloud Workstations cách mạng hóa việc phát triển ứng dụng dựa trên AI bằng cách cho phép bạn sử dụng LLM cục bộ trên CPU và bộ nhớ trong môi trường Google Cloud. Bằng cách loại bỏ nhu cầu về GPU, bạn có thể vượt qua những thách thức do sự khan hiếm GPU đặt ra và khai thác toàn bộ tiềm năng của LLM. Với năng suất được nâng cao, hiệu quả chi phí và bảo mật dữ liệu được cải thiện, localllm cho phép bạn xây dựng các ứng dụng sáng tạo một cách dễ dàng
Để cài đặt và sử dụng Llama.cpp cho mục đích đào tạo và suy luận cục bộ, hãy làm theo các bước sau:
Cài đặt phụ thuộc:
Python 3 CMake Optional (for GPU acceleration) NVIDIA drivers, CUDA, and cuDNN For Windows, use Visual Studio Community with Desktop C++ Environment and Python 3 Clone the repository:
git clone --recursive https://github.com/abetlen/llama-cpp-python.git Nếu bạn muốn sử dụng khả năng tăng tốc GPU, hãy đặt biến môi trường như được mô tả trong repo (ví dụ: trên Linux):
export CMAKE_ARGS="-DLLAMA_CUBLAS=ON" Install Llamma.cpp:
Để biên dịch hệ thống và xây dựng cục bộ:
cd llama-cpp-python pip install -e . For Windows, or if you want prebuilt binaries, consider the following: No GPU support: pip install llama-cpp-python[server]
python -m llama_cpp.server --model models/7B/llama-model.gguf With GPU support: set FORCE_CMAKE=1 set CMAKE_ARGS=-DLLAMA_CUBLAS=ON pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
python -m llama_cpp.server --model "path/to/your/model" Download and place Llama models in the models/ subdirectory within the Llama.cpp repository if they are not included (models like llama-model.gguf or ggml-* files are available on Hugging Face or GGML).
The llama_cpp/llama_cpp.py script provides a simple high-level interface in Python. Replace llama-model.gguf with your downloaded Llama model to test inference. If you want to train your own Llama model, you'll need to train it according to the official documentation and manually convert the GGML files into GGUF files (for GPU deployment).
Đây là một triển khai gradio mã nguồn mở của webui để tạo văn bản bằng langchain.
Một số đoạn trích từ tệp README.md:
Đây là thư mục các phần mở rộng dành cho
Nếu bạn tạo tiện ích mở rộng của riêng mình, bạn có thể gửi nó vào danh sách này dưới dạng PR.
Một tiện ích mở rộng phức tạp tạo ra bộ nhớ dài hạn cho bot trong chế độ trò chuyện.
AllTalk dựa trên công cụ Coqui TTS, tương tự như tiện ích mở rộng Coqui_tts cho webUI tạo văn bản, tuy nhiên hỗ trợ nhiều tính năng nâng cao.
Tiện ích mở rộng cho Webui tạo văn bản dựa trên EdgeGPT của acheong08, để bot của bạn truy cập Internet nhanh chóng.
Một biến thể của tiện ích mở rộng coqui_tts trong kho lưu trữ chính. Cả hai đều sử dụng mô hình XTTSv2, nhưng mô hình này có tính năng "người kể chuyện" cho văn bản được viết *giữa các dấu hoa thị*.
Tiện ích mở rộng này cung cấp một sổ ghi chép nâng cao độc lập sẽ luôn xuất hiện ở tab trên cùng. Nó có nhiều tính năng không có trong máy tính xách tay:
Và còn rất nhiều điều nữa để chúng ta khám phá: Hãy xem:
https://github.com/oobabooga/text-Generation-webui-extensions
Và còn nhiều hơn thế nữa! Nhiều hơn nữa! LangChain, llm, ollamma, danh sách này ngày càng lớn hơn!
Đây là một năm huy hoàng của sự sáng tạo tươi đẹp. Chúc mừng!