Это год прорыва в области генеративного искусственного интеллекта.
Хорошо; мягко говоря, в этом году я был избалован выбором, как запустить модель LLM на местном уровне.
Давайте начнем:
Все изображения созданы Bing Image Creator
Чтобы запустить Hugging Face Transformers в автономном режиме без доступа к Интернету, выполните следующие действия: Установите Transformers с необходимыми зависимостями, не полагаясь при этом на автоматические обновления во время установки. Вы можете установить через pip или conda, как описано в документации Hugging Face.
pip install transformers==4.xy
Загрузите предварительно обученные модели со своего локального компьютера после их загрузки из Hugging Face Hub с доступом в Интернет. Сохраните модель с помощью save_pretrained(), а затем загрузите ее позже в автономном режиме.
from transformers import AutoModelForSequenceClassification, BertTokenizerFast
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") model.save_pretrained("/my/local/directory/bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("/my/local/directory/bert-base-uncased") tokenizer = BertTokenizerFast.from_pretrained("/my/local/directory/bert-base-uncased")
Установите переменные среды TRANSFORMERS_OFFLINE и HF_DATASETS_OFFLINE, чтобы включить использование в автономном режиме.
export TRANSFORMERS_OFFLINE=1 export HF_DATASETS_OFFLINE=1
Клонируйте репозиторий модели напрямую, если вы предпочитаете не загружать отдельные файлы.
git clone https://huggingface.co/<username>/<repository> /my/local/directory
Убедитесь, что все необходимые файлы присутствуют в каталоге, в котором вы планируете выполнять свои сценарии. Помните, что установка TRANSFORMERS_OFFLINE только на 1 не будет работать, если модель еще не доступна локально. Вам необходимо либо загрузить модель с доступом в Интернет и сохранить ее локально, либо клонировать репозиторий модели.
gpt4all — это проект с открытым исходным кодом, который позволяет любому получить доступ и использовать мощные модели искусственного интеллекта, такие как GPT-3. Вот пошаговые инструкции по установке и использованию gpt4all:
pip install gpt4all
OPENAI_API_KEY
указав в качестве значения свой ключ API. export OPENAI_API_KEY="YOUR_API_KEY_HERE"
from gpt4all import completions summary = completions.generate(engine="text-davinci-003", prompt="Summarize this text: [insert long text here]", max_tokens=50) print(summary.text)
Ollamma — это библиотека с открытым исходным кодом, которая обеспечивает легкий доступ к большим языковым моделям, таким как GPT-3. Вот подробная информация о системных требованиях, установке и использовании:
Системные Требования:
Монтаж:
pip install ollamma
Использование:
import os os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>"
from ollamma import Client client = Client()
response = client.generate( engine="text-davinci-003", prompt="Hello world", max_tokens=100 ) print(response.generations[0].text)
Метод генерации позволяет вам указать механизм, приглашение и параметры, такие как максимальное количество токенов, для настройки вашего запроса.
Вы также можете настраивать движки, модерировать контент и многое другое. Дополнительную информацию обо всех доступных методах см. в документации Ollamma.
Подводя итог: Ollamma позволяет очень легко использовать GPT-3 и другие модели всего за несколько строк кода Python после установки и настройки!
LM Studio — это инструмент с открытым исходным кодом, который оптимизирует процесс обучения, оценки и использования современных языковых моделей на местном уровне. Вот шаги для запуска LM Studio локально:
а. Установите Docker Engine и Docker Compose на свой компьютер.
б. Клонируйте репозиторий LM Studio GitHub:
git clone https://github.com/lm-studio/lm-studio.git
config/
. Общие файлы включают в себя: а. model.yaml
: укажите архитектуру модели.
б. training.yaml
: установить параметры обучения
в. evaluation.yaml
: настроить параметры оценки.
а. Образы сборки: docker-compose build
б. Запустите все службы: docker-compose up -d
в. Просмотр журналов: docker-compose logs -f
д. Остановить службы: docker-compose down
Службы предоставляют различные порты, которые вы можете использовать для взаимодействия с пользовательским интерфейсом, API, блокнотами и многим другим.
Подводя итог, можно сказать, что LM Studio упрощает экспериментирование с моделями местного языка. Пользователям просто нужно клонировать репозиторий, настроить файлы настроек и использовать простые команды Docker, чтобы начать обучение, оценку и использование моделей.
Я считаю, что это самый удобный и простой способ из всех. Полное объяснение дано по ссылке ниже:
Подведено:
localllm
в сочетании с облачными рабочими станциями совершает революцию в разработке приложений на основе искусственного интеллекта, позволяя использовать LLM локально на процессоре и в памяти в среде Google Cloud. Устранив необходимость в графических процессорах, вы сможете преодолеть проблемы, связанные с нехваткой графических процессоров, и раскрыть весь потенциал LLM. Благодаря повышенной производительности, экономической эффективности и улучшенной безопасности данных localllm позволяет с легкостью создавать инновационные приложения.
Чтобы установить и использовать Llama.cpp для локального обучения и вывода, выполните следующие действия:
Установите зависимости:
Python 3 CMake Optional (for GPU acceleration) NVIDIA drivers, CUDA, and cuDNN For Windows, use Visual Studio Community with Desktop C++ Environment and Python 3 Clone the repository:
git clone --recursive https://github.com/abetlen/llama-cpp-python.git Если вы хотите использовать ускорение графического процессора, установите переменную среды, как описано в репозитории (например, в Linux):
export CMAKE_ARGS="-DLLAMA_CUBLAS=ON" Install Llamma.cpp:
Для локальной сборки и компиляции системы:
cd llama-cpp-python pip install -e . For Windows, or if you want prebuilt binaries, consider the following: No GPU support: pip install llama-cpp-python[server]
python -m llama_cpp.server --model models/7B/llama-model.gguf With GPU support: set FORCE_CMAKE=1 set CMAKE_ARGS=-DLLAMA_CUBLAS=ON pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir
python -m llama_cpp.server --model "path/to/your/model" Download and place Llama models in the models/ subdirectory within the Llama.cpp repository if they are not included (models like llama-model.gguf or ggml-* files are available on Hugging Face or GGML).
The llama_cpp/llama_cpp.py script provides a simple high-level interface in Python. Replace llama-model.gguf with your downloaded Llama model to test inference. If you want to train your own Llama model, you'll need to train it according to the official documentation and manually convert the GGML files into GGUF files (for GPU deployment).
Это градиентная реализация webui с открытым исходным кодом для генерации текста с использованием langchain.
Некоторые выдержки из файла README.md:
Это каталог расширений для
Если вы создаете собственное расширение, вы можете отправить его в этот список в PR.
Сложное расширение, создающее долговременную память для ботов в режиме чата.
AllTalk основан на движке Coqui TTS, аналогичном расширению Coqui_tts для веб-интерфейса генерации текста, однако поддерживает множество расширенных функций.
Расширение для генерации текста Webui на основе EdgeGPT от cheong08 для быстрого доступа в Интернет для вашего бота.
Вариант расширения coqui_tts в основном репозитории. Оба используют модель XTTSv2, но в этом есть функция «рассказчика» для текста, написанного *между звездочками*.
Это расширение предоставляет независимый расширенный блокнот, который всегда будет отображаться на верхней вкладке. Он имеет множество функций, которых нет в ноутбуке:
И у нас есть еще много интересного: Посмотрите:
https://github.com/oobabooga/text-generation-webui-extensions
И это еще не все! И многое другое! LangChain, блин, олламма, список становится все больше и больше!
Наступает славный год прекрасного творчества. Ваше здоровье!