paint-brush
Como usar um modelo de IA sem censura e treiná-lo com seus dadospor@jeferson
29,612 leituras
29,612 leituras

Como usar um modelo de IA sem censura e treiná-lo com seus dados

por Jeferson Borba3m2023/12/25
Read on Terminal Reader

Muito longo; Para ler

Mistral é uma startup francesa, criada por ex-pesquisadores da Meta e DeepMind. Sob a licença Apache 2.0, este modelo afirma ser mais poderoso que o LLaMA 2 e o ChatGPT 3.5, ao mesmo tempo que é totalmente de código aberto. Aprenderemos como usá-lo sem censura e como treiná-lo com nossos dados.
featured image - Como usar um modelo de IA sem censura e treiná-lo com seus dados
Jeferson Borba HackerNoon profile picture
0-item

Já se foi o tempo em que ChatGPT era a solução singular na indústria de IA. Novos players como LLaMA e Gemini, desenvolvidos pela Meta e Google respectivamente, entraram em campo. Apesar das diferentes ferramentas e implementações, eles compartilham um ponto em comum: são de código fechado (com algumas exceções para LLaMA) e estão sob o controle de grandes empresas de tecnologia.


Este artigo explora um novo concorrente na indústria de IA, apresentando uma ferramenta de código aberto que supera o ChatGPT 3.5 e pode ser executada localmente. Também aprenderemos como usá-lo sem censura e como treiná-lo com nossos próprios dados.

Apresentando Mistral 8x7B

Mistral é uma startup francesa, fundada por ex-pesquisadores da Meta e DeepMind. Aproveitando seu amplo conhecimento e experiência, eles levantaram com sucesso US$ 415 milhões em investimentos, elevando a avaliação da Mistral para US$ 2 bilhões.

Link magnético Mistral 8x7B, publicado em 8 de dezembro

A equipe da Mistral começou a ganhar força quando lançou um link de torrent no X para seu novo modelo, Mistral 8x7B. De acordo com a licença Apache 2.0, este modelo não é apenas mais poderoso que o LLaMA 2 e o ChatGPT 3.5, mas também é totalmente de código aberto.

Poder e capacidades Mistral

  • Lida com um contexto de 32 mil tokens.


  • Funções em inglês, alemão, espanhol, italiano e francês.


  • Apresenta excelente desempenho ao gerar código.


  • Pode ser transformado em um modelo de seguimento de instruções.


Nos testes, o Mistral demonstrou um poder notável, superando o LLaMA 2 70B na maioria dos benchmarks e também igualando ou superando o ChatGPT 3.5 em outros benchmarks.

Comparação entre Mistral, LLaMA e GPT (de https://mistral.ai/news/mixtral-of-experts)

Executando Mistral localmente

Indo além das figuras e tabelas, vamos começar a ser práticos. Primeiro, precisaremos de uma ferramenta para nos ajudar a executá-lo localmente: Ollama . Os usuários do MacOS podem baixar o arquivo aqui . Para usuários Linux ou WSL, cole os seguintes comandos em seu terminal:

 curl https://ollama.ai/install.sh | sh


Podemos então executar LLMs localmente, mas não pretendemos simplesmente que uma IA responda a perguntas aleatórias - é para isso que serve o ChatGPT. Nosso objetivo é uma IA sem censura que possamos ajustar e ajustar de acordo com nossas preferências.


Considerando isso, usaremos o dolphin-mistral, uma versão customizada do Mistral que elimina todas as restrições. Para saber mais sobre como o golfinho-mistral removeu essas restrições, confira este artigo de seu criador.


Execute o seguinte comando em seu terminal para começar a executar o Ollama em seu computador:

 ollama serve


Então, em outro terminal, execute:

 ollama run dolphin-mistral:latest


O download inicial pode ser demorado, pois requer o download de 26 GB. Assim que o download for concluído, o mistral aguardará sua entrada.

Alerta do golfinho-mistral

Lembre-se de que executar o dolphin-mistral requer recursos substanciais do sistema, principalmente RAM.

Uso de recursos pelo golfinho-mistral

Treinando seu próprio modelo

Agora, você deve estar se perguntando sobre as possibilidades de treinar o mistral com seus dados. A resposta é um sim retumbante.


Comece criando uma conta no Hugging Face (se ainda não o fez) e depois crie um novo espaço.

Criação de espaço no Hugging Face

Escolha Docker para Autotrain

Selecionando o SDK do Espaço

A partir daqui, você pode selecionar seu modelo, fazer upload de seus dados e iniciar o treinamento. Treinar um modelo em um computador doméstico pode ser desafiador devido às demandas de hardware.


Serviços como o Hugging Face oferecem poder de computação (mediante taxa), mas você também pode considerar o Amazon Bedrock ou o Google Vertex AI para agilizar o processo.