paint-brush
O potencial revolucionário dos modelos de linguagem de 1 bit (LLMs)por@thebojda
6,249 leituras
6,249 leituras

O potencial revolucionário dos modelos de linguagem de 1 bit (LLMs)

por Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

Muito longo; Para ler

LLMs de 1 bit são uma forma potencial de construir redes neurais muito mais eficientes, biologicamente mais plausíveis e executadas com mais eficiência em hardware especializado. Investigar a eficácia com que redes de 1 bit podem ser treinadas com métodos livres de gradiente pode ser um tópico de pesquisa muito interessante.
featured image - O potencial revolucionário dos modelos de linguagem de 1 bit (LLMs)
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Qualquer pessoa interessada na evolução da tecnologia de Inteligência Artificial sabe que as soluções atuais giram em torno de Large Language Models (LLMs) e transformadores . Resumindo, LLMs são redes neurais que podem prever o próximo token com base nos tokens de entrada. Normalmente, esses tokens são palavras (isso não é totalmente preciso, mas é mais fácil de conceituar dessa forma), e a saída da rede também é uma palavra. É assim que funciona o ChatGPT. Você insere uma pergunta e a rede gera uma palavra. Então, a pergunta e a palavra juntas tornam-se a entrada da rede, gerando outra palavra, e assim por diante, até que uma resposta completa seja formada.


No entanto, os tokens podem ser mais do que apenas palavras. Modelos de linguagem avançados como GPT-4 ou Gemini são agora multimodais, o que significa que sua entrada pode incluir imagens e palavras. Assim como uma frase pode ser dividida em palavras, uma imagem pode ser dividida em pequenos pedaços e, a partir daí, a mesma arquitetura transformadora pode processá-los. Por exemplo, uma rede multimodal pode ser solicitada a descrever o que está em uma imagem ou a codificar a interface do usuário vista na imagem.

fonte: https://production-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Essa arquitetura é ainda mais geral. O sistema Gato da DeepMind é um excelente exemplo, onde uma única rede de transformadores pode responder perguntas, jogar videogame ou controlar um robô simultaneamente, e os robôs podem até ser controlados usando ChatGPT . Como um LLM funciona com tokens e qualquer tarefa pode ser tokenizada, um LLM fornece uma solução universal para qualquer tarefa.


fonte: https://deepmind.google/discover/blog/a-generalist-agent/



Uma das notícias de tecnologia mais comentadas recentemente foi sobre a empresa Groq desenvolvendo um ASIC (Circuito Integrado de Aplicação Específica) que pode executar LLMs com muito mais eficiência e com menos energia do que as GPUs tradicionais. Isto mostra claramente que a arquitetura LLM se tornou tão fundamental que agora vale a pena criar hardware especializado para ela.


Também recentemente, uma publicação intitulada " A era dos LLMs de 1 bit: todos os modelos de linguagem grandes estão em 1,58 bits " apareceu. A quantização de redes neurais é um método comum para reduzir o tamanho e a demanda computacional. A essência da solução é realizar o treinamento em grandes clusters de GPU usando números de ponto flutuante e, em seguida, converter os pesos da rede finalizada em um formato menos preciso, o que permite que os processadores dos dispositivos do usuário funcionem com mais eficiência. Por exemplo, o treinamento é realizado com números de ponto flutuante de 16 ou 32 bits, que são então convertidos em números de ponto fixo de 8 ou 4 bits para operações rápidas do lado do cliente. Dessa forma, o modelo pode funcionar bem mesmo em dispositivos móveis ou IoT. Uma forma extrema desta quantização é quando os pesos são convertidos em números de 1 bit. Esta pode ser uma conversão binária completa , ou como sugere a publicação, usando os valores {-1,0,1} (daí os 1,58 bits). Poderíamos pensar que tal quantização extrema tornaria a rede completamente inutilizável, mas na realidade, o oposto é verdadeiro; essas redes de 1 bit funcionam excepcionalmente bem.


Por quê isso é tão importante?

Se esses três valores forem suficientes para representar os pesos, então a multiplicação, que atualmente é a operação mais utilizada em redes neurais, não é mais necessária. É por isso que os clusters de GPU são usados para redes neurais, já que as GPUs podem realizar multiplicações com muita eficiência. Sem a necessidade de multiplicações, não há necessidade de GPUs, e os modelos podem ser executados de forma eficiente mesmo em CPUs, ou é possível construir hardware especializado (ASIC) que pode (mesmo de forma analógica) rodar essas redes de 1 bit.


Atualmente, a quantização é uma operação pós-treinamento. Assim, o uso de redes de 1 bit não acelera o processo de treinamento. No entanto, eles ainda são úteis porque o treinamento é uma operação única, mas a rede neural é executada inúmeras vezes. Consequentemente, o funcionamento das redes representa um consumo de energia significativamente maior do que o treino. Portanto, podemos beneficiar desta tecnologia mesmo no contexto da formação.


Como o treinamento baseado em gradiente não funciona com redes binárias ou de 1 bit, tecnologias não baseadas em gradiente tornam-se relevantes (verifique Nevergrad e PyGAD ), como algoritmos genéticos ou outras tecnologias livres de gradiente. Embora na maioria dos casos a retropropagação seja muito mais eficiente do que soluções sem gradiente, as redes de 1 bit podem ser executadas com muito mais eficiência do que suas contrapartes de ponto flutuante. Portanto, pode ser que, com a retropropagação, encontremos a rede ideal 10 vezes mais rápido usando números de ponto flutuante do que, digamos, com algoritmos genéticos. Mas se a rede de 1 bit funcionar 20 vezes mais rápido, o treinamento ainda será duas vezes mais rápido usando algoritmos genéticos. Investigar a eficácia com que redes de 1 bit podem ser treinadas com métodos livres de gradiente pode ser um tópico de pesquisa muito interessante.


Outra razão pela qual este tópico é tão fascinante é que estas redes se assemelham mais às redes neurais encontradas no cérebro natural (biologicamente plausível). Portanto, acredito que escolhendo um bom algoritmo de treinamento sem gradiente e aplicando essas redes de 1 bit, podemos construir sistemas muito mais parecidos com o cérebro humano. Além disso, isso abre a possibilidade para soluções tecnológicas além dos ASICs que anteriormente não eram viáveis, como processadores analógicos, baseados em luz ou mesmo de base biológica.


É possível que esta direcção acabe por ser um beco sem saída a longo prazo, mas por agora, o seu potencial revolucionário é aparente, tornando-a uma via de investigação muito promissora para qualquer pessoa envolvida no campo da inteligência artificial.