Qualquer pessoa interessada na evolução da tecnologia de Inteligência Artificial sabe que as soluções atuais giram em torno de e . Resumindo, LLMs são redes neurais que podem prever o próximo token com base nos tokens de entrada. Normalmente, esses tokens são palavras (isso não é totalmente preciso, mas é mais fácil de conceituar dessa forma), e a saída da rede também é uma palavra. É assim que funciona o ChatGPT. Você insere uma pergunta e a rede gera uma palavra. Então, a pergunta e a palavra juntas tornam-se a entrada da rede, gerando outra palavra, e assim por diante, até que uma resposta completa seja formada. Large Language Models (LLMs) transformadores No entanto, os tokens podem ser mais do que apenas palavras. Modelos de linguagem avançados como GPT-4 ou Gemini são agora multimodais, o que significa que sua entrada pode incluir imagens e palavras. Assim como uma frase pode ser dividida em palavras, uma imagem pode ser dividida em pequenos pedaços e, a partir daí, a mesma arquitetura transformadora pode processá-los. Por exemplo, uma rede multimodal pode ser solicitada a descrever o que está em uma imagem ou a codificar a interface do usuário vista na imagem. Essa arquitetura é ainda mais geral. O sistema é um excelente exemplo, onde uma única rede de transformadores pode responder perguntas, jogar videogame ou controlar um robô simultaneamente, e os robôs podem até ser . Como um LLM funciona com tokens e qualquer tarefa pode ser tokenizada, um LLM fornece uma solução universal para qualquer tarefa. Gato da DeepMind controlados usando ChatGPT Uma das notícias de tecnologia mais comentadas recentemente foi sobre a empresa desenvolvendo um que pode executar LLMs com muito mais eficiência e com menos energia do que as GPUs tradicionais. Isto mostra claramente que a arquitetura LLM se tornou tão fundamental que agora vale a pena criar hardware especializado para ela. Groq ASIC (Circuito Integrado de Aplicação Específica) Também recentemente, uma publicação intitulada " " apareceu. A quantização de redes neurais é um método comum para reduzir o tamanho e a demanda computacional. A essência da solução é realizar o treinamento em grandes clusters de GPU usando números de ponto flutuante e, em seguida, converter os pesos da rede finalizada em um formato menos preciso, o que permite que os processadores dos dispositivos do usuário funcionem com mais eficiência. Por exemplo, o treinamento é realizado com números de ponto flutuante de 16 ou 32 bits, que são então convertidos em números de ponto fixo de 8 ou 4 bits para operações rápidas do lado do cliente. Dessa forma, o modelo pode funcionar bem mesmo em dispositivos móveis ou IoT. Uma forma extrema desta quantização é quando os pesos são convertidos em números de 1 bit. Esta pode ser uma , ou como sugere a publicação, usando os valores {-1,0,1} (daí os 1,58 bits). Poderíamos pensar que tal quantização extrema tornaria a rede completamente inutilizável, mas na realidade, o oposto é verdadeiro; essas redes de 1 bit funcionam excepcionalmente bem. A era dos LLMs de 1 bit: todos os modelos de linguagem grandes estão em 1,58 bits conversão binária completa Por quê isso é tão importante? Se esses três valores forem suficientes para representar os pesos, então a multiplicação, que atualmente é a operação mais utilizada em redes neurais, não é mais necessária. É por isso que os clusters de GPU são usados para redes neurais, já que as GPUs podem realizar multiplicações com muita eficiência. Sem a necessidade de multiplicações, não há necessidade de GPUs, e os modelos podem ser executados de forma eficiente mesmo em CPUs, ou é possível construir hardware especializado (ASIC) que pode (mesmo de forma analógica) rodar essas redes de 1 bit. Atualmente, a quantização é uma operação pós-treinamento. Assim, o uso de redes de 1 bit não acelera o processo de treinamento. No entanto, eles ainda são úteis porque o treinamento é uma operação única, mas a rede neural é executada inúmeras vezes. Consequentemente, o funcionamento das redes representa um consumo de energia significativamente maior do que o treino. Portanto, podemos beneficiar desta tecnologia mesmo no contexto da formação. Como o treinamento baseado em gradiente não funciona com redes binárias ou de 1 bit, tecnologias não baseadas em gradiente tornam-se relevantes (verifique e ), como algoritmos genéticos ou outras tecnologias livres de gradiente. Embora na maioria dos casos a retropropagação seja muito mais eficiente do que soluções sem gradiente, as redes de 1 bit podem ser executadas com muito mais eficiência do que suas contrapartes de ponto flutuante. Portanto, pode ser que, com a retropropagação, encontremos a rede ideal 10 vezes mais rápido usando números de ponto flutuante do que, digamos, com algoritmos genéticos. Mas se a rede de 1 bit funcionar 20 vezes mais rápido, o treinamento ainda será duas vezes mais rápido usando algoritmos genéticos. Investigar a eficácia com que redes de 1 bit podem ser treinadas com métodos livres de gradiente pode ser um tópico de pesquisa muito interessante. Nevergrad PyGAD Outra razão pela qual este tópico é tão fascinante é que estas redes se assemelham mais às redes neurais encontradas no cérebro natural (biologicamente plausível). Portanto, acredito que escolhendo um bom algoritmo de treinamento sem gradiente e aplicando essas redes de 1 bit, podemos construir sistemas muito mais parecidos com o cérebro humano. Além disso, isso abre a possibilidade para soluções tecnológicas além dos ASICs que anteriormente não eram viáveis, como processadores analógicos, baseados em luz ou mesmo de base biológica. É possível que esta direcção acabe por ser um beco sem saída a longo prazo, mas por agora, o seu potencial revolucionário é aparente, tornando-a uma via de investigação muito promissora para qualquer pessoa envolvida no campo da inteligência artificial.