paint-brush
Estado do LLM em 2023: uma rápida recapitulação dos últimos avançospor@vndee
620 leituras
620 leituras

Estado do LLM em 2023: uma rápida recapitulação dos últimos avanços

por Duy Huynh8m2024/01/26
Read on Terminal Reader

Muito longo; Para ler

O ano de 2023 marcou um período de crescimento e inovação significativos no campo dos grandes modelos de linguagem (LLMs).
featured image - Estado do LLM em 2023: uma rápida recapitulação dos últimos avanços
Duy Huynh HackerNoon profile picture
0-item

Ok, já se passou mais de um ano desde que o ChatGPT foi lançado. Antes deste ponto de viragem, a comunidade de investigação e os líderes da indústria já estavam a trabalhar ativamente na IA generativa, particularmente no domínio da visão computacional, com uma série de descobertas e aplicações de difusão estável. Para resumir brevemente, 2022 poderia ser considerado o ano da difusão estável e 2023 o ano dos grandes modelos de linguagem (LLMs).


A gangue de lhamas chegou à cidade - Imagem de DALL-E 3.


O início de 2023 marcou o domínio dos LLMs, com ChatGPT liderando a adoção generalizada e inovação. Este ano os LLMs se tornaram difundidos em vários setores, preenchendo efetivamente a lacuna entre a pesquisa teórica e as aplicações práticas da indústria. Vamos explorar os principais marcos e tendências que moldaram o cenário do LLM em 2023 e também ter alguns insights sobre como eles revolucionaram nossa interação com a tecnologia.

Ano do LLM de código aberto

Em 2023, testemunhamos um ano notável para grandes modelos de linguagem (LLMs) de código aberto. O lançamento mais significativo foi a série LLaMa da Meta, estabelecendo um precedente para lançamentos frequentes depois disso, com novos modelos surgindo a cada mês, semana e às vezes diariamente. Participantes importantes como Meta, EleutherAI, MosaicML, TIIUAE e StabilityAI introduziram uma variedade de modelos treinados em conjuntos de dados públicos, atendendo a diversas necessidades da comunidade de IA. A maioria desses modelos eram Transformers somente decodificadores, dando continuidade à tendência estabelecida pelo ChatGPT. Aqui estão alguns dos modelos mais notáveis lançados este ano:

  • LLaMa por Meta: A família LLaMa apresenta modelos de vários tamanhos, sendo que o maior modelo possui 65 bilhões de parâmetros, treinados em 1,4 trilhão de tokens. Notavelmente, os modelos menores, especialmente aquele com 13 bilhões de parâmetros, treinados em 1 trilhão de tokens, demonstraram desempenho superior ao aproveitar períodos de treinamento estendidos em mais dados, superando até mesmo modelos maiores em alguns benchmarks. O modelo 13B LLaMa superou o GPT-3 na maioria dos benchmarks, e o modelo maior estabeleceu novos benchmarks de desempenho de última geração após seu lançamento.

  • Pítia por Eleuther AI: Pythia compreende um conjunto de 16 modelos com 154 pontos de verificação parcialmente treinados, projetados para facilitar a pesquisa científica controlada em LLMs abertamente acessíveis e treinados de forma transparente. Esta série ajuda muito os pesquisadores, fornecendo artigos detalhados e uma base de código abrangente para o treinamento de LLMs.

  • MPT por MosaicML e Série Falcon da TIIUAE: Ambos foram treinados em diversas fontes de dados, de tokens de 1T a 1,5T, e produziram versões com parâmetros 7B e 30B. Notavelmente, no final do ano, a TIIUAE lançou um modelo 180B, o maior modelo de código aberto até o momento.

  • Mistral , Fi e orca : Esses modelos destacam outra tendência em 2023, com foco no treinamento de modelos menores e mais eficientes, adequados para hardware limitado e restrições orçamentárias, marcando uma mudança significativa em direção à acessibilidade e praticidade no desenvolvimento de modelos de IA.


O Llama 2 é pré-treinado usando dados online disponíveis publicamente. Uma versão inicial do Llama Chat é então criada através do uso de ajuste fino supervisionado. Em seguida, o Llama Chat é refinado iterativamente usando Reinforcement Learning from Human Feedback (RLHF), que inclui amostragem de rejeição e otimização de política proximal (PPO). - Llama 2: código aberto, gratuito para pesquisa e uso comercial

Modelo pequeno e eficiente

Em 2023, também assistimos ao lançamento de vários modelos pequenos e eficientes. A principal razão para esta tendência é o custo proibitivamente elevado de formação de grandes modelos para a maioria dos grupos de investigação. Além disso, modelos grandes são muitas vezes inadequados para muitas aplicações do mundo real devido aos seus elevados custos de treinamento e implantação, bem como aos seus requisitos significativos de memória e potência computacional. Por isso, modelos pequenos e eficientes surgiram como uma das principais tendências do ano. Como mencionado anteriormente, as séries Mistral e Orca têm sido peças-chave nesta tendência. Mistral surpreendeu a comunidade com um modelo 7B que superou seus equivalentes maiores na maioria dos benchmarks, enquanto a série Phi é ainda menor, com parâmetros de apenas 1,3B a 2,7B, mas oferece um desempenho impressionante.

Desempenho do Mistral-7b na série LLaMA - https://mistral.ai/news/announcing-mistral-7b/


Outra abordagem inovadora é Orca 2: Ensinando Modelos de Pequenas Linguagens Como Raciocinar , que envolve destilar o conhecimento de um modelo maior, como o GPT-4, para um modelo menor. Ao contrário de estudos anteriores que se baseavam principalmente na aprendizagem por imitação para replicar os resultados de modelos maiores, o Orca 2 visa equipar LLMs "menores", especificamente aqueles com parâmetros 7B e 13B, com vários métodos de raciocínio, como análise passo a passo e recuperação. -então-gerar técnicas. Essa abordagem permite que esses modelos identifiquem e apliquem o método mais adequado para cada tarefa, permitindo que o Orca 2 supere significativamente modelos de tamanho semelhante e até mesmo concorra com modelos 5 a 10 vezes maiores.

Resultados comparando Orca 2 (7B e 13B) com LLaMA-2-Chat (13B e 70B) e WizardLM (13B e 70B) em vários benchmarks (em configuração zero-shot) cobrindo compreensão de linguagem, raciocínio de bom senso, multi-passo raciocínio, resolução de problemas matemáticos, etc. - Orca 2: Ensinando modelos de pequenas línguas como raciocinar


O sucesso de modelos pequenos e eficientes depende em grande parte da qualidade dos dados e de truques de atenção rápida. Embora a Mistral não tenha divulgado as especificidades dos seus dados de formação, várias pesquisas e modelos mostraram que a qualidade dos dados é crucial para a formação de modelos eficazes. Uma das descobertas mais notáveis deste ano é LIMA: “Menos é mais para alinhamento” , que demonstrou que um conjunto de dados de alta qualidade gerado por humanos, composto por apenas 1.000 exemplos de treinamento, pode ser usado para ajuste fino para superar o mesmo modelo ajustado em 50.000 respostas geradas pelo ChatGPT.

Ajuste de adaptação de baixa classificação

Ok, vamos conversar sobre LoRA , que brilhou como a estrela mais brilhante entre os métodos de ajuste fino com eficiência de parâmetros introduzidos no ano passado. A Adaptação de Baixo Rank (LoRA) surgiu como uma virada de jogo para o ajuste fino de LLMs de forma eficiente. Ao introduzir a aproximação de matrizes de baixa classificação em modelos pré-treinados, o LoRA permite um ajuste fino com eficiência de parâmetros, reduzindo significativamente a carga computacional e os requisitos de armazenamento. Essa abordagem não apenas economiza recursos, mas também permite a personalização para diferentes aplicações sem comprometer os principais recursos do modelo básico.


Diferente entre LoRA e ajuste fino regular - Dicas práticas para ajuste fino de LLMs usando LoRA (adaptação de baixa classificação)


LoRA basicamente congela pesos de modelos pré-treinados e injeta camadas treináveis ( matrizes de decomposição de classificação ). Estas matrizes são compactas mas capazes de aproximar as adaptações necessárias ao comportamento do modelo, permitindo um ajuste fino eficiente enquanto mantêm a integridade do conhecimento do modelo original. Uma das variantes mais frequentemente usadas do LoRA é QLoRA (adaptação quantizada de baixa classificação) . É a versão com eficiência de memória do Vanilla LoRA, quantizando as matrizes de baixa classificação. Essa abordagem permite o uso de matrizes de baixa classificação no processo de ajuste fino sem aumentar o consumo de memória e com menos uso intensivo de computação.


QLORA melhora em relação ao LoRA quantizando o modelo do transformador com precisão de 4 bits e usando otimizadores paginados para lidar com picos de memória. - Imagem do papel: QLoRA (Quantized Low-Rank Adaption)

Mistura de especialistas

O Mistura de Especialistas (MoE) abordagem representa um salto significativo na arquitetura LLM no ano passado. MoE é um paradigma de aprendizado de máquina de longa história que simplifica problemas complexos, dividindo-os em subproblemas menores e mais gerenciáveis, cada um abordado por um submodelo especializado ou “especialista”. É o mesmo que ter uma equipe de especialistas, onde cada membro se destaca em uma determinada área. Num modelo MoE, cada especialista concentra-se num subconjunto específico de dados ou tarefas. A decisão de qual especialista utilizar para uma determinada entrada é feita por um “mecanismo de controle”, que atua como um diretor de tráfego, roteando as tarefas para o especialista mais adequado. Este método permite que os modelos do MoE lidem com eficiência e precisão com um amplo espectro de tarefas. O MoE é particularmente benéfico porque combina os pontos fortes de diversos modelos, levando a um melhor desempenho em tarefas complexas que podem ser difíceis de serem resolvidas por um modelo único e uniforme. É comparável a ter uma equipa de especialistas à sua disposição, garantindo que cada faceta de um problema é gerida por alguém com a experiência necessária, produzindo soluções mais refinadas e eficazes.

Camada MoE do papel Redes Neurais Escandalosamente Grandes: A Camada de Mistura de Especialistas Esparsamente Fechada, 2017.


Um dos modelos MoE mais notáveis lançados no ano passado é Mixtral-8x-7B , que alcançou um desempenho impressionante ao combinar oito modelos menores, cada um com parâmetros 7B, usando a abordagem MoE. Há também rumores de que o GPT-4 pode ser um modelo MoE, composto por oito modelos especialistas, cada um com 220 mil milhões de parâmetros.

Desempenho Mixtral-8x-7b

Da linguagem aos modelos de base geral

Os LLMs estão evoluindo para modelos básicos gerais, ampliando suas capacidades além do processamento de linguagem. Essa transição significa uma mudança em direção a modelos que possam compreender e gerar não apenas texto, mas também código, conteúdo visual, áudio e muito mais. No ano passado, vimos a introdução de modelos como LLaVA e GPT-4 para visão, que forneceu capacidades impressionantes na compreensão do conteúdo visual. Isto gerou pesquisas promissoras no campo de modelos de fundações gerais. Num futuro próximo, os modelos básicos gerais serão capazes de ver, ouvir e compreender o mundo ao seu redor, permitindo interações mais naturais e intuitivas com os humanos.


Um exemplo do projeto LLaVA.

Agentes equipados com ferramentas

A integração dos LLMs com diversas ferramentas e plataformas está tornando a IA mais acessível e prática para o uso diário. Os agentes equipados com essas ferramentas estão sendo adaptados para tarefas específicas, desde assistência de codificação até redação criativa, tornando a IA uma parte indispensável de muitos fluxos de trabalho profissionais. Este desenvolvimento foi possível devido às capacidades de raciocínio e ação dos LLMs. Esse tipo de recurso é frequentemente chamado de chamada de função no Reagir estrutura. Existem também muitos modelos treinados em conjuntos de dados que incluem chamadas de função para habilitar esse recurso. Essa funcionalidade permite que os desenvolvedores criem agentes LLM capazes de automatizar uma ampla gama de tarefas e fluxos de trabalho simples.


Comparando o método ReAct com outras técnicas de prompts - ReAct: Sinergizando Raciocínio e Ação em Modelos de Linguagem

OpenAI ainda domina o cenário da indústria

A OpenAI continua a dominar o cenário da indústria, mantendo a sua liderança em termos de investigação e aplicação. O GPT-4 e o novo Loja GPT O recurso do ChatGPT continua sendo o padrão da indústria, oferecendo aplicativos de IA generativos de alta qualidade que são incomparáveis e únicos, sem concorrentes chegando perto no momento. A OpenAI também demonstrou apoio significativo à sua comunidade de usuários ao organizar o primeiro Dia do desenvolvedor OpenAI e fornecendo vários recursos amigáveis ao desenvolvedor em 2023. Anthropic emerge como um dos concorrentes mais promissores, embora seu carro-chefe LLM, Cláudio , ainda não está amplamente disponível. Outro gigante da tecnologia, o Google, lançou Gêmeos no ano passado, o que foi bastante impressionante em comparação com a série GPT da OpenAI, segundo relatos. No entanto, ainda não conquistou força suficiente dentro da comunidade. Veremos o que acontece em 2024, quando eles planejam lançar a versão maior do Gemini.


Dia do desenvolvedor OpenAI - https://www.youtube.com/watch?v=U9mJuUkhUzk

Conclusão

O ano de 2023 marcou um período de crescimento e inovação significativos no campo dos grandes modelos de linguagem (LLMs). Desde a democratização da IA através de modelos de código aberto até ao desenvolvimento de sistemas mais eficientes e especializados, estes avanços não são apenas feitos técnicos, mas também passos para tornar a IA mais acessível e aplicável em vários domínios. Olhando para o futuro, o potencial destas tecnologias para transformar as indústrias e melhorar as capacidades humanas continua a ser uma perspectiva estimulante. Em 2024, prevemos marcos ainda mais notáveis, com a Meta anunciando planos para treinar o LLaMA-3 e tendo um plano para abri-lo. No cenário da indústria, também há grande interesse em ver se gigantes como o Google ou startups como a Anthropic podem superar a OpenAI.


Visite e assine meu blog pessoal para mais artigos.