paint-brush
Os desafios, custos e considerações de construir ou ajustar um LLMpor@edouarddarchimbaud
11,373 leituras
11,373 leituras

Os desafios, custos e considerações de construir ou ajustar um LLM

por Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader

Muito longo; Para ler

O caminho para construir ou ajustar um LLM para sua empresa pode ser complexo. Sua equipe precisa de um guia para começar.
featured image - Os desafios, custos e considerações de construir ou ajustar um LLM
Edouard d'Archimbaud HackerNoon profile picture
0-item

Não é mais novidade que os LLMs mudaram e continuarão a mudar o jogo para a IA e os negócios em todos os setores. Um estudo da IBM descobriu que os CEOs estão cada vez mais adotando a IA generativa para melhorar a produtividade e obter vantagem competitiva. O estudo, que entrevistou 3.000 CEOs de todo o mundo, descobriu que 75% dos CEOs acreditam que a organização com a IA generativa mais avançada terá uma vantagem competitiva.


Se você está se perguntando sobre a melhor maneira de usar LLMs e se deve criá-los ou ajustá-los, gostaríamos de compartilhar este guia sobre o que você deve saber para fazer isso de forma eficaz e eficiente.


Primeiro, veremos como os LLMs estão sendo aplicados e em quais setores eles podem ter maior impacto, para que você tenha uma ideia melhor do que pode alcançar com um LLM. Em seguida, falaremos sobre por que construímos ou ajustamos um LLM. E, por fim, compartilharemos considerações críticas, estratégias e práticas recomendadas, para que sua equipe possa ter uma visão mais nítida depois de decidir.


Agora, vamos nos aprofundar em como os LLMs são projetados para mudar indústrias e negócios:

Como os LLMs estão mudando os setores

Indústria da Informação

Um documento de trabalho recente de pesquisadores da OpenAI, da Open Research e da Universidade da Pensilvânia descobriu que os LLMs geralmente podem afetar vários mercados dos EUA, e a indústria da informação provavelmente será a mais impactada devido ao seguinte:

  • A indústria da informação depende fortemente das capacidades básicas dos LLMs, como escrita, análise de dados, recuperação de informações e criação de conteúdo. Estes alinham-se estreitamente com os pontos fortes dos modelos generativos de IA.
  • Tarefas como redigir artigos, relatórios e outros conteúdos podem potencialmente gerar ganhos de produtividade significativos com os LLMs gerando rascunhos e revisões de forma autônoma.
  • Outras tarefas diárias da indústria da informação, como pesquisa, processamento de dados, marcação de conteúdo/geração de metadados e suporte ao cliente, também podem ser significativamente auxiliadas pelos LLMs.
  • As empresas de informação muitas vezes têm grandes volumes de dados de texto que podem ser usados para treinar e ajustar LLMs para serem altamente eficazes para seus casos de uso específicos.
  • A baixa fisicalidade do trabalho nesta indústria torna-a muito propícia à automação através de software.

Indústria bancária

Enquanto isso, um estudo da McKinsey cita o setor bancário como um dos setores que pode ver o impacto mais significativo graças aos LLMs. Se os casos de utilização forem totalmente implementados, prevêem que a tecnologia proporcionará um valor anual adicional de 200 mil milhões a 340 mil milhões de dólares.

  • Os LLMs podem melhorar o atendimento ao cliente, automatizando as respostas às dúvidas dos clientes, reduzindo o volume de contatos atendidos por humanos.
  • Podem também ajudar na avaliação de riscos, analisando grandes volumes de dados para identificar padrões e tendências que possam indicar riscos potenciais.
  • Além disso, os LLMs podem ajudar os bancos a cumprir os requisitos regulamentares, acompanhando as alterações regulamentares e atualizando automaticamente os procedimentos de conformidade em conformidade.

Indústria Farmacêutica e de Produtos Médicos

Curiosamente, o mesmo estudo da McKinsey também afirma que os produtos farmacêuticos e médicos poderiam ser impulsionados graças a modelos básicos e à IA generativa. O estudo afirma que o impacto poderá variar entre 60 e 110 mil milhões de dólares anuais . Em particular, eles veem potencial na descoberta de medicamentos. Veja como:

  • No desenvolvimento preliminar de medicamentos, os modelos básicos automatizam a seleção de produtos químicos potenciais, substituindo a inspeção manual de culturas celulares. Os modelos de fundação agrupam imagens experimentais semelhantes com precisão, auxiliando na seleção de produtos químicos promissores para análise posterior.
  • Na descoberta de indicações, as indicações potenciais de medicamentos são identificadas com base nos históricos clínicos e registros médicos dos grupos de pacientes. Esses modelos ajudam a quantificar eventos clínicos, estabelecer relações e medir a similaridade entre coortes de pacientes e indicações baseadas em evidências. O resultado é uma lista de indicações com maior probabilidade de sucesso em ensaios clínicos devido à correspondência precisa entre grupos de pacientes.
  • As empresas que utilizam esta abordagem têm observado altas taxas de sucesso nos testes, acelerando a progressão para os testes da Fase 3.

Os desafios e limitações dos LLMs

Mas embora o entusiasmo em torno dos modelos de base e dos LLMs possa suscitar ideias de soluções mágicas, a realidade é que os LLMs e os modelos de base não são perfeitos. Qualquer pessoa que tenha usado ChatGPT extensivamente ou outros LLMs no mercado viu que, especialmente para tarefas específicas de domínio, usar LLMs prontos para uso pode falhar. Aqui estão alguns desafios e limitações dos LLMs:

Alucinações

Talvez o problema mais comum que encontramos sejam as alucinações. As alucinações são um fenômeno em que os LLMs podem retornar afirmações incorretas que parecem plausíveis. Existem dois tipos de alucinações: intrínsecas e extrínsecas. As alucinações intrínsecas acontecem quando o modelo usa uma lógica falha que vai contra a entrada do usuário, enquanto as alucinações extrínsecas acontecem quando o modelo entende mal o contexto da pergunta do usuário.

Limitações de memória

Modelos básicos como GPT têm uma pequena janela de contexto e só podem receber um número limitado de caracteres como entrada, o que pode não ser ideal para aplicativos específicos. Semelhante aos humanos, à medida que o comprimento da entrada aumenta, aumenta também a dificuldade do modelo em processá-la com precisão.

Esquecimento catastrófico

O esquecimento catastrófico é um fenômeno que ocorre quando uma rede neural artificial é treinada em múltiplas tarefas sequencialmente, e os pesos cruciais na rede para a Tarefa A são modificados para se alinharem aos objetivos da Tarefa B. Isso pode fazer com que a rede esqueça a tarefa A, mesmo que anteriormente fosse capaz de executá-lo bem.

Problemas de qualidade de dados

Os LLMs, que são treinados principalmente em dados não rotulados, podem ser propensos a preconceitos porque os dados utilizados no seu processo de formação podem não ser uma representação precisa da distribuição de dados do mundo real. Isso ocorre porque os dados tendenciosos usados para treinamento podem ser refletidos na saída do modelo.

Essas limitações levam empresas e empreendimentos a pensar estrategicamente sobre como desejam trabalhar com LLMs. Na verdade, os LLMs têm um enorme potencial para mudar a forma como as empresas funcionam, o que pode proporcionar-lhes mais valor, mas estes desafios devem ser enfrentados. É aqui que pode surgir a questão de construir ou aperfeiçoar um LLM existente.

Quando você deve construir ou ajustar um LLM existente

Construindo seu Large Language Model (LLM) do zero

Quando faz sentido construir um LLM do zero? Criar seu próprio LLM fará mais sentido se você tiver um caso de uso único que os LLMs gerais existentes não podem atender ou se o LLM se tornar um produto principal ou um principal impulsionador de negócios para sua empresa. Além disso, se você tiver acesso a um grande volume de dados proprietários valiosos, também faria sentido construir um LLM para usá-los a seu favor, mantendo a privacidade e a segurança dos dados.

Ajustando um LLM

Você tem duas opções ao ajustar um LLM: optar por LLMs de código aberto existentes ou usar a API de LLMs comerciais. Um LLM comercial pode fazer mais sentido se sua equipe tiver menos conhecimento técnico, enquanto um modelo de código aberto lhe dará mais controle. Dito isto, existem riscos associados ao ajuste fino de um LLM. Você deve ficar atento a possíveis preconceitos, toxicidade e exposições à segurança de dados. Além disso, as APIs comerciais podem limitar a personalização do modelo e dos dados de treinamento e o controle do próprio produto.

Principais considerações na construção ou ajuste fino de um LLM existente

Alocação de recursos

Esteja você ajustando ou não ou optando por construir um LLM do zero, saiba que você deve estar disposto a alocar recursos significativos para atingir seu objetivo. Construir um LLM do zero requer enorme poder computacional, além de dedicação de tempo e dinheiro, bem como encontrar o conhecimento certo.


Por exemplo, as estimativas do GPT-3 da OpenAI, um grande modelo de linguagem com cerca de 175 bilhões de parâmetros, custam mais de US$ 4,6 milhões . A OpenAI também investiu em um supercomputador da Microsoft que possui mais de 285 mil núcleos de CPU e 10 mil GPUs. O modelo BloombergGPT menor da Bloomberg, com 50 bilhões de parâmetros, está estimado em cerca de US$ 2,7 milhões para ser construído. Estas estimativas não cobrem a iteração do modelo necessária para construir e garantir que estes LLMs sejam eficazes.


Para lidar eficazmente com o enorme tamanho dos LLMs, é necessário garantir que os dados sejam adequadamente limpos, rotulados, organizados e armazenados de forma eficiente. Lembre-se de que gerenciar e processar dados pode ser caro, especialmente considerando a infraestrutura, as ferramentas e os engenheiros de dados necessários.


É claro que ajustar um LLM talvez seja mais prático, pois custa menos do que construir o seu próprio LLM. O custo do ajuste fino de um LLM depende de vários fatores, incluindo o tamanho do modelo, a quantidade de dados usados para ajustá-lo e os recursos computacionais usados.


O custo do ajuste fino de um LLM também pode ser afetado pelo algoritmo específico de ajuste fino usado, e alguns algoritmos são mais caros computacionalmente do que outros. Os modelos de ajuste fino da OpenAI podem custar de US$ 0,0004 a US$ 0,0300 por 1.000 tokens e dependerão do tipo de modelo que você usará para treinar. E depois disso há um custo adicional de uso de cerca de US$ 0,0016 a US$ 0,1200 por 1.000 tokens.


Dito isto, os avanços em diferentes técnicas de ajuste fino permitiram reduzir os custos financeiros e computacionais. Um exemplo é o uso da abordagem de Avaliação de Políticas com Justiça e Transparência pela Hugging Face para ajustar o GPT-3 . Aproveitando este método e a biblioteca bitsandbytes, Hugging Face demonstrou que é possível ajustar um LLM significativamente maior do que a memória GPU disponível. Discutiremos mais alguns métodos neste artigo.

Experiência Técnica

Não deve ser surpresa que seja necessário conhecimento técnico avançado para construir e aperfeiçoar um LLM. Um engenheiro sênior de aprendizado de máquina estará equipado com o conhecimento necessário para ajustar um LLM. No entanto, você precisará de uma equipe de engenheiros de aprendizado de máquina genuinamente excepcionais para liderar e construir seu próprio LLM do zero de maneira adequada. Dê uma olhada nos perfis dos principais cientistas, pesquisadores e arquitetos de empresas de IA, como OpenAI, Meta e Google AI, para ter uma ideia melhor do tipo de engenheiros que você precisa ter em sua equipe para construir o LLM da sua organização. arranhar. Você também precisará garantir que esses pesquisadores tenham um forte conhecimento do seu setor e negócio.

Tamanho, qualidade e considerações éticas dos dados

Lixo no Lixo Fora


É sabido que construir seus próprios LLMs do zero exigirá uma grande quantidade de dados. Por exemplo, o LLaMA usou um conjunto de dados de treinamento contendo 1,4 trilhão de tokens, atingindo 4,6 terabytes. Versões menores do LLaMA foram treinadas em 1 trilhão de tokens. No caso do GPT, foram utilizados 1,5 trilhão de tokens.


Para ajustar LLMs, dependendo do seu método e recursos, você precisaria de menos. Um exemplo seria o Med-PaLM 2 do Google, que foi aprimorado a partir do PaLM LLM. De acordo com o artigo , a equipe de IA usou o ajuste fino das instruções e exigiu 193.000 exemplos, o que equivaleria a cerca de 19 milhões a 39 milhões de tokens. Med-PaLM 2 estabeleceu um novo estado da arte em comparação com seu antecessor ao pontuar 86,5% no conjunto de dados MedQA, que foi usado para medir o desempenho do Med-PaLM e PaLM.


Porém, mais do que o tamanho dos dados, as empresas também devem garantir que tomaram as medidas adequadas de qualidade dos dados, já que “entra lixo, sai lixo” ainda se aplica mesmo a grandes modelos de linguagem que usam grandes quantidades de dados de treinamento.


Ao usar dados proprietários, as organizações terão que descobrir as seguintes tarefas para garantir que a qualidade e a ética sejam mantidas em um alto padrão para modelos mais eficazes:


  1. Desduplicação e limpeza de dados: este processo envolve a identificação e remoção de entradas duplicadas no conjunto de dados para garantir que os dados sejam precisos e confiáveis. Também inclui a correção de erros, inconsistências e imprecisões nos dados, como valores ausentes ou formatação incorreta. Esta etapa é crucial para evitar treinar o modelo com dados incorretos ou redundantes, o que pode levar a um desempenho insatisfatório do modelo.
  2. Moderação de dados: As organizações precisam estabelecer um processo para moderar os dados usados para treinar seus modelos. Isto pode envolver a revisão manual dos dados, o uso de ferramentas automatizadas ou, idealmente, uma combinação de ambos, para filtrar conteúdo impróprio ou prejudicial. A moderação eficaz de dados ajuda a garantir que o modelo não aprenda a gerar esse conteúdo sozinho.
  3. Privacidade de dados: As organizações devem garantir que os seus dados respeitam os padrões de privacidade e cumprem os regulamentos relevantes, como o GDPR ou o CCPA. Isto pode envolver a anonimização dos dados pessoais, a obtenção das permissões necessárias para a utilização dos dados e a implementação de práticas seguras de armazenamento e tratamento de dados. Isto é crucial não apenas por razões éticas, mas também para evitar questões legais.
  4. Vieses de dados: os dados usados para treinar modelos muitas vezes podem conter preconceitos, que o modelo pode então aprender e perpetuar. As organizações precisam implementar processos para identificar e mitigar esses preconceitos nos dados. Isto poderia envolver diversas estratégias de recolha de dados, ferramentas de auditoria de preconceitos e abordagens para desviar os dados. Abordar o preconceito de dados é essencial para a construção de modelos justos e que produza resultados confiáveis em diferentes populações.

Desempenho do modelo

Dependendo dos objetivos da organização, o ajuste fino de um LLM pode ser suficiente. Existem diferentes maneiras de adaptar um LLM para atender às necessidades da sua organização e melhorar seu desempenho. No entanto, recomendamos seguir um método retroativo para determinar a abordagem ideal. Este método também ajuda a diminuir os custos de ajuste fino de um LLM, pois quanto mais você “retrocede” nessas etapas, mais as técnicas podem se tornar caras.


Vamos analisar isso da maneira mais simples.


Normalmente, o treinamento de um modelo básico ou LLM começaria com engenheiros de aprendizado de máquina passando por treinamento não supervisionado, depois treinamento supervisionado para ajustar o LLM e, finalmente, solicitando e ajustando rapidamente para obter o resultado necessário. É claro que existem diferentes etapas intermediárias, mas nos limitaremos a essas três etapas.

Ajustando um LLM


Nosso caminho recomendado para ajustar um LLM seria retroceder. Onde você primeiro inicia o ajuste de prompt, que inclui engenharia e depuração de prompt. Isso usaria menos recursos. No entanto, suponha que o LLM esteja estagnado ou não tenha o desempenho desejado. Nesse caso, você passa para o ajuste fino supervisionado/de instrução, que pode incluir métodos como RLHF, geração aumentada por recuperação ou aprendizagem por transferência.


Por exemplo, aumentamos a precisão do DinoV2 de 83 para 95% em um caso de uso específico de classificação de detecção de deserção por meio de aprendizagem por transferência usando apenas 200 exemplos rotulados.


Finalmente, se tudo mais falhar, o próximo passo seria optar por métodos não supervisionados e garantir que tenhamos um conjunto de dados adequado para pré-treinar o modelo.

Manutenção e atualizações

Como a maioria dos modelos implantados em ambientes dinâmicos, sejam eles construídos ou ajustados, os LLMs exigem reiteração para permanecerem eficazes com dados atualizados. A reiteração é reajustar um modelo para novos dados ou objetivos atualizados. As empresas devem criar processos robustos para reiterar modelos rotineiramente usando novos conjuntos de dados, normalmente iterativos, incluindo construção/ajuste, testes e implantação em produção.


As empresas que construíram LLMs de sucesso, como a OpenAI, lançam continuamente novas versões do GPT-3. Embora o limite de dados de treinamento do ChatGPT seja setembro de 2021, o OpenAI usa dados novos do comportamento do usuário para melhorar as habilidades preditivas do modelo , reduzir preconceitos e causar menos danos.

Alinhamento da Estratégia de Negócios

Seu objetivo de negócios também é um fator crítico para saber se faria sentido construir ou ajustar um LLM. Considere como as capacidades dos LLMs se enquadram na visão estratégica mais ampla da empresa. Dessa forma, você aproveita todo o potencial dessas ferramentas poderosas e, ao mesmo tempo, mantém o foco em seus principais objetivos de negócios. Alguns exemplos foram citados nos setores mencionados no início deste artigo, mas agora vamos discutir algumas das tarefas nas quais os LLMs se destacam e suas implicações estratégicas para diferentes setores:


  1. Resumo: LLMs podem extrair pontos-chave e resumos de documentos ou relatórios extensos. Isto pode ser de enorme valor em indústrias que lidam com grandes volumes de dados textuais. Por exemplo, empresas de pesquisa de mercado, que produzem e analisam relatórios extensos, podem usar LLMs para gerar resumos concisos, facilitando a extração de insights e o compartilhamento de descobertas com os clientes.
  2. Conclusão de texto: LLMs podem prever e gerar texto com base em prompts fornecidos, que podem ser usados para auxiliar na criação de conteúdo. As indústrias envolvidas na criação de conteúdos ou serviços de comunicação podem aproveitar isto para aumentar a produtividade e a criatividade.
  3. Perguntas e respostas (Q&A): LLMs podem responder a perguntas com base em um contexto fornecido, tornando-os úteis no atendimento ao cliente em vários setores. Os bancos, por exemplo, podem empregar chatbots com tecnologia LLM para lidar com as dúvidas dos clientes 24 horas por dia, fornecendo informações rápidas e precisas aos seus clientes e reduzindo a carga de trabalho da equipe de atendimento ao cliente.
  4. Chatbots: além das perguntas e respostas, os LLMs podem potencializar chatbots mais interativos e conversacionais, capazes de compreender o contexto e manter uma conversa em vários turnos. Isto pode melhorar a experiência do cliente em setores como varejo, telecomunicações e hotelaria, onde a interação com o consumidor é vital.
  5. Tradução: Os LLMs também podem traduzir textos entre diferentes idiomas, potencialmente quebrando barreiras de comunicação em negócios globais. Esta capacidade pode beneficiar indústrias como o turismo, o comércio internacional e empresas globais de tecnologia que operam em diferentes regiões linguísticas.

Avaliando grandes modelos de linguagem

Esteja você construindo ou ajustando um LLM, selecionar o LLM certo geralmente é o primeiro passo. Sim, mesmo para construir um LLM é comum olhar para a arquitetura de um modelo já existente e começar a partir daí. Seja qual for a sua escolha, as equipes devem experimentar e avaliar vários modelos para encontrar o melhor ponto de partida.


A avaliação dos LLMs também traz o seu próprio conjunto de desafios. Afinal, ainda é uma área de pesquisa em andamento, portanto não existe uma padronização ou sistematização rígida na avaliação desses modelos.


Existem, é claro, tabelas de classificação definidas por comunidades como o HuggingFace, que podem dar uma ideia geral do desempenho de um modelo. Mas o que pode ter um bom desempenho nas tabelas de classificação pode não se traduzir tão facilmente no seu caso de uso específico. Os LLMs são frequentemente avaliados em conjuntos de dados de referência, mas o seu desempenho pode não refletir com precisão o seu desempenho em cenários do mundo real, que podem ser muito mais diversos e imprevisíveis.


Existem duas abordagens para avaliar grandes modelos de linguagem: uma abordagem quantitativa e uma abordagem qualitativa. Ambos vêm com suas advertências.

Avaliação quantitativa

A avaliação quantitativa geralmente envolve métricas de aprendizado de máquina, como perplexidade, BLEU, perda de entropia cruzada, etc. Ferramentas como a biblioteca de avaliação OpenAI, o pacote lm-eval python da EleutherAI e a Avaliação Holística de Modelos de Linguagem (HELM) permitem que os usuários avaliem seus modelos em vários benchmarks quantitativamente.


Embora a avaliação quantitativa seja simples, estas métricas podem não ajudar necessariamente os utilizadores a selecionar um modelo apropriado para a sua tarefa específica. Os usuários geralmente precisam de um modelo que se destaque em suas tarefas específicas, como redigir um documento legal ou analisar o relatório financeiro de uma empresa, em vez de um modelo que possa prever o próximo token com a maior precisão.

Avaliação qualitativa

A avaliação qualitativa envolve avaliar LLMs com base em tarefas específicas usando critérios como coerência, preconceito, criatividade e confiabilidade. Esta avaliação manual é relativamente lenta, pois a velocidade e a disponibilidade de avaliadores humanos podem atrapalhá-la. Porém, é possível otimizar o processo aplicando as mesmas técnicas de automação na rotulagem de dados: aprendizagem ativa, controle de qualidade programático, controle de qualidade automático, etc.


Seria aconselhável uma combinação de avaliação quantitativa e qualitativa usando o conjunto de dados específico da sua empresa para encontrar o melhor LLM para ajustar ou basear.

Melhores Práticas

Entenda as leis de escala

As leis de dimensionamento no aprendizado de máquina costumavam se concentrar no aumento do tamanho dos modelos em relação ao tamanho do conjunto de dados à medida que os orçamentos de computação se expandiam. Isso partiu do pressuposto de que modelos maiores poderiam extrair mais insights e ter melhor desempenho, mesmo que a quantidade de dados permanecesse constante.


Mas em 2022, a DeepMind desafiou esta abordagem , sugerindo que os modelos são geralmente subtreinados e, portanto, o tamanho dos conjuntos de dados deveria crescer juntamente com o tamanho do modelo. De acordo com as descobertas da DeepMind, os tamanhos dos modelos e conjuntos de dados devem aumentar aproximadamente três vezes para cada aumento de dez vezes no poder de computação. Isto implica que os modelos atuais estão abaixo da curva ideal de dados/computação e simplesmente aumentá-los não produziria melhores resultados sem um aumento concomitante nos dados.


Essas novas leis de escalonamento recomendam determinar primeiro o tamanho máximo do conjunto de dados de alta qualidade, com base nas informações disponíveis. Em seguida, o tamanho ideal do modelo para esse conjunto de dados pode ser escolhido com base na computação disponível, usando as leis de escalabilidade ideal de dados da DeepMind. É essencial não criar modelos arbitrariamente grandes, mas encontrar o equilíbrio certo com base nos dados. Além disso, conjuntos de dados maiores requerem conhecimentos especializados para serem recolhidos e diversidade para melhorar a generalização, o que acrescenta outra camada de complexidade ao processo.

Qualidade dos dados

Fatores que influenciam a qualidade dos dados


Esteja você ajustando ou construindo um LLM, os modelos serão tão bons quanto os dados fornecidos. Portanto, seus dados devem ser representativos e extensivamente pré-processados. A diversidade de fontes de dados é benéfica mesmo para LLMs de domínios específicos.


Por exemplo, o Med-PaLM 2 do Google exigiu centenas a milhares de exemplos de vários conjuntos de dados de controle de qualidade médico e de saúde para que o modelo fosse devidamente ajustado. E para construir o BloombergGPT, o conjunto de dados utilizado foi de 51% de dados financeiros e 49% de dados de domínio geral para diversidade de tópicos. Em ambos os casos, os pesquisadores fizeram uma extensa curadoria de dados para garantir que dados relevantes e de alta qualidade fossem usados para construir modelos eficazes.

Pré-treinamento e experimentação em etapas incrementais

Não existe um caminho direto quando se trata de construir ou ajustar um LLM. Como a maioria dos empreendimentos de aprendizado de máquina ou IA, é sempre uma boa medida começar aos poucos . Começar com um modelo menor em um conjunto de dados menor tornará a experimentação mais fácil. Iterar e introduzir mudanças incrementais na arquitetura do modelo, como largura, profundidade, dispersão, etc., tornará mais fácil para sua equipe avaliar seu impacto. Você pode começar com modelos existentes mais antigos, ajustá-los às suas necessidades e começar a partir daí. Depois que seu modelo menor funcionar bem, você poderá aumentar gradualmente o tamanho do modelo e do conjunto de dados.


Lembre-se de salvar instantâneos do seu modelo como backup caso seja necessário um substituto. Os contratempos serão inevitáveis, quer você esteja construindo ou ajustando, por isso é fundamental antecipar os problemas.

Mitigando a instabilidade

Isto nos leva à prática crítica de economia de tempo para mitigar a instabilidade. Quanto maior o modelo, mais difícil é mantê-lo. Além do overfitting e do underfitting, seu modelo pode passar por problemas como desaparecimento ou explosão de gradientes, colapso de modo, picos de perda, esquecimento catastrófico e restrições de hardware.


Já discutimos o esquecimento catastrófico, que ocorre quando um modelo se sai mal em uma tarefa anterior após introduzir um novo tipo de tarefa. Gradientes que desaparecem ou explodem são problemas comuns no treinamento de redes neurais profundas, onde os gradientes se tornam muito pequenos ou muito grandes, resultando em desaceleração ou instabilidade do processo de aprendizagem. O colapso do modo ocorre em modelos generativos e acontece quando o modelo gera os mesmos resultados apesar de ter entradas diferentes. Os picos de perdas referem-se a previsões cada vez mais fracas do modelo. E, finalmente, trabalhar com LLMs pode ser um desafio para o hardware e pode resultar em falhas.


Existem várias maneiras de preparar ou, pelo menos, mitigar instabilidades. Estas não são inovadoras, mas são práticas padrão que você também pode ver em diferentes aplicações de aprendizagem profunda:


Tamanho do lote — Geralmente é aconselhável usar o maior tamanho de lote que caiba na memória da GPU. Tamanhos de lote maiores oferecem vantagens em termos de eficiência computacional, utilização de memória e estimativa de gradiente potencialmente mais precisa. Eles podem usar melhor os recursos de processamento paralelo das GPUs, resultando em tempos de treinamento mais rápidos.


Use técnicas de regularização — Técnicas de regularização, como abandono e redução de peso, podem ajudar a evitar overfitting ou instabilidade do modelo.


Normalização em lote — A normalização em lote pode ajudar a reduzir a mudança interna de covariáveis, permitindo uma convergência mais rápida e estável durante o treinamento. Também ajuda a aliviar o problema do desaparecimento do gradiente, garantindo que os gradientes fluam mais suavemente pela rede.


Escolhendo a inicialização de peso correta — A inicialização de peso desempenha um papel crítico na mitigação da instabilidade do treinamento e na garantia de um aprendizado eficaz. Uma abordagem comum para inicialização de peso é usar um pequeno ruído gaussiano. Isso envolve inicializar aleatoriamente os pesos de uma distribuição gaussiana com média zero e um pequeno desvio padrão. Ao adicionar ruído aleatório, os pesos recebem diversidade inicial, permitindo ao modelo explorar diferentes soluções durante o treinamento.


Aumento de dados – Se o seu modelo está lutando para generalizar e é propenso a overfitting, o aumento de dados pode ajudar a mitigar isso, introduzindo variações nos dados de treinamento e melhorando a robustez do modelo.


Programação da taxa de aprendizagem — Diminua gradualmente sua taxa de aprendizagem ao longo do tempo para reduzir suas perdas e manter a estabilidade do modelo tanto quanto possível. Você pode usar decaimento gradual ou decaimento exponencial. A redução gradual ocorre quando você reduz a taxa de aprendizado em um fator em intervalos regulares, enquanto a redução exponencial reduz a taxa de aprendizagem exponencialmente.

Conclusão

À medida que as empresas continuam a perceber o impacto dos LLMs, só faz sentido que as empresas comecem a perguntar qual é a melhor maneira de utilizar esta valiosa ferramenta. Escolher o LLM certo e ajustá-lo para atender às necessidades da sua empresa pode ser a opção mais simples. No entanto, ainda envolverá uma variedade de considerações para ajustar o modelo de forma eficaz e da maneira mais eficiente possível.


Primeiro, sua equipe deve ser capaz de avaliar corretamente uma variedade de LLMs para escolher o melhor ponto de partida. Eles devem se sentir confortáveis em experimentar o modelo. Para serem eficientes, eles precisam de dados de alta qualidade e das melhores práticas em mente ao criarem uma estratégia em torno da construção ou do ajuste fino de um LLM.


É um projeto complexo e ambicioso de qualquer maneira, mas como já vimos, os LLMs têm um potencial impressionante de agregar valor.

Referências:

[1] IBM e CEOs adotam IA generativa à medida que a produtividade salta para o topo de suas agendas (2023), Redação da IBM

[2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, GPTs são GPTs: uma análise antecipada do potencial de impacto de grandes modelos de linguagem no mercado de trabalho (2023), arXiv:2303.10130v4 [econ.GN]

[3] McKinsey & Company, O potencial econômico da IA generativa: a próxima fronteira de produtividade (2023), McKinsey Digital Insights

[4] C. Li, Desmistificando GPT-3 (2023), Lambda Labs Blog

[5] J. Langston, Microsoft anuncia novo supercomputador, apresenta visão para o trabalho futuro de IA (2020), Microsoft News Source Features Innovation

[6] J. Sheikh, O ChatGPT das Finanças está aqui: Bloomberg está combinando IA e Fintech (2023), Forbes.com

[7] E. d'Archimbaud, 3 maneiras de adaptar um modelo de base para atender às suas necessidades específicas (2023), Kili Technology.

[8] M. Heikkilä, Como a OpenAI está tentando tornar o ChatGPT mais seguro e menos tendencioso (2023), MIT Technology Review.

[9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A .Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S . Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy e V. Natarajany, Rumo à resposta a perguntas médicas de nível especializado com modelos de linguagem grande (2023), arXiv:2305.09617 v1 [cs.CL] 16 de maio de 2023.

[10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: Um grande modelo de linguagem para finanças (2023) , arXiv:2303.17564v2 [cs.LG]

[11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Training Compute-Optimal Large Language Models (2023), arXiv:2203.15556v1 [cs.CL]

[12] A. Pai, Guia para iniciantes para construir seus próprios modelos de linguagem grandes a partir do zero (2023), Analytics Vidhya.

[13] Pesos e preconceitos, como treinar LLMs do zero (2023), Whitepaper de pesos e preconceitos.