paint-brush
Por que os modelos de linguagem de código aberto são verdadeiras “IA aberta”by@FrederikBussler
5,941
5,941

Por que os modelos de linguagem de código aberto são verdadeiras “IA aberta”

Frederik Bussler4m2024/02/05
Read on Terminal Reader

O futuro a longo prazo da IA não reside em modelos maiores e mais privados, servidos exclusivamente através de APIs, mas sim em modelos de linguagem de código aberto construídos abertamente ao lado das comunidades.
featured image - Por que os modelos de linguagem de código aberto são verdadeiras “IA aberta”
Frederik Bussler HackerNoon profile picture
0-item
1-item
2-item

Em 2015, um sem fins lucrativos chamado OpenAI foi formado para criar IA “ampla e uniformemente distribuída”. Avançando para 2024, a OpenAI fez a transição para o modo totalmente lucrativo, acumulando acesso a LLMs por trás de um serviço de API transacional. Mais recentemente, eles estão procurando um Avaliação de US$ 100 bilhões .


A última década de progresso da IA foi dominada por grandes empresas de tecnologia como Google, Meta e OpenAI, lançando modelos de linguagem proprietária cada vez maiores. De Bard e Claude ao GPT-4, grande parte do que há de mais moderno em processamento de linguagem natural (PNL) permaneceu concentrado nas mãos de alguns laboratórios de pesquisa.


No entanto, o futuro a longo prazo da IA não reside em modelos maiores e mais privados, servidos exclusivamente através de APIs, mas sim em modelos de linguagem de código aberto construídos abertamente ao lado das comunidades.

Modelos de linguagem de código aberto

Nos últimos anos, um punhado de startups, universidades e indivíduos dedicados ajudaram a ser pioneiros neste modelo aberto de desenvolvimento de modelos de linguagem.


O modelo mais recente que continua esta linhagem de código aberto é o H2O-Danube-1.8B . Pesando 1,8 bilhão de parâmetros, o Danúbio demonstra capacidade surpreendente, mesmo em comparação com outros modelos disponíveis publicamente, muitas vezes maiores que o seu tamanho. A equipe H2O.ai projetou, treinou e validou meticulosamente o Danúbio de forma totalmente transparente, com o relatório completo disponível no arXiv .


Em vez de acumular acesso, H2O.ai divulgou os parâmetros completos e o código de treinamento do Danube abertamente no HuggingFace. Poucos dias após o anúncio inicial, desenvolvedores curiosos começaram a experimentar livremente o modelo, demonstrando a rápida geração de inovação simplesmente inviável com modelos proprietários. Até o momento, todo o modelo h2o-danube-1.8b-chat foi baixado mais de 500 vezes no HuggingFace.


Qualquer pessoa pode usar o modelo com a biblioteca transformers , seguindo o código abaixo, cortesia do repositório HuggingFace da h2o:


 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]


A H2O acredita que a colaboração aberta continua a ser a chave definitiva para democratizar o acesso à IA e desbloquear benefícios para muitos, em vez de riqueza para poucos.

Outros modelos de linguagem de código aberto

O ecossistema de IA de código aberto continua a se expandir com desenvolvedores colaborando globalmente em modelos compartilhados. Além do H2O-Danúbio-1.8B, numerosas iniciativas dignas de nota visam evitar a concentração de conhecimento em jardins murados.

MPT

Desenvolvido pela startup MosaicML, o Machine Programming Transformer (MPT) incorpora técnicas como paralelização de mistura de especialistas e extrapolação de comprimento de contexto para melhorar a eficiência.

Falcão

O maior LLM de código aberto da Falcon é uma fera colossal de 180 bilhões de parâmetros , superando outros como LLaMA-2 , EstávelLM , Pijama Vermelho , e MPT .


Nesse tamanho, é recomendado ter 400 gigabytes de memória disponível para rodar o modelo.

Mistral

Fundada por ex-Googlers e pesquisadores Meta, a Mistral lançou o modelo Mistral 7B de 7 bilhões de parâmetros em setembro de 2022. O Mistral 7B alcança desempenho competitivo entre modelos abertos quase igualando o GPT-3 fechado em qualidade de amostra.

Modelos legados

Além dos modelos recém-lançados, os modelos anteriores de código aberto continuam a capacitar os desenvolvedores. GPT2 da OpenAI e GPT-J da EleutherAI possuem significado histórico, apesar de ficarem atrás das arquiteturas modernas. E Transformers como o BERT deram origem a uma subclasse inteira de inovações em PNL que impulsionam produtos em todo o mundo.


A narrativa da democratização só se fortalece graças às comunidades apaixonadas que contribuem generosamente com as suas criações para conjuntos comuns de conhecimento.

Um futuro mais justo

De muitas maneiras, os modelos de linguagem proprietária correm o risco de recriar muitas desigualdades com as quais a indústria tecnológica continua a lutar. A concentração do conhecimento em organizações ricas exclui equipes menores de moldar o progresso desde o início. E, posteriormente, torna a integração proibitivamente cara, uma vez disponível apenas por meio de APIs transacionais.


Os modelos de código aberto são vitais para semear um caminho mais equitativo. Aquele em que a agência está mais próxima de diversas comunidades que realmente criam aplicações concretas de IA. O longo arco de progresso só se inclina para a justiça quando as pessoas se unem em torno da própria tecnologia, em vez de qualquer organização que procure controlá-la.


O Danúbio e o paradigma aberto que representa oferecem apenas um vislumbre de uma visão alternativa. Um projeto impulsionado não por lucros ou prestígio de curto prazo, mas por capacitar desenvolvedores em todos os lugares para construir livremente sobre os ombros uns dos outros. Sempre haverá espaço para trabalho proprietário, mas o verdadeiro futuro da IA está em aberto.

Inovação orientada para a comunidade

O lançamento de modelos de código aberto atrai contribuições de uma comunidade motivada de desenvolvedores e pesquisadores. Este estilo colaborativo de trabalhar abertamente abre oportunidades únicas. Especialistas de todas as organizações podem revisar o trabalho uns dos outros para validar técnicas.


Os pesquisadores podem facilmente replicar e ampliar novas ideias em vez de reinventar a roda. E os engenheiros de software podem integrar e implementar rapidamente inovações nas ofertas dos clientes.


Talvez o mais promissor seja o fato de o paradigma aberto permitir que comunidades de nicho se reúnam em torno da personalização de modelos para casos de uso específicos. As equipes podem criar versões adaptadas a tópicos específicos, como medicina, direito ou finanças, que superam os modelos genéricos. Esses modelos especializados são então compartilhados para beneficiar o resto da comunidade. Juntos, os grupos tornam o progresso coletivo impossível em um único laboratório fechado.