O novo modelo OPT da Meta é um GPT-3 de código aberto by@whatsai
4,443 leituras

O novo modelo OPT da Meta é um GPT-3 de código aberto

2022/05/06
4 min
por @whatsai 4,443 leituras
tldt arrow
PT
Read on Terminal Reader

Muito longo; Para ler

Todos nós já ouvimos falar do GPT-3 e temos uma ideia clara de suas capacidades. Você certamente já viu alguns aplicativos nascidos estritamente devido a esse modelo, alguns dos quais eu abordei em um vídeo anterior sobre o modelo. O GPT-3 é um modelo desenvolvido pela OpenAI que você pode acessar por meio de uma API paga, mas não tem acesso ao modelo em si. O que torna o GPT-3 tão forte é sua arquitetura e tamanho. Tem 175 bilhões de parâmetros. Isso é o dobro do número de neurônios que temos em nossos cérebros! Essa imensa rede foi praticamente treinada em toda a internet para entender como escrevemos, trocamos e entendemos o texto. Esta semana, Meta deu um grande passo para a comunidade. Eles acabaram de lançar um modelo que é tão poderoso quanto, se não mais, e totalmente de código aberto. Quão legal é isso? Saiba mais no vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - O novo modelo OPT da Meta é um GPT-3 de código aberto
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

Cerca de @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

Todos nós já ouvimos falar do GPT-3 e temos uma ideia clara de suas capacidades. Você certamente já viu alguns aplicativos nascidos estritamente devido a este modelo, alguns dos quais eu abordei em um sobre o modelo. O GPT-3 é um modelo desenvolvido pela OpenAI que você pode acessar por meio de uma API paga, mas não tem acesso ao modelo em si.

O que torna o GPT-3 tão forte é sua arquitetura e tamanho. Tem 175 bilhões de parâmetros. Isso é o dobro do número de neurônios que temos em nossos cérebros!

Essa imensa rede foi praticamente treinada em toda a internet para entender como escrevemos, trocamos e entendemos o texto. Esta semana, Meta deu um grande passo para a comunidade. Eles acabaram de lançar um modelo que é tão poderoso quanto, se não mais, e totalmente de código aberto. Quão legal é isso? Saiba mais no vídeo...

Assista o vídeo

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/opt-meta/
►Zhang, Susan et al. “OPT: modelos de linguagem de transformador pré-treinados abertos.” https://arxiv.org/abs/2205.01068
►Vídeo do meu GPT-3 para modelos de linguagem grande:
►Postagem de Meta: https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
►Código: https://github.com/facebookresearch/metaseq
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
►Junte-se ao nosso canal Discord, aprenda AI juntos: https://discord.gg/learnaitogether

Transcrição de vídeo

0:00

todos nós já ouvimos falar sobre gpt3 e temos

0:02

um pouco de uma ideia clara de sua

0:03

recursos que você certamente já viu

0:06

algumas aplicações nasceram estritamente devido a

0:08

este modelo alguns dos quais eu cobri em um

0:10

vídeo anterior gpd3 é um modelo desenvolvido

0:13

por openai que você pode acessar através de um

0:15

API paga mas não tem acesso ao modelo

0:18

em si o que torna o gpt3 tão forte é tanto

0:21

sua arquitetura e tamanho que tem

0:24

175 bilhões de parâmetros o dobro da quantidade

0:27

de neurônios que temos em nossos cérebros

0:30

imensa rede foi praticamente treinada

0:32

em toda a internet para entender como

0:34

escrevemos troca e entendemos texto

0:37

esta semana o meta deu um grande passo

0:39

encaminhar para a comunidade que eles apenas

0:41

lançou um modelo que é tão

0:43

poderoso se não mais e tem completamente

0:46

código aberto como é legal podermos

0:48

agora tem acesso a um modelo semelhante ao gpt e

0:51

brinque com ele diretamente sem ir

0:53

através de uma API e meta's de acesso limitado

0:56

opção de modelo mais recente, que significa

0:59

transformadores pré-treinados abertos é

1:01

disponível em vários tamanhos com

1:03

pesos pré-treinados para brincar ou fazer

1:05

qualquer trabalho de pesquisa, um dos quais é

1:07

comparável ao gp23 e tem o melhor

1:09

resultados que são notícias super legais para o

1:12

campo e principalmente para nós acadêmicos

1:14

pesquisadores, assim como gpg3 este novo

1:17

modelo pode gerar texto a partir de entradas do usuário

1:19

em muitas tarefas diferentes um dia

1:22

será capaz até mesmo de resumir semanas

1:24

valor do trabalho para você em relatórios claros

1:26

mas até então você ainda precisa escrever

1:28

eles você mesmo, pelo menos você pode obter alguns

1:30

ajudar a tornar este processo de relatório muito

1:33

mais eficiente usando ótimas ferramentas como

1:35

pesos e vieses do patrocinador deste episódio

1:38

pesos e bias permite que você facilmente

1:39

acompanhe todas as suas experiências com

1:41

apenas algumas linhas adicionadas ao seu

1:44

código, mas mais especificamente é realmente

1:46

legal como eles facilitaram a criação

1:48

de relatórios interativos incríveis

1:50

como este mostrando claramente sua equipe

1:53

ou o próprio futuro sua matriz de execução

1:55

hiperparâmetros e configurações de dados

1:57

ao lado de quaisquer notas que você ou sua equipe tiveram

2:00

no momento os relatórios são facilmente feitos

2:02

seguintes modelos gerados a partir do seu

2:04

executa métricas e você só precisa adicionar

2:06

seus comentários é um recurso poderoso para

2:08

ou adicione comentários rápidos em um

2:10

experimente ou crie uma análise refinada

2:12

peças capturando e compartilhando seu trabalho

2:14

é essencial se você quiser melhorar o seu

2:16

transportadora profissional então eu recomendo

2:18

usando ferramentas que melhoram a comunicação

2:20

em sua equipe, como pesos e preconceitos, tente

2:23

com o primeiro link abaixo e comece

2:25

compartilhando seu trabalho como um profissional

2:29

opt ou mais precisamente opt-175b

2:33

é muito semelhante ao gpt3, então eu fortemente

2:36

recomendo assistir meu vídeo para melhor

2:37

entender como grandes modelos de linguagem

2:40

trabalho gpd3 e opt não pode pelo menos

2:42

resuma seus e-mails ou escreva rapidamente

2:44

ensaio baseado em um assunto, ele também pode

2:46

resolver problemas básicos de matemática resposta

2:49

perguntas e mais a principal diferença

2:51

com gpt3 é que este está aberto

2:53

fonte, o que significa que você tem acesso a

2:56

seu código e até modelos pré-treinados para

2:58

jogar diretamente com outro significativo

3:00

fato engraçado é que o treinamento de opt é usado como

3:03

7º da pegada de carbono como gpt3

3:06

que é outro passo na direita

3:08

direção você pode ver que este novo

3:10

modelo é muito semelhante ao gpt3, mas aberto

3:13

fonte para um modelo de linguagem usando

3:15

transformadores que eu abordei em vídeos

3:18

antes disso foi treinado em muitos

3:19

diferentes conjuntos de dados que se poderia dizer no

3:22

toda a internet para processar texto e

3:24

gerar mais texto para entender melhor

3:27

como eles funcionam eu novamente encaminhá-lo para o

3:29

vídeo que fiz cobrindo gpt3 como eles são

3:31

modelos muito semelhantes aqui o que eu realmente

3:34

queria cobrir é o esforço da meta para fazer

3:36

este tipo de modelo acessível a

3:38

todos enquanto se esforçam muito

3:40

em compartilhar suas limitações vieses e

3:43

riscos, por exemplo, eles viram que optar

3:45

tende a ser repetitivo e ficar preso em

3:48

um loop que raramente acontece para nós

3:50

caso contrário, ninguém vai falar com você desde

3:53

foi treinado na internet eles também

3:55

descobriu que opt tem uma alta propensão a

3:57

gerar linguagem tóxica e reforçar

4:00

estereótipos nocivos basicamente

4:02

replicando nossos comportamentos gerais e

4:04

preconceitos que também pode produzir factualmente

4:07

declarações incorretas que é

4:08

indesejável se você quiser que as pessoas tomem

4:10

você seriamente essas limitações são algumas

4:13

das razões mais significativas para essas

4:15

modelos não substituirão os humanos tão cedo

4:17

para trabalhos importantes de tomada de decisão ou

4:20

até mesmo ser usado com segurança em comerciais

4:22

produtos eu convido você a ler seus

4:24

papel para sua análise aprofundada do

4:26

capacidade do modelo e entender melhor

4:28

seus esforços em tornar este modelo mais

4:30

ecologicamente correto e seguro de usar

4:33

você também pode ler mais sobre seus

4:34

processo de treinamento e tente você mesmo

4:36

com seu código publicamente disponível todos

4:39

os links estão na descrição tal

4:41

contribuições de código aberto com novas

4:43

documentação de modelos e código disponível

4:45

são muito importantes para a pesquisa

4:47

comunidade para o avanço da ciência e eu sou

4:49

Ainda bem que uma grande empresa como a meta faz isso

4:52

graças a eles pesquisadores de todo

4:54

o mundo poderá experimentar

4:56

com modelos de linguagem de última geração

4:58

em vez de versões menores, estou animado

5:00

para ver todos os próximos avanços

5:02

vai criar e eu adoraria ver o que você

5:04

caras fazem com isso, sintam-se à vontade para comentar

5:06

abaixo do vídeo ou junte-se à nossa comunidade

5:09

desconhecido e compartilhe seus projetos

5:10

lá se chama aprender ai juntos e

5:13

você também pode encontrar um link abaixo, espero

5:15

você gostou do vídeo desta semana que foi um

5:17

um pouco diferente do usual cobrindo isso

5:19

notícias empolgantes e esforços essenciais para

5:21

compartilhar pesquisas publicamente disponíveis que irei

5:24

vejo você na próxima semana com outro incrível

5:26

papel




HISTÓRIAS RELACIONADAS

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa