Todos nós já ouvimos falar do GPT-3 e temos uma ideia clara de suas capacidades. Você certamente já viu alguns aplicativos nascidos estritamente devido a este modelo, alguns dos quais eu abordei em um sobre o modelo. O GPT-3 é um modelo desenvolvido pela OpenAI que você pode acessar por meio de uma API paga, mas não tem acesso ao modelo em si.
O que torna o GPT-3 tão forte é sua arquitetura e tamanho. Tem 175 bilhões de parâmetros. Isso é o dobro do número de neurônios que temos em nossos cérebros!
Essa imensa rede foi praticamente treinada em toda a internet para entender como escrevemos, trocamos e entendemos o texto. Esta semana, Meta deu um grande passo para a comunidade. Eles acabaram de lançar um modelo que é tão poderoso quanto, se não mais, e totalmente de código aberto. Quão legal é isso? Saiba mais no vídeo...
►Leia o artigo completo: https://www.louisbouchard.ai/opt-meta/
►Zhang, Susan et al. “OPT: modelos de linguagem de transformador pré-treinados abertos.” https://arxiv.org/abs/2205.01068
►Vídeo do meu GPT-3 para modelos de linguagem grande:
►Postagem de Meta: https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
►Código: https://github.com/facebookresearch/metaseq
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
►Junte-se ao nosso canal Discord, aprenda AI juntos: https://discord.gg/learnaitogether
0:00
todos nós já ouvimos falar sobre gpt3 e temos
0:02
um pouco de uma ideia clara de sua
0:03
recursos que você certamente já viu
0:06
algumas aplicações nasceram estritamente devido a
0:08
este modelo alguns dos quais eu cobri em um
0:10
vídeo anterior gpd3 é um modelo desenvolvido
0:13
por openai que você pode acessar através de um
0:15
API paga mas não tem acesso ao modelo
0:18
em si o que torna o gpt3 tão forte é tanto
0:21
sua arquitetura e tamanho que tem
0:24
175 bilhões de parâmetros o dobro da quantidade
0:27
de neurônios que temos em nossos cérebros
0:30
imensa rede foi praticamente treinada
0:32
em toda a internet para entender como
0:34
escrevemos troca e entendemos texto
0:37
esta semana o meta deu um grande passo
0:39
encaminhar para a comunidade que eles apenas
0:41
lançou um modelo que é tão
0:43
poderoso se não mais e tem completamente
0:46
código aberto como é legal podermos
0:48
agora tem acesso a um modelo semelhante ao gpt e
0:51
brinque com ele diretamente sem ir
0:53
através de uma API e meta's de acesso limitado
0:56
opção de modelo mais recente, que significa
0:59
transformadores pré-treinados abertos é
1:01
disponível em vários tamanhos com
1:03
pesos pré-treinados para brincar ou fazer
1:05
qualquer trabalho de pesquisa, um dos quais é
1:07
comparável ao gp23 e tem o melhor
1:09
resultados que são notícias super legais para o
1:12
campo e principalmente para nós acadêmicos
1:14
pesquisadores, assim como gpg3 este novo
1:17
modelo pode gerar texto a partir de entradas do usuário
1:19
em muitas tarefas diferentes um dia
1:22
será capaz até mesmo de resumir semanas
1:24
valor do trabalho para você em relatórios claros
1:26
mas até então você ainda precisa escrever
1:28
eles você mesmo, pelo menos você pode obter alguns
1:30
ajudar a tornar este processo de relatório muito
1:33
mais eficiente usando ótimas ferramentas como
1:35
pesos e vieses do patrocinador deste episódio
1:38
pesos e bias permite que você facilmente
1:39
acompanhe todas as suas experiências com
1:41
apenas algumas linhas adicionadas ao seu
1:44
código, mas mais especificamente é realmente
1:46
legal como eles facilitaram a criação
1:48
de relatórios interativos incríveis
1:50
como este mostrando claramente sua equipe
1:53
ou o próprio futuro sua matriz de execução
1:55
hiperparâmetros e configurações de dados
1:57
ao lado de quaisquer notas que você ou sua equipe tiveram
2:00
no momento os relatórios são facilmente feitos
2:02
seguintes modelos gerados a partir do seu
2:04
executa métricas e você só precisa adicionar
2:06
seus comentários é um recurso poderoso para
2:08
ou adicione comentários rápidos em um
2:10
experimente ou crie uma análise refinada
2:12
peças capturando e compartilhando seu trabalho
2:14
é essencial se você quiser melhorar o seu
2:16
transportadora profissional então eu recomendo
2:18
usando ferramentas que melhoram a comunicação
2:20
em sua equipe, como pesos e preconceitos, tente
2:23
com o primeiro link abaixo e comece
2:25
compartilhando seu trabalho como um profissional
2:29
opt ou mais precisamente opt-175b
2:33
é muito semelhante ao gpt3, então eu fortemente
2:36
recomendo assistir meu vídeo para melhor
2:37
entender como grandes modelos de linguagem
2:40
trabalho gpd3 e opt não pode pelo menos
2:42
resuma seus e-mails ou escreva rapidamente
2:44
ensaio baseado em um assunto, ele também pode
2:46
resolver problemas básicos de matemática resposta
2:49
perguntas e mais a principal diferença
2:51
com gpt3 é que este está aberto
2:53
fonte, o que significa que você tem acesso a
2:56
seu código e até modelos pré-treinados para
2:58
jogar diretamente com outro significativo
3:00
fato engraçado é que o treinamento de opt é usado como
3:03
7º da pegada de carbono como gpt3
3:06
que é outro passo na direita
3:08
direção você pode ver que este novo
3:10
modelo é muito semelhante ao gpt3, mas aberto
3:13
fonte para um modelo de linguagem usando
3:15
transformadores que eu abordei em vídeos
3:18
antes disso foi treinado em muitos
3:19
diferentes conjuntos de dados que se poderia dizer no
3:22
toda a internet para processar texto e
3:24
gerar mais texto para entender melhor
3:27
como eles funcionam eu novamente encaminhá-lo para o
3:29
vídeo que fiz cobrindo gpt3 como eles são
3:31
modelos muito semelhantes aqui o que eu realmente
3:34
queria cobrir é o esforço da meta para fazer
3:36
este tipo de modelo acessível a
3:38
todos enquanto se esforçam muito
3:40
em compartilhar suas limitações vieses e
3:43
riscos, por exemplo, eles viram que optar
3:45
tende a ser repetitivo e ficar preso em
3:48
um loop que raramente acontece para nós
3:50
caso contrário, ninguém vai falar com você desde
3:53
foi treinado na internet eles também
3:55
descobriu que opt tem uma alta propensão a
3:57
gerar linguagem tóxica e reforçar
4:00
estereótipos nocivos basicamente
4:02
replicando nossos comportamentos gerais e
4:04
preconceitos que também pode produzir factualmente
4:07
declarações incorretas que é
4:08
indesejável se você quiser que as pessoas tomem
4:10
você seriamente essas limitações são algumas
4:13
das razões mais significativas para essas
4:15
modelos não substituirão os humanos tão cedo
4:17
para trabalhos importantes de tomada de decisão ou
4:20
até mesmo ser usado com segurança em comerciais
4:22
produtos eu convido você a ler seus
4:24
papel para sua análise aprofundada do
4:26
capacidade do modelo e entender melhor
4:28
seus esforços em tornar este modelo mais
4:30
ecologicamente correto e seguro de usar
4:33
você também pode ler mais sobre seus
4:34
processo de treinamento e tente você mesmo
4:36
com seu código publicamente disponível todos
4:39
os links estão na descrição tal
4:41
contribuições de código aberto com novas
4:43
documentação de modelos e código disponível
4:45
são muito importantes para a pesquisa
4:47
comunidade para o avanço da ciência e eu sou
4:49
Ainda bem que uma grande empresa como a meta faz isso
4:52
graças a eles pesquisadores de todo
4:54
o mundo poderá experimentar
4:56
com modelos de linguagem de última geração
4:58
em vez de versões menores, estou animado
5:00
para ver todos os próximos avanços
5:02
vai criar e eu adoraria ver o que você
5:04
caras fazem com isso, sintam-se à vontade para comentar
5:06
abaixo do vídeo ou junte-se à nossa comunidade
5:09
desconhecido e compartilhe seus projetos
5:10
lá se chama aprender ai juntos e
5:13
você também pode encontrar um link abaixo, espero
5:15
você gostou do vídeo desta semana que foi um
5:17
um pouco diferente do usual cobrindo isso
5:19
notícias empolgantes e esforços essenciais para
5:21
compartilhar pesquisas publicamente disponíveis que irei
5:24
vejo você na próxima semana com outro incrível
5:26
papel