Em 15 de novembro, MetaAI e Papers with Code anunciaram o lançamento do Galactica, um grande modelo de linguagem de código aberto e revolucionário, treinado em conhecimento científico com 120 bilhões de parâmetros.
Como um de meus amigos compartilhou no Twitter , o modelo pode escrever whitepapers, revisões, páginas da Wikipedia e código. Sabe citar e escrever equações. É um grande negócio para IA e ciência.
Em 17 de novembro, a Galactica foi fechada.
Por quê? Porque, como acontece com todos os modelos de aprendizado profundo, ele não entendia a tarefa em questão e estava errado em muitos casos. Isso não deve ser um problema, especialmente se adicionarmos um aviso dizendo que o modelo pode estar errado e não devemos confiar nele cegamente. Assim como ninguém confiava na Wikipédia, não poderíamos colocar isso como referência em projetos do Ensino Médio. A questão é que a Galactica estava errada ou tendenciosa, mas parecia certa e autoritária .
Ainda assim, o modelo está disponível para pesquisadores e acredito que seja importante mantê-lo de código aberto.
Como outro amigo meu compartilhou, todo o drama em torno do novo modelo parece um pouco excessivo. Claro, o modelo não é perfeito, assim como todos os outros que estão atualmente disponíveis online. Precisamos dele online para testar suas limitações, trabalhar nele e melhorá-lo. Devemos ver esses tipos de publicações como alunos e permitir erros e melhorias sem medo de ser fechado ou cancelado.
De qualquer forma, não estamos aqui para discutir isso. Esperançosamente, ele estará de volta online em breve .
Estamos aqui para ver o que a Galactica é, ou era, e como ela poderia escrever artigos, análises, códigos e muito mais…
►Leia o artigo completo: https://www.louisbouchard.ai/galactica/
►Taylor et al., 2022: Galactica, https://galactica.org/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
em 15 de novembro Metairie e papéis
0:03
com código anunciou o lançamento de
0:04
galatica um divisor de águas open source
0:07
modelo de linguagem grande treinado em
0:09
conhecimento científico com 120 bilhões
0:12
parâmetros como um dos meus amigos compartilhou
0:14
no Twitter a modelo pode escrever branco
0:16
papers revisam páginas e códigos da Wikipédia
0:19
sabe citar e escrever
0:22
equações é realmente um grande
0:24
acordo para IA e ciência em 17 de novembro
0:28
A Galactica foi fechada porque porque como
0:31
com todos os modelos de aprendizado profundo, não
0:34
compreender a tarefa em mãos e foi
0:36
errado em muitos casos isso não deveria ser um
0:39
problema, especialmente se adicionarmos um aviso
0:41
dizendo que o modelo pode estar errado e não
0:43
confie cegamente como ninguém
0:45
Wikipedia confiável, não poderíamos colocá-lo como
0:48
referência em projetos para o ensino médio o
0:50
questão era que a Galactica estava errada e
0:52
tendencioso, mas parecia certo e uteritativo
0:55
ainda o modelo está disponível para
0:57
pesquisadores e acho importante
0:59
para manter o código aberto como outro dos
1:02
meus amigos compartilharam todo o drama ao redor
1:04
este novo modelo parece um pouco excessivo de
1:06
claro que o modelo não é perfeito assim como
1:08
todos os outros que estão disponíveis no momento
1:10
online precisamos dele online para testar
1:13
limitações trabalhar nele e melhorá-lo nós
1:16
deveria ver esses tipos de fabricações
1:18
como alunos e permitir erros e
1:21
melhorias sem medo de ser
1:22
desligar ou cancelar de qualquer maneira, não estamos
1:26
aqui para discutir isso espero que sim
1:28
estar de volta online em breve estamos aqui para ver
1:30
o que Galactica é ou foi e como
1:33
poderia conseguir escrever revisões de artigos
1:35
matemática de código e mais basicamente Galactica
1:39
é um modelo de linguagem grande com um tamanho
1:41
comparável ao gpt3, mas especializado em
1:44
conhecimento científico mais precisamente
1:46
foi treinado em um grande e com curadoria
1:48
Corpus de conhecimento científico, incluindo
1:50
mais de 48 milhões de livros didáticos e
1:54
palestra observa milhões de compostos e
1:56
sites científicos de proteínas
1:58
enciclopédias e muito mais à medida que destacam
2:00
dados eram de alta qualidade e altamente
2:03
curadoria que é uma das grandes
2:05
diferença com gpt3 Então, em teoria
2:08
Galactica contém praticamente todos os
2:10
O conhecimento científico da humanidade imagina
2:12
ter uma memória incrível e tempo para
2:15
leia milhões de pesquisas lembrando
2:18
a maior parte bem, isso é Galactica
2:21
parece que sua memória não é tão boa
2:23
afinal e mistura tudo mesmo
2:25
embora possamos supor que a maioria das informações
2:27
presente no conjunto de dados de treinamento foi
2:29
preciso mesmo considerando todos os dispositivos
2:31
e falhas Galactica permanece bonita
2:34
poderoso e supera praticamente todos
2:36
outras abordagens para assuntos científicos relacionados
2:39
tarefas não é suficiente para um produto
2:41
podemos ter confiança em ainda é
2:44
vale a pena entender como funciona
2:46
especialmente porque ele vai voltar
2:48
ainda mais poderoso assim que nós
2:51
mencionado Galactica é uma linguagem grande
2:53
modelo semelhante ao gpt3 ou Bloom
2:55
especificamente treinado para como eles dizem
2:58
organizar a ciência também há muito
3:01
engenharia acontecendo neste modelo
3:03
permitindo tanta versatilidade em sua
3:05
entradas e saídas como especiais
3:07
tokenização de citações ou proteínas
3:09
sequências que você pode aprender mais em
3:11
seu papel linkado abaixo de seu
3:13
esforço de tokenização é de longe o
3:15
maior contribuição deste trabalho
3:17
tokenização basicamente significa a forma como o
3:20
modelo verá os dados em vez de palavras
3:23
matemática ou formas que entendemos eu
3:26
compartilhar um vídeo sobre incorporação e
3:28
tokenização no final desta semana, então se isso
3:30
parece interessante fique atento para isso
3:33
e se inscreva para não perder então aceite
3:35
essa tokenização estranha e
3:37
etapas de pré-processamento o que é Galactica
3:39
e o que ele faz depois de tomar o
3:42
palavras ou diferentes entradas científicas e
3:44
preparando-o para o modelo fazendo
3:46
tokenização não é surpresa que a Galactica seja
3:50
mais um Transformer baseado
3:52
arquitetura como gpt3 com um par de
3:55
variações, incluindo a tokenização
3:57
diferenças, então eu definitivamente convido você
3:59
para apenas um dos muitos vídeos que eu ou alguns
4:02
dos meus amigos fizeram a cobertura do
4:04
Arquiteturas transformadoras como eu não vou conseguir
4:06
em como eles funcionam mais uma vez o segundo
4:09
grande diferença entre Galactica e
4:11
outros grandes modelos de linguagem é o que eles
4:13
chame o prompt de pré-treinamento, isso significa
4:16
que eles incluirão prompts extraídos
4:18
a partir dos dados de treinamento definidos ao lado do
4:21
dados em si, que foi mostrado para
4:23
maximizar a generalidade do modelo
4:25
enquanto aumenta o desempenho em algumas tarefas
4:28
de interesse e é basicamente isso
4:31
Eu disse que a arquitetura é muito parecida
4:33
para o que você já sabe e principalmente o
4:35
esquemas de treinamento e pré-processamento variam
4:37
o que mostra que o modelo não é
4:39
tudo, menos como pregamos através do
4:41
dados para isso podem realmente importar mesmo
4:43
mais você pode basicamente ver o
4:45
diferença entre gpt3 e Galactica como
4:48
o mesmo aluno com uma ciência ruim
4:49
professor versus um bom tem o
4:52
mesmas capacidades e recursos que
4:55
professor apenas o tornou mais acessível e
4:57
compreensível para ele é claro que isso
4:59
foi apenas uma visão geral do papel e eu
5:02
recomendo vivamente a sua leitura existem
5:04
toneladas de detalhes sobre os múltiplos
5:06
truques de engenharia que eles implementaram
5:08
junto com detalhes de análise de resultados em
5:11
todas as tarefas que realizam usando o
5:13
modelo e como ele entendeu a entrada
5:15
dados e suas previsões suas limitações
5:18
preconceitos e muito mais espero que tenham gostado
5:21
este vídeo e até a próxima semana
5:23
com outro papel incrível e um especial
vídeo sobre o que são embeddings