paint-brush
Galactica é um modelo de IA treinado em 120 bilhões de parâmetrospor@whatsai
2,622 leituras
2,622 leituras

Galactica é um modelo de IA treinado em 120 bilhões de parâmetros

por Louis Bouchard6m2022/11/26
Read on Terminal Reader

Muito longo; Para ler

MetaAI e Papers with Code anunciaram o lançamento do Galactica, um grande modelo de linguagem de código aberto e revolucionário, treinado em conhecimento científico com 120 bilhões de parâmetros. O modelo pode escrever whitepapers, revisões, páginas da Wikipédia e código. Sabe citar e escrever equações. É um grande negócio para IA e ciência. Em 17 de novembro, a Galactica foi encerrada porque não entendia a tarefa em questão e estava errada em muitos casos. Ainda assim, o modelo está disponível para pesquisadores e acredito que seja importante mantê-lo de código aberto.
featured image - Galactica é um modelo de IA treinado em 120 bilhões de parâmetros
Louis Bouchard HackerNoon profile picture

Em 15 de novembro, MetaAI e Papers with Code anunciaram o lançamento do Galactica, um grande modelo de linguagem de código aberto e revolucionário, treinado em conhecimento científico com 120 bilhões de parâmetros.

Como um de meus amigos compartilhou no Twitter , o modelo pode escrever whitepapers, revisões, páginas da Wikipedia e código. Sabe citar e escrever equações. É um grande negócio para IA e ciência.

Em 17 de novembro, a Galactica foi fechada.

Por quê? Porque, como acontece com todos os modelos de aprendizado profundo, ele não entendia a tarefa em questão e estava errado em muitos casos. Isso não deve ser um problema, especialmente se adicionarmos um aviso dizendo que o modelo pode estar errado e não devemos confiar nele cegamente. Assim como ninguém confiava na Wikipédia, não poderíamos colocar isso como referência em projetos do Ensino Médio. A questão é que a Galactica estava errada ou tendenciosa, mas parecia certa e autoritária .

Ainda assim, o modelo está disponível para pesquisadores e acredito que seja importante mantê-lo de código aberto.

Como outro amigo meu compartilhou, todo o drama em torno do novo modelo parece um pouco excessivo. Claro, o modelo não é perfeito, assim como todos os outros que estão atualmente disponíveis online. Precisamos dele online para testar suas limitações, trabalhar nele e melhorá-lo. Devemos ver esses tipos de publicações como alunos e permitir erros e melhorias sem medo de ser fechado ou cancelado.

De qualquer forma, não estamos aqui para discutir isso. Esperançosamente, ele estará de volta online em breve .

Estamos aqui para ver o que a Galactica é, ou era, e como ela poderia escrever artigos, análises, códigos e muito mais…

Saiba mais no vídeo

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/galactica/
►Taylor et al., 2022: Galactica, https://galactica.org/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

em 15 de novembro Metairie e papéis

0:03

com código anunciou o lançamento de

0:04

galatica um divisor de águas open source

0:07

modelo de linguagem grande treinado em

0:09

conhecimento científico com 120 bilhões

0:12

parâmetros como um dos meus amigos compartilhou

0:14

no Twitter a modelo pode escrever branco

0:16

papers revisam páginas e códigos da Wikipédia

0:19

sabe citar e escrever

0:22

equações é realmente um grande

0:24

acordo para IA e ciência em 17 de novembro

0:28

A Galactica foi fechada porque porque como

0:31

com todos os modelos de aprendizado profundo, não

0:34

compreender a tarefa em mãos e foi

0:36

errado em muitos casos isso não deveria ser um

0:39

problema, especialmente se adicionarmos um aviso

0:41

dizendo que o modelo pode estar errado e não

0:43

confie cegamente como ninguém

0:45

Wikipedia confiável, não poderíamos colocá-lo como

0:48

referência em projetos para o ensino médio o

0:50

questão era que a Galactica estava errada e

0:52

tendencioso, mas parecia certo e uteritativo

0:55

ainda o modelo está disponível para

0:57

pesquisadores e acho importante

0:59

para manter o código aberto como outro dos

1:02

meus amigos compartilharam todo o drama ao redor

1:04

este novo modelo parece um pouco excessivo de

1:06

claro que o modelo não é perfeito assim como

1:08

todos os outros que estão disponíveis no momento

1:10

online precisamos dele online para testar

1:13

limitações trabalhar nele e melhorá-lo nós

1:16

deveria ver esses tipos de fabricações

1:18

como alunos e permitir erros e

1:21

melhorias sem medo de ser

1:22

desligar ou cancelar de qualquer maneira, não estamos

1:26

aqui para discutir isso espero que sim

1:28

estar de volta online em breve estamos aqui para ver

1:30

o que Galactica é ou foi e como

1:33

poderia conseguir escrever revisões de artigos

1:35

matemática de código e mais basicamente Galactica

1:39

é um modelo de linguagem grande com um tamanho

1:41

comparável ao gpt3, mas especializado em

1:44

conhecimento científico mais precisamente

1:46

foi treinado em um grande e com curadoria

1:48

Corpus de conhecimento científico, incluindo

1:50

mais de 48 milhões de livros didáticos e

1:54

palestra observa milhões de compostos e

1:56

sites científicos de proteínas

1:58

enciclopédias e muito mais à medida que destacam

2:00

dados eram de alta qualidade e altamente

2:03

curadoria que é uma das grandes

2:05

diferença com gpt3 Então, em teoria

2:08

Galactica contém praticamente todos os

2:10

O conhecimento científico da humanidade imagina

2:12

ter uma memória incrível e tempo para

2:15

leia milhões de pesquisas lembrando

2:18

a maior parte bem, isso é Galactica

2:21

parece que sua memória não é tão boa

2:23

afinal e mistura tudo mesmo

2:25

embora possamos supor que a maioria das informações

2:27

presente no conjunto de dados de treinamento foi

2:29

preciso mesmo considerando todos os dispositivos

2:31

e falhas Galactica permanece bonita

2:34

poderoso e supera praticamente todos

2:36

outras abordagens para assuntos científicos relacionados

2:39

tarefas não é suficiente para um produto

2:41

podemos ter confiança em ainda é

2:44

vale a pena entender como funciona

2:46

especialmente porque ele vai voltar

2:48

ainda mais poderoso assim que nós

2:51

mencionado Galactica é uma linguagem grande

2:53

modelo semelhante ao gpt3 ou Bloom

2:55

especificamente treinado para como eles dizem

2:58

organizar a ciência também há muito

3:01

engenharia acontecendo neste modelo

3:03

permitindo tanta versatilidade em sua

3:05

entradas e saídas como especiais

3:07

tokenização de citações ou proteínas

3:09

sequências que você pode aprender mais em

3:11

seu papel linkado abaixo de seu

3:13

esforço de tokenização é de longe o

3:15

maior contribuição deste trabalho

3:17

tokenização basicamente significa a forma como o

3:20

modelo verá os dados em vez de palavras

3:23

matemática ou formas que entendemos eu

3:26

compartilhar um vídeo sobre incorporação e

3:28

tokenização no final desta semana, então se isso

3:30

parece interessante fique atento para isso

3:33

e se inscreva para não perder então aceite

3:35

essa tokenização estranha e

3:37

etapas de pré-processamento o que é Galactica

3:39

e o que ele faz depois de tomar o

3:42

palavras ou diferentes entradas científicas e

3:44

preparando-o para o modelo fazendo

3:46

tokenização não é surpresa que a Galactica seja

3:50

mais um Transformer baseado

3:52

arquitetura como gpt3 com um par de

3:55

variações, incluindo a tokenização

3:57

diferenças, então eu definitivamente convido você

3:59

para apenas um dos muitos vídeos que eu ou alguns

4:02

dos meus amigos fizeram a cobertura do

4:04

Arquiteturas transformadoras como eu não vou conseguir

4:06

em como eles funcionam mais uma vez o segundo

4:09

grande diferença entre Galactica e

4:11

outros grandes modelos de linguagem é o que eles

4:13

chame o prompt de pré-treinamento, isso significa

4:16

que eles incluirão prompts extraídos

4:18

a partir dos dados de treinamento definidos ao lado do

4:21

dados em si, que foi mostrado para

4:23

maximizar a generalidade do modelo

4:25

enquanto aumenta o desempenho em algumas tarefas

4:28

de interesse e é basicamente isso

4:31

Eu disse que a arquitetura é muito parecida

4:33

para o que você já sabe e principalmente o

4:35

esquemas de treinamento e pré-processamento variam

4:37

o que mostra que o modelo não é

4:39

tudo, menos como pregamos através do

4:41

dados para isso podem realmente importar mesmo

4:43

mais você pode basicamente ver o

4:45

diferença entre gpt3 e Galactica como

4:48

o mesmo aluno com uma ciência ruim

4:49

professor versus um bom tem o

4:52

mesmas capacidades e recursos que

4:55

professor apenas o tornou mais acessível e

4:57

compreensível para ele é claro que isso

4:59

foi apenas uma visão geral do papel e eu

5:02

recomendo vivamente a sua leitura existem

5:04

toneladas de detalhes sobre os múltiplos

5:06

truques de engenharia que eles implementaram

5:08

junto com detalhes de análise de resultados em

5:11

todas as tarefas que realizam usando o

5:13

modelo e como ele entendeu a entrada

5:15

dados e suas previsões suas limitações

5:18

preconceitos e muito mais espero que tenham gostado

5:21

este vídeo e até a próxima semana

5:23

com outro papel incrível e um especial

vídeo sobre o que são embeddings