paint-brush
O que é IA centrada em dados?por@whatsai
925 leituras
925 leituras

O que é IA centrada em dados?

por Louis Bouchard6m2022/07/09
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Os dados são cruciais em nosso campo e nossos modelos são extremamente famintos por dados. Alimentar imagens que não representam o mundo real será inútil e piorará a capacidade de generalização do modelo. É aqui que a IA centrada em dados entra em jogo...  Saiba mais no vídeo: Quanto mais dados você tiver, melhor será. Então você precisa escalar esses modelos, especialmente para aplicações do mundo real, especialmente aplicações do mundo real.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - O que é IA centrada em dados?
Louis Bouchard HackerNoon profile picture

O que torna GPT-3 e Dalle poderosos é exatamente a mesma coisa: Dados.

Os dados são cruciais em nosso campo e nossos modelos são extremamente famintos por dados. Esses modelos grandes, modelos de linguagem para GPT ou modelos de imagem para Dalle, exigem a mesma coisa: muitos dados.

Quanto mais dados você tiver, melhor será. Portanto, você precisa ampliar esses modelos, especialmente para aplicativos do mundo real.

Modelos maiores podem usar conjuntos de dados maiores para melhorar apenas se os dados forem de alta qualidade.

Alimentar imagens que não representam o mundo real será inútil e até mesmo piorará a capacidade de generalização do modelo. É aqui que a IA centrada em dados entra em jogo...

Saiba mais no vídeo:

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/data-centric-ai/
►IA centrada em dados: https://snorkel.ai/data-centric-ai
►Supervisão fraca: https://snorkel.ai/weak-supervision/
►Rotulagem programática: https://snorkel.ai/programmatic-labeling/
►Lista selecionada de recursos para IA centrada em dados: https://github.com/hazyresearch/data-centric-ai
►Saiba mais sobre o Snorkel: https://snorkel.ai/company/
►De IA centrada em modelo para centrada em dados - Andrew Ng:
►Software 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►Artigo 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. e Ré, C.,
2016. Programação de dados: criando grandes conjuntos de treinamento rapidamente. Adiantamentos
em sistemas de processamento de informações neurais, 29.
►Paper 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. e
Ré, C., 2017, novembro. Snorkel: criação rápida de dados de treinamento com fraco
supervisão. Em Anais do VLDB Endowment. Internacional
Conferência sobre bases de dados muito grandes (Vol. 11, No. 3, p. 269). NIH público
Acesso.
►Artigo 3: Ré, C. (2018). Software 2.0 e Snorkel: além de rotulados à mão
Dados. Anais da 24ª Conferência Internacional ACM SIGKDD sobre
Descoberta de conhecimento e mineração de dados.
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

o que torna gpt3 e delhi poderosos é

0:03

exatamente a mesma coisa que os dados são

0:06

crucial em nosso campo e nossos modelos são

0:08

extremamente famintos por dados, esses modelos grandes

0:11

modelos de linguagem para gpt ou imagem

0:13

todos os modelos para delhi exigem o mesmo

0:15

coisa

0:16

muitos dados, infelizmente, quanto mais

0:19

dados que você tem, melhor é para que você

0:21

precisam ampliar esses modelos, especialmente

0:24

para aplicações do mundo real maior

0:26

modelos podem usar conjuntos de dados maiores para

0:28

melhorar apenas se os dados forem de alta

0:30

imagens de alimentação de qualidade que não

0:32

representar o mundo real não terá

0:34

usar e até mesmo piorar a capacidade do modelo

0:37

para generalizar, é aqui que os dados são centrados

0:39

ai entra em ação centrada em dados ai também

0:43

conhecido como software 2.0 é apenas uma

0:46

maneira chique de dizer que otimizamos nosso

0:48

dados para maximizar o modelo

0:50

performances em vez de modelos centrados

0:52

onde você apenas ajustará o modelo

0:54

parâmetros em um conjunto de dados fixo, é claro

0:57

ambos precisam ser feitos para ter o melhor

0:59

resultados possíveis, mas os dados são de longe o

1:02

jogador maior aqui neste vídeo em

1:04

parceria com a snorkel vou cobrir

1:06

o que é a IA centrada em dados e revise alguns

1:09

grandes avanços no campo que você vai

1:11

entender rapidamente por que os dados são tão

1:13

importante no aprendizado de máquina, que é

1:15

missão do snorkel tirando uma citação de

1:17

sua postagem de blog no link abaixo, as equipes

1:19

muitas vezes gastam tempo escrevendo novos modelos

1:21

em vez de entender o problema deles

1:23

e sua expressão em dados mais profundamente

1:26

escrever um novo modelo é uma bela

1:28

refúgio para se esconder da confusão de

1:30

entender os problemas reais e isso

1:33

é o que este vídeo visa combater em um

1:36

frase, o objetivo da IA centrada em dados é

1:38

para codificar o conhecimento de nossos dados em

1:40

o modelo maximizando os dados

1:42

qualidade e desempenho do modelo tudo

1:45

começou em 2016 em stanford com um papel

1:48

chamada programação de dados criando grandes

1:51

conjuntos de treinamento introduzindo rapidamente um

1:54

paradigma para rotular conjuntos de dados de treinamento

1:56

programaticamente em vez de manualmente

1:58

isso foi uma eternidade atrás em termos de ai

2:01

idade de pesquisa como você sabe o melhor

2:04

abordagens até o momento usam supervisionado

2:05

aprendendo um processo no qual os modelos treinam

2:08

sobre dados e rótulos e aprenda a

2:10

reproduzir os rótulos quando dados os dados

2:13

por exemplo, você alimentaria um modelo com muitos

2:15

imagens de patos e gatos com seus

2:17

respectivas etiquetas e peça ao modelo para

2:20

descobrir o que está na imagem, em seguida, use

2:23

retropropagação para treinar o modelo

2:25

com base em quão bem ele é bem-sucedido se você estiver

2:27

não familiarizado com retropropagação i

2:29

convido você a pausar o vídeo para assistir

2:31

minha explicação de um minuto e retorno

2:33

onde você parou como conjuntos de dados são

2:35

cada vez maior se torna

2:37

cada vez mais difícil curá-los

2:39

e remover dados nocivos para permitir a

2:41

modelo para se concentrar apenas nos dados relevantes que você

2:44

não quer treinar seu modelo para detectar

2:46

um gato quando é um gambá pode acabar

2:48

mal quando me refiro a dados, tenha em mente

2:51

que pode ser qualquer tipo de tabela de dados

2:53

imagens texto vídeos etc agora que você pode

2:57

baixe facilmente um modal para qualquer tarefa que o

2:59

mudança para melhoria de dados e

3:01

otimização é motor inevitável

3:03

disponibilidade a escala de dados recentes

3:05

conjuntos e os modelos de cds dependentes de dados

3:08

temos é por isso que tal paradigma para

3:10

rotulando conjuntos de dados de treinamento

3:12

programaticamente torna-se essencial

3:14

agora o principal problema vem com ter

3:17

rótulos para nossos dados é fácil de ter

3:19

milhares de imagens de cães e gatos, mas

3:22

é muito mais difícil saber quais imagens

3:24

tem uma escavada e quais imagens tem um gato

3:26

e ainda mais difícil ter sua exata

3:28

locais na imagem para segmentação

3:31

tarefas por exemplo

3:32

o primeiro artigo apresenta um dado

3:34

framework de programação onde o usuário

3:36

engenheiro de ml ou cientista de dados

3:38

expressa estratégias de supervisão fracas como

3:41

funções de rotulagem usando um generativo

3:43

modelo que rotula subconjuntos dos dados

3:46

e descobriu que a programação de dados pode ser

3:48

uma maneira mais fácil para não especialistas criarem

3:51

modelos de aprendizado de máquina ao treinar

3:53

os dados são limitados ou indisponíveis em curto

3:56

eles mostram como melhorar os dados sem

3:58

muito trabalho adicional, mantendo o

4:00

modelar o mesmo melhora os resultados, o que é

4:03

um passo agora evidente, mas essencial

4:05

pedra é realmente interessante

4:07

papel fundamental neste campo e valor

4:09

a leitura

4:10

o segundo papel que abordamos aqui é chamado

4:12

criação rápida de dados de treinamento de snorkel

4:15

com supervisão fraca este papel

4:17

publicado um ano depois também de

4:19

a universidade de stanford apresenta um flexível

4:22

camada de interface para escrever rotulagem

4:24

funções baseadas na experiência contínua

4:27

na ideia de que os dados de treinamento são

4:28

cada vez maiores e mais difíceis de

4:30

label causando gargalo nos modelos

4:33

performances eles apresentam snorkel a

4:36

sistema que implementa o anterior

4:37

papel em um sistema ponta a ponta o sistema

4:40

conhecimento permitido especialistas as pessoas

4:42

que melhor entendem os dados para facilmente

4:44

definir funções de rotulagem para

4:46

rotular dados automaticamente em vez de

4:48

fazendo anotações manuais construindo modelos

4:51

para 2,8 vezes mais rápido enquanto também

4:54

aumentando o desempenho preditivo por um

4:56

média de 45,5 por cento, novamente

5:00

de escrever rótulos os usuários ou conhecimento

5:03

especialistas escrevem funções de rotulagem

5:05

funções simplesmente fornecem insights para o

5:07

modelos em padrões para procurar ou

5:10

qualquer coisa que o especialista usará para classificar

5:12

os dados ajudando o modelo a seguir o

5:14

mesmo processo, então o sistema aplica o

5:17

funções de rotulagem recém-escritas sobre

5:19

nossos dados não rotulados e aprende um

5:21

modelo generativo para combinar a saída

5:24

rótulos em rótulos probabilísticos que

5:26

são então usados para treinar nosso deep final

5:29

snorkel de rede neural faz tudo isso por

5:32

ela mesma facilitando todo esse processo

5:35

pela primeira vez

5:36

nosso último artigo também de stanford

5:39

outro ano depois introduz software

5:42

2.0 este papel de uma página é mais uma vez

5:45

avançando com o mesmo profundo

5:47

aprendendo a abordagem centrada em dados usando

5:49

funções de rotulagem para produzir treinamento

5:51

rótulos para grandes conjuntos de dados não rotulados e

5:54

treinar nosso modelo final que é

5:56

particularmente útil para internet enorme

5:59

conjuntos de dados raspados como o usado em

6:01

aplicativos do Google, como anúncios do Google

6:03

gmail, youtube, etc, resolvendo a falta de

6:06

dados rotulados à mão é claro que isso é apenas

6:09

uma visão geral do progresso e

6:10

direção de dados centrados ai e i

6:13

convidá-lo vivamente a ler o

6:14

informações na descrição abaixo para

6:16

tenha uma visão completa da IA centrada em dados

6:19

de onde vem e onde está

6:21

título, também quero agradecer ao snorkel por

6:24

patrocinando este vídeo e eu convido você

6:26

para verificar o site deles para mais

6:28

informações se você nunca ouviu falar

6:30

snorkel antes de você ainda já usou

6:32

sua abordagem em muitos produtos como

6:35

youtube google ads gmail e outros grandes

6:37

formulários

6:39

obrigado por assistir o vídeo até

6:41

o fim

[Música]