Vimos a IA gerar texto, gerar imagens e, mais recentemente, gerar vídeos curtos, embora ainda precisem de algumas melhorias.
Os resultados são incríveis quando você pensa que ninguém está realmente envolvido no processo de criação dessas peças e só precisa ser treinado uma vez para depois ser usado por milhares de pessoas como é a difusão estável.
Ainda assim, esses modelos realmente entendem o que estão fazendo? Eles sabem o que a imagem ou vídeo que acabaram de produzir realmente representa?
O que esse modelo entende quando vê essa foto ou, ainda mais complexo, um vídeo? Saiba mais no vídeo... (há informações de distribuição de GPU RTX no vídeo também!)
►Leia o artigo completo:
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. e
Ling, H., 2022. Expansão de modelos pré-treinados de imagem e linguagem para geral
Reconhecimento de vídeo. pré-impressão arXiv arXiv:2208.02816.
►Código: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►Minha Newsletter (Um novo aplicativo AI explicado semanalmente para seus e-mails!):
https://www.louisbouchard.ai/newsletter/
0:00
vimos ai gerar texto então
0:02
gerar imagens e, mais recentemente, até mesmo
0:05
gerar vídeos curtos mesmo que eles
0:07
ainda precisa trabalhar os resultados são
0:09
incrível, especialmente quando você pensa
0:11
que ninguém está realmente envolvido no
0:13
processo de criação dessas peças e
0:16
só tem que ser treinado de uma vez para então
0:18
ser usado por milhares de pessoas como
0:20
difusão estável ainda é fazer isso
0:23
modais realmente entendem o que são
0:25
fazendo eles sabem o que a imagem ou
0:27
vídeo que eles acabaram de produzir realmente
0:29
representa o que tal modelo
0:31
entender quando vê tal imagem
0:34
ou ainda mais complexo um vídeo vamos nos concentrar
0:36
no mais desafiador dos dois e
0:38
mergulhe em como uma IA entende vídeos
0:41
através de uma tarefa chamada vídeo geral
0:44
reconhecimento onde o objetivo é para um
0:46
modelo para levar vídeos como entradas e usar
0:49
texto para descrever o que está acontecendo no
0:51
vídeo, mas primeiro eu acho que você vai adorar
0:53
patrocinador deste episódio e o que eles têm
0:55
para oferecer um incrível evento gratuito de IA para
0:59
neste vídeo estou fazendo parceria com a scale ai
1:01
A scalia é a empresa por trás de um dos
1:04
as principais conferências de IA do mundo transformam
1:07
x de 19 a 21 de outubro transformix
1:11
vai reunir mais de 20 000 ai e
1:14
ml líderes visionários praticantes e
1:16
pesquisadores de todos os setores para explorar
1:19
operacionalizando IA e aprendizado de máquina
1:22
transfer mix é um evento virtual gratuito e
1:24
terá 120 palestrantes de empresas
1:27
como meta openai deepmind google etsy
1:31
e mais estou pessoalmente animado para ouvir
1:33
do co-fundador de greg brockman openai
1:36
e presidente e corey o vice-presidente de
1:39
pesquisa e tecnologia em deepmind dois
1:41
das empresas mais importantes do nosso
1:43
campo também haverá realmente
1:45
conversas interessantes do fantástico
1:46
contribuidores para o campo como François
1:49
chalet o criador de keras que eu vou
1:51
definitivamente sintonizar não perca o seu
1:53
oportunidade de assistir a este curso educacional gratuito
1:55
evento foi um grande sucesso no ano passado e
1:58
você não quer perder cantar com
2:00
o primeiro link abaixo para assistir
2:01
conferência transformix comigo e
2:03
apoie meu trabalho
2:06
reconhecimento geral de vídeo
2:08
é uma das tarefas mais desafiadoras em
2:10
entender vídeos ainda pode ser o
2:13
melhor medida da capacidade de um modelo para obter
2:15
o que está acontecendo também é a base
2:17
por trás de muitos aplicativos que dependem de um
2:19
boa compreensão de vídeos como esportes
2:22
análise ou direção autônoma, mas o que
2:24
torna esta tarefa tão complexa bem lá
2:27
são duas coisas que precisamos entender
2:30
o que é mostrado significando cada quadro ou cada
2:33
imagem de um determinado vídeo segundo nós
2:36
precisamos ser capazes de dizer o que nós
2:38
entender de uma forma que os humanos entendem
2:41
o que significa usar palavras felizmente para
2:44
nós, o segundo desafio foi enfrentado
2:46
inúmeras vezes pela comunidade linguística
2:49
e podemos assumir mais o trabalho deles
2:51
precisamente podemos pegar o que as pessoas de
2:53
o campo de imagem de idioma fez com
2:56
modelos como clip ou mesmo estável
2:58
difusão onde você tem um codificador de texto
3:01
e um codificador de imagem que aprende a
3:04
codificar ambos os tipos de entradas no
3:06
mesmo tipo de representação desta forma você
3:09
pode comparar uma cena semelhante a uma semelhante
3:11
prompt de texto treinando a arquitetura
3:13
com milhões de exemplos de legendas de imagens
3:16
pares com texto e imagens
3:18
codificado em um espaço semelhante é poderoso
3:20
porque ocupa muito menos espaço para
3:22
realizar cálculos e nos permite
3:24
compare o texto com as imagens facilmente o que significa
3:27
que o modelo ainda não entendeu
3:29
uma imagem ou mesmo uma frase simples, mas
3:32
pode pelo menos entender se ambos são
3:34
semelhantes ou não, ainda estamos longe
3:37
inteligência, mas isso é muito útil
3:39
e bom o suficiente para a maioria dos casos agora vem
3:42
com o maior desafio aqui vídeos
3:44
e para isso usaremos a abordagem de
3:47
berlin eu e meus colegas em seu recente
3:49
imagem de linguagem de expansão de papel
3:51
modais pré-treinados para vídeo geral
3:54
vídeos de reconhecimento são muito mais complexos
3:56
do que imagens devido ao tempo
3:58
informações que significam os vários quadros
4:01
e o fato de que cada quadro está vinculado
4:03
ao seguinte e ao anterior com
4:05
movimento e ações coerentes o modelo
4:08
precisa ver o que aconteceu antes durante
4:10
e depois de cada quadro para ter um bom
4:13
compreensão da cena é apenas
4:15
como no youtube você realmente não pode pular 5
4:18
segundos em vídeos curtos enquanto você
4:20
vai perder informações valiosas neste
4:23
caso eles peguem cada quadro e os enviem
4:25
no mesmo codificador de imagem que acabamos
4:27
discutido usando um transformador de visão
4:30
arquitetura baseada para processá-los em
4:32
um espaço condensado usando atenção se você
4:35
não estão familiarizados com a visão
4:36
transformadores ou o mecanismo de atenção
4:39
vou te convidar a assistir o vídeo i
4:40
fez apresentá-los assim que você tiver seu
4:43
representação para cada quadro que você pode
4:45
usar um processo baseado em atenção semelhante para
4:47
fazer com que cada quadro se comunique e
4:50
permitir que seu modelo troque informações
4:52
entre os quadros e criar uma final
4:55
representação para o vídeo este
4:57
troca de informações entre quadros
4:59
usar a atenção funcionará como uma espécie de
5:02
memória para o seu modelo entender o
5:04
vídeo como um todo, em vez de um par de
5:06
imagens aleatórias juntas finalmente usamos
5:09
outro módulo de atenção para mesclar o
5:11
codificações de texto dos quadros que tivemos com
5:14
nossa representação em vídeo condensada
5:17
e voila esta é uma maneira de um ai
5:20
entende um vídeo é claro que isso foi
5:23
apenas uma visão geral deste grande papel por
5:25
pesquisa da Microsoft servindo como um
5:27
introdução ao reconhecimento de vídeo i
5:30
convidá-lo a ler o seu papel para um
5:32
melhor compreensão de sua abordagem i
5:34
também têm o prazer de anunciar
5:36
outro sorteio para o próximo nvidia gtc
5:39
evento de 19 a setembro
5:42
22 nvidia está me dando mais uma vez um
5:45
rtx 3080 ti para dar de presente
5:48
comunidade para aqueles de vocês que frequentam o
5:50
evento as duas únicas coisas que você tem que fazer
5:53
para ter uma chance de ganhar é
5:55
se inscreva no canal e me mande um dm
5:57
captura de tela de um dos pedágios que você
5:59
decidir atender durante o evento
6:02
é isso obrigado por assistir o
6:04
vídeo e caloroso agradecimento aos meus amigos em
6:06
scale ai por patrocinar o vídeo espero
6:09
para vê-lo virtualmente em seu evento gratuito
6:11
daqui a pouco e até semana que vem
6:13
com outro papel incrível
[Música]