A geração de gráfico de cena panóptica, ou PSG, é uma nova tarefa de problema com o objetivo de gerar uma representação gráfica mais abrangente de uma imagem ou cena com base na segmentação panóptica em vez de caixas delimitadoras. Ele pode ser usado para entender imagens e gerar frases que descrevam o que está acontecendo. Esta pode ser a tarefa mais desafiadora para uma IA! Saiba mais no vídeo... Referências ►Leia o artigo completo: ►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. e Liu, Z., 2022. Geração de gráfico de cena panóptica. pré-impressão arXiv arXiv:2207.11247. ►Código: ►Página do projeto (conjunto de dados PSG): ►Experimente: , ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/psg/ https://github.com/Jingkang50/OpenPSG https://psgdataset.org/ https://replicate.com/cjwbw/openpsg https://huggingface.co/spaces/ECCV2022/PSG https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 você pode usar ai para identificar o que está em um 0:02 imagem como descobrir se há um 0:04 gato ou não nesta cena se houver um 0:07 você pode usar outro ai para descobrir onde 0:10 está na imagem e você pode achar muito 0:12 precisamente essas tarefas são chamadas de imagem 0:15 detecção de objetos de classificação e 0:17 finalmente segmentação de instância, então você 0:20 pode construir aplicativos legais para extrair 0:23 seu gato de uma imagem e colocá-lo em um 0:25 vale-presente divertido ou um meme, mas e se você 0:27 quer um aplicativo que entenda o 0:29 cena e imagem não só podendo 0:32 identificar se há um objeto e 0:34 onde está, mas o que está acontecendo com você 0:36 não quer identificar se há um 0:38 cliente ou não em sua loja, mas você 0:40 pode querer identificar se o cliente 0:42 em questão está roubando você se 0:44 usar tal vigilância é eticamente 0:46 correto ou não é outra questão 0:49 você também precisa considerar ainda supor 0:51 nos concentramos em descobrir o que está acontecendo 0:53 em uma cena ou uma imagem particular naquele 0:56 caso você queira usar uma tarefa chamada 0:58 geração de gráfico de cena onde os objetos são 1:01 direcionado usando caixas delimitadoras como mostrado 1:04 anteriormente com detecção de objetos que 1:06 é então usado para criar um gráfico com cada 1:09 relação dos objetos entre si 1:11 objeto que basicamente tentará 1:13 entender o que está acontecendo de todos os 1:15 objetos principais da cena em que trabalha 1:17 muito bem e descobre esses principais 1:19 características da imagem, mas há 1:21 um grande problema que depende da ligação 1:23 precisões de caixa e desconsidera completamente 1:26 o pano de fundo que muitas vezes é crucial em 1:28 entendendo o que está acontecendo ou em 1:30 menos dando um resumo mais realista 1:33 em vez disso, você pode querer usar este novo 1:35 tarefa chamada gráfico de cena panóptica 1:38 geração ou psg psg é um novo problema 1:42 tarefa com o objetivo de gerar um 1:43 representação gráfica abrangente de um 1:46 imagem ou cena baseada no panóptico 1:49 segmentação em vez de caixas de ligação 1:52 algo muito mais preciso levando em 1:54 conta todos os pixels de uma imagem como vimos 1:57 e os criadores desta tarefa não 1:58 apenas inventaram, mas também criaram um 2:01 conjunto de dados, bem como um modelo de linha de base para 2:03 testar seus resultados contra o que é 2:05 muito legal essa tarefa tem muito 2:07 potencial como entender o que é 2:09 acontecer em uma imagem é incrivelmente 2:11 útil e complexo para máquinas mesmo 2:14 embora os humanos façam isso automaticamente 2:16 traz algum tipo de inteligência necessária 2:18 para as máquinas que fazem a diferença 2:20 entre ser um aplicativo legal e engraçado como 2:23 snapchat para um produto que você usaria para salvar 2:25 tempo ou completar uma necessidade como 2:27 entender quando seu gato quer 2:29 jogar e usar um robô para brincar com ele 2:31 automaticamente para que não fique entediado o tempo todo 2:33 Tempo 2:34 entender uma cena é muito legal, mas 2:36 como uma máquina pode fazer isso bem que você precisa 2:39 duas coisas um conjunto de dados e um poderoso 2:42 modelo sabemos que já temos o 2:44 conjuntos de dados desde que eles os construíram para nós agora 2:47 a segunda coisa como aprender com isso 2:50 conjunto de dados que significa como construir isso 2:52 modelo ai e o que deve fazer existem 2:55 várias maneiras de abordar este problema 2:58 e eu convido você a ler o jornal deles para 3:00 saiba mais, mas aqui está uma maneira de fazer 3:02 isto 3:03 antes de entrar nisso, dê-me alguns 3:05 segundos para ser meu próprio patrocinador e falar 3:07 sobre a nossa comunidade desde que você é 3:09 vendo esse vídeo eu sei que você vai amar 3:11 como foi basicamente criado para você 3:13 é claro que temos a comunidade do youtube 3:15 que você definitivamente deveria se juntar por 3:17 clicando no pequeno botão de inscrição e 3:19 comentando abaixo, por exemplo, eu adoraria 3:21 para saber o que você pensa sobre esta tarefa 3:23 e se é interessante ou não pro ai 3:25 comunidade eu também queria compartilhar nossa 3:28 comunidade discórdia aprenda ai juntos é 3:31 um lugar para se conectar com colegas ai 3:33 entusiastas de qualquer nível de habilidade encontram 3:35 pessoas para aprender com encontrar pessoas para trabalhar 3:37 com tire suas dúvidas ou até mesmo encontre 3:40 ofertas de emprego interessantes que estamos organizando 3:42 muitos eventos muito legais e q like 3:44 aquele com o qual estamos executando no momento 3:46 os organizadores da mina rl de deepmind e 3:49 openai o link está na descrição 3:51 abaixo e eu adoraria ver você se juntar a um 3:53 troca com a gente lá 3:55 como dissemos, o modelo precisa encontrar o 3:57 classe para cada pixel da imagem 3:59 o que significa que ele tem que identificar cada 4:01 pixel da imagem o primeiro estágio de 4:04 o modelo será responsável por isso 4:06 será um modelo chamado panóptico fpn 4:09 já treinado para classificar cada pixel 4:12 esse modelo já está disponível online 4:14 e bastante poderoso, vai tirar uma imagem 4:17 e retornar o que chamamos de máscara com cada 4:19 pixel correspondente a um objeto existente como 4:22 uma bola humana ou grama neste caso você 4:25 agora tem a segmentação e você sabe 4:28 o que está na imagem e onde se você está 4:30 não estou familiarizado com o funcionamento desse modelo 4:32 convido você a assistir um dos vídeos 4:34 eu fiz cobrindo abordagens semelhantes como 4:36 este o próximo passo é descobrir 4:38 o que está acontecendo com esses objetos 4:41 aqui você já sabe que é um homem jogando 4:43 futebol no campo, mas a máquina 4:45 na verdade não tem ideia da única coisa que 4:48 sabe é que existe um homem uma bola e 4:50 um campo com muita confiança, mas 4:53 não entende nada e não consegue 4:55 ligue os pontos como fazemos com facilidade nós 4:58 precisa de um segundo modelo treinado apenas para tirar 5:00 esses objetos e descobrir por que eles 5:03 estão na mesma foto este é o 5:05 etapa de geração do grafo de cena onde um 5:07 modal aprenderá como combinar um 5:09 dicionário de palavras e conceitos 5:12 cobrindo vários objetos possíveis 5:13 relações com objetos em uma cena usando 5:16 as informações extraídas do primeiro 5:19 etapa aprendendo a estruturar o 5:21 objetos uns com os outros objeto e voila 5:25 você acaba com um gráfico claro que você 5:27 pode usar para construir frases cobrindo 5:29 o que está acontecendo na sua imagem, você pode 5:31 agora use essa abordagem em seu próximo 5:32 aplicação e dar alguns pontos de QI para 5:35 sua abordagem ficando mais perto de 5:37 algo inteligente se você quiser 5:39 saiba mais sobre esta nova tarefa i 5:41 convidá-lo fortemente a ler o jornal 5:43 link abaixo obrigado por assistir 5:45 até o final e até a próxima semana com mais um paper incrível