La generación de gráficos de escenas panópticas, o PSG, es una nueva tarea problemática que tiene como objetivo generar una representación gráfica más completa de una imagen o escena basada en la segmentación panóptica en lugar de cuadros delimitadores. Se puede usar para comprender imágenes y generar oraciones que describan lo que está sucediendo. ¡Esta puede ser la tarea más desafiante para una IA! Conoce más en el vídeo... Referencias ►Lea el artículo completo: ►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. y Liu, Z., 2022. Generación de gráficos de escenas panópticas. preimpresión de arXiv arXiv:2207.11247. ►Código: ►Página del proyecto (conjunto de datos PSG): ►Pruébalo: , ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/psg/ https://github.com/Jingkang50/OpenPSG https://psgdataset.org/ https://replicate.com/cjwbw/openpsg https://huggingface.co/spaces/ECCV2022/PSG https://www.louisbouchard.ai/newsletter/ Transcripción del vídeo 0:00 puedes usar ai para identificar lo que hay en un 0:02 imagen como averiguar si hay un 0:04 gato o no en esta escena si hay uno 0:07 puedes usar otro ai para encontrar dónde 0:10 esta en la imagen y lo puedes encontrar muy 0:12 precisamente a estas tareas se les llama imagen 0:15 detección de objetos de clasificación y 0:17 finalmente segmentación de instancias entonces usted 0:20 puede construir aplicaciones geniales para extraer 0:23 tu gato de una imagen y ponlo en un 0:25 tarjeta de regalo divertida o un meme, pero ¿y si 0:27 quiere una aplicación que entienda el 0:29 escena e imagen no sólo pudiendo 0:32 identificar si hay un objeto y 0:34 donde esta pero que te pasa 0:36 no quiero identificar si hay un 0:38 cliente o no en su tienda pero usted 0:40 podría querer identificar si el cliente 0:42 en cuestion te esta robando si 0:44 usar tal vigilancia es éticamente 0:46 correcto o no es otra cuestion 0:49 también debes considerar todavía suponer 0:51 nos enfocamos en averiguar lo que está pasando 0:53 en una escena o una imagen particular en ese 0:56 caso de que quiera usar una tarea llamada 0:58 generación de escenarios gráficos donde los objetos son 1:01 dirigido usando cuadros delimitadores como se muestra 1:04 previamente con detección de objetos que 1:06 luego se utiliza para crear un gráfico con cada 1:09 la relación de los objetos entre sí 1:11 objeto básicamente intentará 1:13 entender lo que está pasando de todos los 1:15 objetos principales de la escena que trabaja 1:17 bastante bien y descubre estos principales 1:19 características de la imagen pero hay 1:21 un gran problema se basa en la vinculación 1:23 precisiones de caja y desprecios completos 1:26 el trasfondo que a menudo es crucial en 1:28 entender lo que está pasando o en 1:30 al menos dando un resumen más realista 1:33 en su lugar, es posible que desee utilizar este nuevo 1:35 tarea llamada gráfico de escena panóptico 1:38 generacion o psg psg es un problema nuevo 1:42 tarea encaminada a generar una mayor 1:43 representación gráfica completa de un 1:46 imagen o escena basada en panóptico 1:49 segmentación en lugar de cajas de unión 1:52 algo mucho más preciso teniendo en cuenta 1:54 cuenta todos los pixeles de una imagen como vimos 1:57 y los creadores de esta tarea no 1:58 sólo lo inventaron sino que también crearon un 2:01 conjunto de datos, así como un modelo de referencia para 2:03 prueba tus resultados contra los cuales es 2:05 realmente genial esta tarea tiene mucho 2:07 potencial como la comprensión de lo que es 2:09 sucediendo en una imagen es increíblemente 2:11 útil y complejo para máquinas incluso 2:14 aunque los humanos lo hacen automáticamente 2:16 trae algún tipo de inteligencia necesaria 2:18 a las máquinas que marcan la diferencia 2:20 entre ser una aplicación genial y divertida como 2:23 Snapchat a un producto que usaría para ahorrar 2:25 tiempo o completar una necesidad como 2:27 entender cuando tu gato quiere 2:29 jugar y usar un robot para jugar con él 2:31 automáticamente para que no se aburra todo el 2:33 tiempo 2:34 entender una escena es genial, pero 2:36 ¿Cómo puede una máquina hacer eso bien que necesitas? 2:39 dos cosas un conjunto de datos y un poderoso 2:42 modelo sabemos que ya tenemos el 2:44 conjuntos de datos desde que lo construyeron para nosotros ahora 2:47 lo segundo como aprender de esto 2:50 conjunto de datos que significa cómo construir este 2:52 modelo ai y qué debería hacer hay 2:55 Múltiples formas de abordar este problema. 2:58 y los invito a leer su artículo para 3:00 obtener más información, pero aquí hay una forma de hacerlo 3:02 eso 3:03 antes de entrar dame unos cuantos 3:05 segundos para ser mi propio patrocinador y hablar 3:07 sobre nuestra comunidad ya que eres 3:09 viendo este video se que te va a encantar 3:11 como fue creado básicamente para ti 3:13 por supuesto que tenemos la comunidad de youtube 3:15 al que definitivamente deberías unirte 3:17 haciendo clic en el pequeño botón de suscripción y 3:19 comentando a continuación, por ejemplo, me encantaría 3:21 saber lo que piensas de esta tarea 3:23 y si es interesante o no para el ai 3:25 comunidad también quería compartir nuestra 3:28 discord comunidad aprender ai juntos es 3:31 un lugar para conectarse con compañeros ai 3:33 entusiastas de cualquier nivel de habilidad encuentran 3:35 gente con quien aprender encontrar gente para trabajar 3:37 con hacer sus preguntas o incluso encontrar 3:40 ofertas de trabajo interesantes que estamos organizando 3:42 un monton de eventos muy chulos yq como gusta 3:44 el que estamos ejecutando actualmente con 3:46 los organizadores de mine rl de deepmind y 3:49 openai el link esta en la descripcion 3:51 a continuación y me encantaría verte unirte a una 3:53 intercambio con nosotros allí 3:55 como dijimos, el modelo necesita encontrar el 3:57 clase para cada píxel de la imagen 3:59 lo que significa que tiene que identificar cada 4:01 píxel de la imagen la primera etapa de 4:04 el modelo sera el responsable de esto 4:06 sera un modelo llamado panoptic fpn 4:09 ya entrenado para clasificar cada píxel 4:12 tal modelo ya está disponible en línea 4:14 y bastante potente tomará una imagen 4:17 y devolver lo que llamamos una máscara con cada 4:19 píxel emparejado con un objeto existente como 4:22 una pelota humana o hierba en este caso tu 4:25 ahora tienes la segmentación y ya sabes 4:28 que hay en la imagen y donde si estas 4:30 no estoy familiarizado con cómo funciona un modelo de este tipo 4:32 te invito a ver uno de los videos 4:34 hice cubriendo enfoques similares como 4:36 este el siguiente paso es averiguarlo 4:38 que pasa con esos objetos 4:41 aquí ya sabes que es un hombre jugando 4:43 futbol en la cancha pero la maquina 4:45 en realidad no tiene idea de lo único que 4:48 sabe es que hay un hombre una pelota y 4:50 un campo con mucha confianza pero 4:53 no entiende nada y no puede 4:55 conectamos los puntos como lo hacemos nosotros con facilidad 4:58 necesita un segundo modelo entrenado solo para tomar 5:00 esos objetos y averiguar por qué 5:03 están en la misma imagen este es el 5:05 paso de generación de escenario gráfico donde un 5:07 modal aprenderá cómo hacer coincidir un 5:09 diccionario de palabras y conceptos 5:12 cubriendo múltiples objetos posibles 5:13 relaciones con los objetos en una escena usando 5:16 la información extraída de la primera 5:19 etapa de aprendizaje de cómo estructurar el 5:21 objetos entre sí objeto y listo 5:25 terminas con un gráfico claro que 5:27 puede usar para construir oraciones que cubran 5:29 lo que está pasando en tu imagen puedes 5:31 ahora utilice este enfoque en su próxima 5:32 aplicación y dar algunos puntos iq a 5:35 tu enfoque acercándolo a 5:37 algo inteligente si quieres 5:39 aprender más sobre esta nueva tarea i 5:41 te invito encarecidamente a leer el periódico 5:43 enlazado a continuación gracias por mirar 5:45 hasta el final y te veré la próxima semana con otro artículo increíble