paint-brush
Make-A-Scene de Meta AI genera obras de arte con texto y bocetospor@whatsai
3,129 lecturas
3,129 lecturas

Make-A-Scene de Meta AI genera obras de arte con texto y bocetos

por Louis Bouchard6m2022/07/20
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

El objetivo de este nuevo modelo no es permitir que los usuarios generen imágenes aleatorias siguiendo el mensaje de texto como lo hace dalle. En cambio, Meta quería impulsar la expresión creativa fusionando esta tendencia de texto a imagen con modelos anteriores de boceto a imagen, lo que llevó a "Make-A-Scene": una combinación fantástica entre la generación de imágenes condicionadas por texto y boceto. Obtenga más información en el video...  'Make-a-Scene no es 'simplemente otro Dalle', sino que restringe el control del usuario sobre las generaciones.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Make-A-Scene de Meta AI genera obras de arte con texto y bocetos
Louis Bouchard HackerNoon profile picture

Make-A-Scene no es “simplemente otro Dalle”. El objetivo de este nuevo modelo no es permitir que los usuarios generen imágenes aleatorias siguiendo el mensaje de texto como lo hace dalle, lo cual es realmente genial, sino que restringe el control del usuario sobre las generaciones.

En cambio, Meta quería impulsar la expresión creativa, fusionando esta tendencia de texto a imagen con modelos anteriores de boceto a imagen, lo que llevó a "Make-A-Scene": una combinación fantástica entre la generación de imágenes condicionadas por texto y boceto. Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/make-a-scene/
►Publicación del blog de Meta: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►Papel: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. y
Taigman, Y., 2022. Make-a-scene: generación de texto a imagen basada en escenas
con antecedentes humanos.
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

[Música]

0:06

esto es hacer una escena no es solo

0:08

otro deli el objetivo de este nuevo modelo

0:11

no es permitir que los usuarios generen aleatoriamente

0:13

imágenes siguiendo el mensaje de texto como dali

0:15

lo que es genial pero restringe

0:17

el control del usuario sobre las generaciones

0:20

en cambio, meta quería impulsar la creatividad

0:22

expresión hacia adelante fusionando este texto para

0:25

tendencia de imagen con boceto previo a

0:27

modelos de imagen que conducen a hacer de una escena una

0:30

fantástica combinación entre texto y boceto

0:32

generación de imagen condicionada así de simple

0:35

significa que usando este nuevo enfoque usted

0:37

puede esbozar rápidamente un gato y escribir

0:40

qué tipo de imagen te gustaría y

0:42

el proceso de generación de imágenes seguirá

0:43

tanto el boceto como la guía de tu

0:45

texto nos acerca aún más a ser

0:48

capaz de generar el perfecto

0:49

ilustración que queremos en unos segundos

0:52

puedes ver este generativo multimodal

0:54

método ai como modelo diario con un poco

0:57

más control sobre las generaciones desde

0:59

también puede tomar un boceto rápido como

1:01

entrada es por eso que lo llamamos multimodal

1:04

ya que puede tomar múltiples modalidades como

1:07

entradas como texto y una imagen un boceto

1:10

en este caso en comparación con Delhi, que

1:12

solo toma texto para generar una imagen

1:14

los modelos multimodales son algo super

1:17

prometedor especialmente si igualamos el

1:19

calidad de los resultados que vemos en línea

1:21

ya que tenemos más control sobre el

1:23

resultados cada vez más cerca de un muy

1:25

interesante objetivo final de generar la

1:27

imagen perfecta que tenemos en mente sin

1:30

cualquier habilidad de diseño, por supuesto, esto es

1:32

todavía en el estado de investigación y es un

1:34

concepto de investigación exploratoria de ai

1:37

no significa que lo que vemos no sea

1:38

alcanzable solo significa que tomará un

1:41

poco más de tiempo para llegar al público el

1:43

el progreso es extremadamente rápido en el campo

1:45

y no me sorprendería verlo

1:47

vivir muy poco o un modelo similar

1:49

de otras personas para jugar creo

1:52

tales bocetos y modelos basados en texto son

1:54

aún más interesante especialmente para el

1:56

industria por lo que quería cubrir

1:58

en mi canal aunque los resultados

2:00

están un poco por detrás de los del diario 2 que vemos

2:03

en línea y no sólo es interesante para

2:05

la industria pero también para los artistas algunos

2:08

use la función de boceto para generar incluso

2:10

más resultados inesperados que lo que delhi

2:13

podría hacer podemos pedirle que genere

2:14

algo y dibujar una forma que no

2:17

representar la cosa específica como

2:18

dibujar una medusa en forma de flor

2:21

que puede no ser imposible de tener con

2:23

dali pero mucho más complicado sin

2:25

guía de croquis ya que el modelo solo

2:27

reproducir lo que aprende de lo cual

2:29

proviene de imágenes del mundo real y

2:32

ilustraciones por lo que la pregunta principal es

2:34

¿Cómo pueden guiar a las generaciones con

2:36

tanto la entrada de texto como delhi y un boceto

2:39

simultáneamente y hacer que el modelo siga

2:41

ambas pautas, bueno, es muy, muy

2:44

similar a cómo funciona Delhi, así que no lo haré

2:47

entrar demasiado en los detalles de un

2:49

modelo generativo como cubrí al menos

2:51

cinco enfoques diferentes en el pasado

2:53

dos meses que definitivamente deberías

2:55

mira si aún no has visto estos modelos

2:57

como dali 2 o imogen son bastante

2:59

fantástico

3:00

típicamente estos modelos tomarán

3:02

millones de ejemplos de entrenamiento para aprender

3:04

cómo generar imágenes a partir de texto con

3:07

datos en forma de imágenes y sus

3:09

subtítulos extraídos de Internet aquí

3:12

durante el entrenamiento en lugar de confiar únicamente

3:14

en el título que genera la primera

3:17

versión de la imagen y comparándola con

3:19

la imagen real y repitiendo esto

3:21

proceso numerosas veces con todos nuestros

3:23

imágenes también le daremos un boceto

3:26

lo bueno es que los bocetos son

3:28

bastante fácil de producir para el entrenamiento

3:30

simplemente tome una red pre-entrenada que

3:32

puede descargar en línea y realizar una instancia

3:35

segmentación para aquellos que quieren la

3:37

detalles que usan un vgg preentrenado gratuito

3:40

modelo en imagenet por lo que es bastante pequeño

3:42

red en comparación con los de hoy super

3:44

resultados precisos y rápidos que producen como

3:47

esto llamó un mapa de segmentación que

3:49

simplemente procesa todas sus imágenes una vez y

3:52

obtener estos mapas para entrenar el modelo

3:55

entonces usa este mapa así como el pie de foto

3:58

orientar el modelo para generar el

4:00

imagen inicial en el momento de la inferencia o cuando

4:02

uno de nosotros lo usará nuestro boceto será

4:05

reemplace esos mapas como dije que usaron un

4:08

modelo llamado vgg para crear bocetos falsos

4:11

para entrenar usan un transformador

4:13

arquitectura para la generación de imágenes

4:15

proceso que es diferente de Dolly a

4:17

y te invito a ver el video i

4:19

hizo la introducción de transformadores para la visión

4:21

aplicaciones si desea más detalles

4:23

sobre cómo puede procesar y generar

4:25

imágenes de este transformador guiado bosquejo es

4:28

la principal diferencia con la revista junto

4:30

con no usar un clasificador de texto de imagen como

4:33

clip para medir pares de texto e imagen

4:36

del que también puedes aprender en mi

4:37

vídeo diario

4:39

en cambio, todo el texto codificado y

4:41

Los mapas de segmentación se envían al

4:43

modelo de transformador el modelo entonces

4:45

genera los tokens de imagen relevantes

4:48

codificado y decodificado por el correspondiente

4:50

redes principalmente para producir la imagen

4:53

El codificador se utiliza durante el entrenamiento para

4:55

calcular la diferencia entre el

4:57

producido y la imagen inicial, pero sólo el

4:59

se necesita decodificador para tomar esto

5:01

salida del transformador y transformarlo en

5:04

una imagen

5:05

y listo asi queda el nuevo modelo de meta

5:08

es capaz de tomar un bosquejo y entradas de texto

5:11

y generar una imagen de alta definición

5:13

que permite un mayor control sobre el

5:16

resultados con gran calidad

5:18

y como dicen es solo el comienzo

5:20

de este nuevo tipo de modelo de IA el

5:22

los enfoques seguirán mejorando tanto

5:24

en términos de calidad y disponibilidad para

5:27

el publico que es super emocionante muchos

5:30

los artistas ya están usando el modelo para

5:32

su propio trabajo como se describe en meta's

5:34

publicación de blog y estoy emocionado por cuando

5:37

será capaz de usarlo también su

5:39

el enfoque no requiere ninguna codificación

5:41

conocimiento solo una buena mano para dibujar y

5:43

algo de ingeniería rápida, lo que significa

5:45

prueba y error con las entradas de texto

5:48

ajustar las formulaciones y las palabras utilizadas

5:50

para producir resultados diferentes y mejores

5:53

por supuesto, esto fue solo una descripción general de

5:55

el nuevo enfoque de hacer una escena y yo

5:57

los invito a leer el artículo completo vinculado

5:59

a continuación para obtener una descripción completa de cómo

6:02

funciona espero que hayas disfrutado este video

6:04

y te veré la próxima semana con

6:06

otro papel increíble

6:09

[Música]