paint-brush
Enfoque de NVIDIA y la Universidad de Tel Aviv para acondicionar modelos de texto a imagenby@whatsai
722
722

Enfoque de NVIDIA y la Universidad de Tel Aviv para acondicionar modelos de texto a imagen

Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

Los modelos de texto a imagen como DALLE o la difusión estable son realmente geniales y nos permiten generar imágenes fantásticas con una simple entrada de texto. Pero, ¿sería aún mejor darles una foto tuya y pedirles que la conviertan en una pintura? Imagina poder enviar cualquier imagen de un objeto, una persona o incluso tu gato, y pedirle al modelo que lo transforme en otro estilo, como convertirte en un cyborg o en tu estilo artístico preferido o agregarlo a una nueva escena.

Company Mentioned

Mention Thumbnail
featured image - Enfoque de NVIDIA y la Universidad de Tel Aviv para acondicionar modelos de texto a imagen
Louis Bouchard HackerNoon profile picture

Los modelos de texto a imagen como DALLE o la difusión estable son realmente geniales y nos permiten generar imágenes fantásticas con una simple entrada de texto. Pero, ¿sería aún mejor darles una foto tuya y pedirles que la conviertan en una pintura? Imagina poder enviar cualquier imagen de un objeto, una persona o incluso tu gato, y pedirle al modelo que lo transforme en otro estilo, como convertirte en un cyborg o en tu estilo artístico preferido o agregarlo a una nueva escena.

Básicamente, ¿qué tan genial sería tener una versión de DALLE que podamos usar para editar nuestras imágenes en lugar de tener generaciones aleatorias? Disponer de un DALLE personalizado, pero haciendo mucho más sencillo el control de la generación ya que “una imagen vale más que mil palabras”. Sería como tener un modelo DALLE igual de personalizado y adictivo que el algoritmo de TikTok.

Bueno, esto es en lo que trabajaron los investigadores de la Universidad de Tel Aviv y NVIDIA. Desarrollaron un enfoque para condicionar modelos de texto a imagen, como la difusión estable que cubrí la semana pasada, con algunas imágenes para representar cualquier objeto o concepto a través de las palabras que enviarás junto con tus imágenes. ¡Transformando el objeto de tus imágenes de entrada en lo que quieras! Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/imageworthoneword/
►Artículo: Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. y Cohen-Or, D., 2022. Una imagen vale una palabra:
Personalización de la generación de texto a imagen mediante inversión textual. https://arxiv.org/pdf/2208.01618v1.pdf
►Código: https://textual-inversion.github.io/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

modelos de texto a imagen como dali o estable

0:02

difusión son realmente geniales y nos permiten

0:04

para generar imágenes fantásticas con un

0:07

entrada de texto simple pero sería incluso

0:09

más cool para darles una foto tuya y

0:11

Pídele que lo convierta en un cuadro.

0:13

imagina poder enviar cualquier foto

0:15

de una persona objeto o incluso de tu gato y

0:18

pídele al modelo que lo transforme en

0:20

otro estilo como convertirte en

0:22

un cyborg en su artístico preferido

0:24

estilo o incluso agregarlo a una nueva escena

0:27

básicamente lo genial que sería tener un

0:30

versión de dali que podemos usar para photoshop

0:32

nuestras fotos en lugar de tener al azar

0:35

generaciones

0:36

tener una muñeca personalizada mientras se hace

0:39

es mucho más simple de controlar

0:41

generaciones como una imagen vale una

0:44

mil palabras será como tener un

0:46

modelo dali igual de personalizado

0:49

y adictivo como el algoritmo tic tac

0:52

bueno esto es lo que investigadores de tel

0:54

aviv university y nvidia trabajaron en

0:57

desarrollaron un enfoque para

0:58

acondicionamiento de modelos de texto a imagen como

1:01

difusión estable que cubrí la semana pasada

1:03

con algunas imágenes para representar cualquier

1:05

objeto o concepto a través de las palabras que

1:08

enviará a lo largo de sus imágenes transformando

1:11

el objeto de sus imágenes de entrada en

1:13

lo que quieras por supuesto los resultados

1:15

Todavía necesito trabajo, pero esto es solo el

1:17

primer artículo que aborda un tema tan asombroso

1:19

tarea que podría revolucionar el diseño

1:22

la industria como un youtuber fantástico

1:24

colega dirá imagínense dos más

1:26

documentos en la línea entonces, ¿cómo podemos tomar

1:29

un puñado de imágenes de un objeto y

1:31

generar una nueva imagen siguiendo un texto

1:33

entrada de condición para agregar el estilo o

1:35

detalles de transformación para responder a esto

1:38

pregunta compleja echemos un vistazo a

1:40

lo que vino reynold gal y su equipo

1:42

con las imágenes de entrada se codifican en

1:44

lo que llaman absurdo palabra que puedes

1:47

luego use dentro de su generación de texto

1:50

así el nombre del papel vale una imagen

1:52

una palabra, pero ¿cómo consiguen este tipo

1:55

de palabra y que es

1:57

comienzan con tres a cinco imágenes de

2:00

un objeto específico también utilizan un

2:02

modelo pre-entrenado de texto a imagen en este

2:04

caso de que usen difusión latente el modelo

2:07

cubrí hace ni siquiera una semana que

2:09

toma cualquier tipo de entradas como imágenes o

2:12

texto y genera nuevas imágenes a partir de

2:15

ellos se puede ver como un enfriador y abierto

2:18

source deli si no has visto mi

2:20

video pero deberías pausar este

2:23

conoce este modelo y vuelve

2:25

aquí te encantará el video y aprenderás

2:27

sobre la arquitectura más candente del

2:29

momento para que tenga sus imágenes de entrada y

2:32

el modelo base para generar imágenes

2:34

acondicionado y entradas tales como texto o

2:37

otras imagenes pero que haces con

2:39

sus tres a cinco imágenes de un objeto

2:42

y como controlas el modelo

2:43

resultados tan precisos que su objeto

2:46

aparece en las generaciones esto es todo

2:48

realizado durante el proceso de formación de su

2:51

segundo modele el codificador de texto usando su

2:54

generador de imágenes pre-entrenadas y fijas

2:56

modelo de difusión latente en este caso

2:59

Ya puedo tomar una foto y

3:00

reconstrúyelo que quieras enseñar a tu

3:02

codificador de texto modal para que coincida con el absurdo

3:05

palabra a sus imágenes codificadas o en otros

3:08

palabras tus representaciones tomadas de

3:11

tus cinco imágenes para que alimentes tu

3:13

imágenes a su red generadora de imágenes

3:16

y entrena tu codificador de texto en reversa

3:19

para averiguar qué palabras falsas o ciertas

3:22

palabra representaría mejor todos sus

3:24

las imágenes codificadas básicamente descubren cómo

3:27

representar correctamente su concepto en el

3:29

mismo espacio donde se genera la imagen

3:32

proceso que describí en mi video anterior

3:34

sucede

3:36

luego extraiga una palabra falsa de ella para

3:38

guía a las generaciones futuras de esta manera tú

3:41

puede inyectar su concepto en cualquier futuro

3:44

generaciones y añadir algunas palabras más a

3:46

condicionar aún más a la generación

3:49

usando el mismo texto a imagen pre-entrenado

3:51

modelo, por lo que simplemente estará entrenando a un

3:54

pequeño modelo para entender dónde está su

3:56

las imágenes yacen en el espacio latente para

3:58

convertirlos en una palabra falsa para usar en

4:00

su modelo regular de generación de imágenes

4:03

ni siquiera tienes que tocar la imagen

4:05

modelo de generación y eso es bastante grande

4:07

acuerdo teniendo en cuenta lo caros que son

4:09

a entrenar y listo así es como puedes

4:12

enseñar a un modelo similar a generar imagen

4:14

variaciones de su objeto preferido o

4:17

realizar poderosas transferencias de estilo

4:19

por supuesto, esto es solo una descripción general de

4:21

este nuevo método aborda una muy, muy

4:24

interesante tarea y te invito a

4:26

lea su documento vinculado a continuación para obtener una

4:28

una comprensión más profunda del enfoque y

4:30

retos es una tarea muy complicada

4:33

y todavía hay muchas limitaciones

4:35

como el tiempo que lleva entender

4:37

tal concepto en una palabra falsa que es

4:39

aproximadamente dos horas aún no es

4:42

capaz de entender completamente el

4:44

concepto, pero está bastante cerca de allí

4:47

también hay muchos riesgos en tener tal

4:49

producto accesible que necesitamos

4:51

Considere imaginar poder incrustar el

4:54

concepto de una persona específica y

4:56

generar cualquier cosa que involucre a la persona

4:58

en unos segundos esto es bastante aterrador y

5:01

este tipo de tecnología está a la vuelta

5:03

la esquina

5:04

Me encantaría escuchar tus pensamientos en el

5:06

sección de comentarios o discuta esto en el

5:09

servidor de discordia

5:10

gracias por ver el video y yo

5:12

nos vemos la próxima semana con otro

5:14

papel asombroso

5:22

[Música]