¡El nuevo modelo de OpenAI es asombroso! DALL·E 2 explicado de forma sencilla by@whatsai
6,143 lecturas

¡El nuevo modelo de OpenAI es asombroso! DALL·E 2 explicado de forma sencilla

2022/04/07
5 min
por @whatsai 6,143 lecturas
tldt arrow
ES
Read on Terminal Reader

Demasiado Largo; Para Leer

El año pasado compartí DALL·E, un increíble modelo de OpenAI capaz de generar imágenes a partir de una entrada de texto con resultados increíbles. Ahora es el momento de su hermano mayor, DALL ·E 2, que es cuatro veces mejor en la generación de imágenes fotorrealistas a partir de texto. El modelo reciente aprendió una nueva habilidad; imagen en pintura. ¡También puede editar esas imágenes y hacer que se vean aún mejor! O simplemente agregue una función que desee, como algunos flamencos en el fondo. ¡Aprende más en el vídeo!

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - ¡El nuevo modelo de OpenAI es asombroso! DALL·E 2 explicado de forma sencilla
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

Sobre @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

El año pasado compartí , un increíble modelo de OpenAI capaz de generar imágenes a partir de una entrada de texto con resultados increíbles. Ahora es el turno de su hermano mayor, DALL·E 2. ¡Y no creerás el progreso en un solo año! DALL·E 2 no solo es mejor para generar imágenes fotorrealistas a partir de texto. ¡Los resultados son cuatro veces la resolución!

Como si no fuera ya lo suficientemente impresionante, el modelo reciente aprendió una nueva habilidad; .

DALL·E podría generar imágenes a partir de entradas de texto.

DALL·E 2 puede hacerlo mejor, pero no se queda ahí. ¡También puede editar esas imágenes y hacer que se vean aún mejor! O simplemente agregue una función que desee, como algunos flamencos en el fondo.

¿Suena interesante? ¡Aprende más en el vídeo!

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/
►A. Ramesh et al., 2022, artículo DALL-E 2: https://cdn.openai.com/papers/dall-e-2.pdf
►Publicación del blog de OpenAI: https://openai.com/dall-e-2
►Riesgos y limitaciones: https://github.com/openai/dalle-2-preview/blob/main/system-card.md
►Página de instagram de OpenAI Dalle: https://www.instagram.com/openaidalle/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

el año pasado compartí a dolly un increíble

0:02

modelo de openai capaz de generar

0:05

imágenes de un pie tejano con increíble

0:08

resultados ahora es el momento de su gran

0:10

hermano muñequita también y no vas a creer

0:13

el progreso en un solo año dolly 2 es

0:15

no solo mejor en la generación

0:17

imágenes fotorrealistas de textos

0:20

los resultados son cuatro veces la resolución que

0:22

si no fuera ya lo suficientemente impresionante

0:25

el modelo reciente aprendió una nueva habilidad

0:27

imagen en pintura delhi podría generar

0:30

imágenes de entradas de texto que Dolly 2 puede hacer

0:33

es mejor pero no se detiene ahí

0:35

también puede editar esas imágenes y hacerlas

0:38

luzca aún mejor o simplemente agregue una característica

0:41

quieres como un aleteo va en el

0:43

fondo esto es lo que imagen y

0:45

pintar es tomar parte de una imagen

0:47

y reemplazarlo con otra cosa

0:49

siguiendo el estilo y reflexiones en

0:51

la imagen manteniendo el realismo por supuesto

0:53

no solo reemplaza la parte del

0:55

imagen al azar esto será demasiado fácil

0:58

para openai este proceso de pintura es

1:00

también guiado por texto, lo que significa que puede

1:02

dile que añada una hambruna vaya aquí allá o

1:05

aún allí

1:06

antes de sumergirse en el meollo de la cuestión

1:08

este nuevo modelo dahle déjame hablar un poco

1:11

poco sobre este episodio patrocinador

1:13

pesos y sesgos si no lo eres

1:15

familiarizado con el peso y los sesgos que está

1:17

sin duda nuevo aquí y debería

1:19

definitivamente suscríbete al canal

1:21

peso y sesgos le permite mantener

1:22

un seguimiento de todos sus experimentos con sólo

1:25

un puñado de líneas agregadas a su código

1:27

una característica que me encanta es cómo puedes

1:29

crea y comparte rápidamente un aspecto increíble

1:31

informes interactivos como este

1:34

mostrando claramente su equipo o yo futuro

1:36

tus carreras métricas hiperparámetros y

1:38

configuraciones de datos junto con cualquier nota

1:41

usted o su equipo tenían en ese momento es un

1:44

poderosa característica para agregar rápido

1:46

comentarios sobre un experimento o crear

1:48

piezas pulidas de informes de análisis pueden

1:50

también se pueden utilizar como tableros para informes

1:53

un subconjunto más pequeño de métricas que el

1:55

espacio de trabajo principal que incluso puedes crear

1:57

enlaces públicos de solo lectura para compartir con

2:00

cualquier persona puede capturar y compartir fácilmente su

2:02

el trabajo es fundamental si quieres crecer como

2:04

un practicante de ml, por eso yo

2:06

recomendar el uso de herramientas que mejoren su

2:08

funciona como pesos y sesgos solo inténtalo

2:11

con el primer enlace de abajo y empezar

2:13

compartir su trabajo como un profesional

2:16

ahora profundicemos en cómo Dolly 2 no puede

2:19

solo genera imágenes a partir de texto pero es

2:21

también capaz de editarlos de hecho esto

2:24

nueva habilidad de pintura que tiene la red

2:26

aprendido se debe a que es mejor

2:28

comprensión de los conceptos y las imágenes

2:30

ellos mismos a nivel local y global lo que yo

2:33

lo que significa local y globalmente es que

2:35

dahle 2 tiene una comprensión más profunda de

2:37

por qué los píxeles uno al lado del otro tiene

2:40

estos colores como entiende el

2:42

objetos en la escena y sus

2:43

interrelación entre sí de esta manera

2:46

será capaz de entender que esto

2:48

el agua tiene reflejo y el objeto en

2:50

el derecho también debería estar reflejado allí

2:53

también entiende la escena global

2:55

que es lo que está pasando como si

2:58

ibas a describir lo que está pasando

3:00

cuando la persona tomó la foto aquí

3:02

dirías que esta foto no existe

3:05

obviamente o de lo contrario estoy definitivamente abajo a

3:07

prueba que si nos olvidamos que esto es

3:09

imposible dirias que el astronauta

3:11

está montando un caballo en el espacio así que si yo fuera

3:14

para pedirte que dibujes la misma escena pero en

3:17

un planeta en lugar de en el espacio libre que

3:19

ser capaz de imaginar algo así

3:21

ya que entiendes que el caballo y

3:23

astronauta son los objetos de interés para

3:25

mantener en la imagen esto parece obvio

3:28

pero es extremadamente complejo para una máquina

3:30

que solo ve pixeles de colores que es

3:33

por qué dahli 2 es tan impresionante para mí pero

3:35

cómo entiende exactamente el modelo

3:38

el texto lo enviamos y podemos generar un

3:40

imagen fuera de eso, bueno, es bastante similar

3:43

al primer modelo que cubrí en el

3:45

canal comienza usando el clip

3:47

modelo de openai para codificar tanto un texto

3:50

y una imagen en el mismo dominio a

3:52

representación condensada llamada latente

3:55

código, entonces tomará esta codificación y

3:58

usar un generador también llamado decodificador para

4:01

generar una nueva imagen que signifique lo mismo

4:04

cosa como el texto ya que es del

4:06

mismo código latente por lo que dali 2 tiene dos pasos

4:10

clip para codificar la información y el

4:12

nuevo modelo de decodificador para tomar este codificado

4:15

información y generar una imagen a partir de

4:17

si estos dos pasos separados también son

4:20

por qué podemos generar variaciones de la

4:22

imágenes simplemente podemos cambiar al azar el

4:25

información codificada solo un poco haciendo

4:27

se mueve un poquito en el espacio latente

4:30

y seguirá representando lo mismo

4:32

frase teniendo todas las diferentes

4:34

valores creando una imagen diferente

4:36

representando el mismo texto que vemos

4:39

aquí inicialmente toma una entrada de texto y

4:42

lo codifica lo que vemos arriba es el

4:44

primer paso del proceso de formación donde

4:46

también le damos una imagen y la codificamos

4:48

usando clip para que las imágenes y el texto sean

4:51

codificado de manera similar siguiendo el clip

4:53

objetivo entonces de generar un nuevo

4:56

imagen cambiamos a la sección de abajo

4:58

donde usamos la codificación de texto guiada por

5:00

clip para transformarlo en una imagen lista

5:03

la codificación de esta transformación está hecha

5:05

usando una difusión previa a la cual vamos a

5:07

cubierta en breve, ya que es muy similar a

5:09

el modelo de difusión utilizado para el final

5:12

paso finalmente usamos nuestro recién creado

5:14

codificación de imágenes y decodificación en una nueva

5:17

imagen usando el decodificador de difusión a

5:20

decodificador de difusión o modal es una especie de

5:23

modelo que comienza con ruido aleatorio y

5:25

aprende cómo cambiar iterativamente esto

5:28

ruido para volver a una imagen que aprende

5:30

que al hacer lo contrario durante

5:32

entrenando le daremos de comer imagenes y

5:34

aplicar ruido gaussiano aleatorio en la imagen

5:37

iterativamente hasta que no podamos ver nada

5:40

aparte del ruido, simplemente invertimos

5:43

el modelo para generar imágenes a partir del ruido

5:45

si desea más detalles sobre esto

5:47

tipo de red que son realmente geniales

5:50

te invito a ver este video que hice

5:51

sobre ellos y listo así es como dali 2

5:55

genera imágenes de tan alta calidad

5:58

siguiente texto es súper impresionante y

6:00

nos dice que el modelo si entiende

6:02

el texto, pero ¿entiende profundamente

6:05

lo que creó

6:06

Bueno, seguro que parece que es el

6:08

capacidad de pintar imágenes que

6:10

nos hace creer que si entiende

6:12

las fotos bastante bien, pero ¿por qué es eso?

6:15

Entonces, ¿cómo puede vincular una entrada de texto a un

6:18

imagen y entender la imagen lo suficiente como para

6:20

reemplace solo algunas partes sin

6:23

afectando el realismo esto es todo

6:25

debido al clip, ya que vincula una entrada de texto

6:28

a una imagen si codificamos de nuevo nuestra nueva

6:30

imagen generada y usar un texto diferente

6:33

entrada para guiar a otra generación podemos

6:35

generar la segunda versión de la imagen

6:38

que reemplazará solo la región deseada

6:40

en nuestra primera generación y acabarás

6:43

arriba con esta foto desafortunadamente el

6:46

el código no está disponible públicamente y no es

6:48

en su api sin embargo, la razón de eso como

6:51

per openai es estudiar los riesgos y

6:53

limitaciones de un modelo tan potente

6:56

en realidad discuten estos posibles

6:58

riesgos y la razón de esta privacidad en

7:00

su papel y en un gran repositorio i

7:02

vinculado en la descripción a continuación si usted

7:04

están interesados también abrieron un

7:06

cuenta de instagram para compartir más resultados

7:08

si quieres ver que también es

7:10

vinculado a continuación, me encantó Dally y este

7:13

es aún más genial

7:15

por supuesto, esto fue solo una descripción general de

7:17

cómo funciona dahli2 y lo invito encarecidamente

7:19

leyendo su gran artículo vinculado a continuación

7:21

para más detalles sobre su implementación

7:23

del modelo espero que les haya gustado

7:26

video tanto como disfruté haciéndolo y

7:28

te veré la próxima semana con otro

increíble papel gracias por mirar




HISTORIAS RELACIONADAS

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa