paint-brush
¿Cómo funciona DALL · E mini?por@whatsai
24,742 lecturas
24,742 lecturas

¿Cómo funciona DALL · E mini?

por Louis Bouchard3m2022/06/19
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Dalle mini es una IA gratuita y de código abierto que produce imágenes sorprendentes a partir de entradas de texto. La IA se llama DALL·E mini y se puede utilizar para probar su conocimiento de la capacidad de Dall-e mini para generar imágenes. Dalle Mini es una IA de código abierto con la que se puede jugar con una herramienta sencilla y sencilla llamada DALimini. DALIMini es un proyecto creado por la comunidad creado por openai el año pasado y ha seguido evolucionando desde entonces con resultados increíbles.

Company Mentioned

Mention Thumbnail
featured image - ¿Cómo funciona DALL · E mini?
Louis Bouchard HackerNoon profile picture

Dalle mini es increíble, ¡y TÚ puedes usarlo!

Estoy seguro de que has visto fotos como esas en tu cuenta de Twitter en los últimos días. Si te preguntabas qué eran, son imágenes generadas por una IA llamada DALL·E mini. Si nunca los has visto, debes ver este video porque te lo estás perdiendo. Si te preguntas cómo es posible, estás en el video perfecto y sabrás la respuesta en menos de cinco minutos.

Dalle mini es una IA gratuita y de código abierto que produce imágenes sorprendentes a partir de entradas de texto. Así es como funciona:

Ver el vídeo

Referencias:

►Lea el artículo completo: https://www.louisbouchard.ai/dalle-mini/
►DALL·E mini contra DALL·E 2: https://youtu.be/0Eu9SDd-95E
►Los mini resultados DALL·E más raros/divertidos: https://youtu.be/9LHkNt2cH_w
►Juega con DALL·E mini: https://huggingface.co/spaces/dalle-mini/dalle-mini
►Código DALL·E mini: https://github.com/borisdayma/dalle-mini
►Twitter de Boris Dayma: https://twitter.com/borisdayma
►Excelente y completo informe técnico de Boris Dayma et al.: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip- modelo de red neuronal
►Gran hilo sobre Dall-e mini de Tanishq Mathew Abraham:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3F%2.redFmedia. com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN explicado: https://youtu.be/JfUTd8fjtX8
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

seguro que has visto fotos como esas

0:02

en tu cuenta de twitter en los últimos

0:04

días si te preguntas qué usan ellos

0:06

son imágenes generadas por una ia llamada

0:08

dali mini si nunca has visto esos que

0:11

Necesito ver este video porque eres

0:12

perdiendo si te preguntas cómo es esto

0:14

posible bueno estás en el perfecto

0:16

video y sabrás la respuesta en menos

0:18

de 5 minutos este nombre dali debe

0:21

ya me suenan ya que cubrí dos

0:23

versiones de este modelo hechas por openai en

0:26

el año pasado con resultados increíbles

0:28

pero este es diferente dalimini es un

0:31

proyecto creado por la comunidad de código abierto

0:33

inspirado en la primera versión de delhi

0:35

y ha seguido evolucionando desde entonces con

0:38

ahora resultados increibles gracias a boris

0:41

daima y todos los colaboradores sí esto

0:43

significa que puedes jugar con él de inmediato

0:46

gracias a carita abrazada el link esta en

0:48

la descripción a continuación pero dar esto

0:49

video unos segundos más antes de reproducir

0:51

con ella valdrá la pena y te

0:54

saber mucho más sobre este ai que

0:55

todos los que te rodean en el núcleo dali

0:58

mini es muy similar a delhi por lo que mi

1:00

video inicial sobre el modelo es un gran

1:02

introducción a este tiene dos principales

1:04

componentes como sospechas de un lenguaje y

1:07

un módulo de imagen primero tiene que

1:10

entender el mensaje de texto y luego

1:12

generar imágenes siguiendo dos muy

1:14

cosas diferentes que requieren dos

1:17

diferentes modelos la principal diferencia

1:18

con delhi mentira en los modelos

1:20

arquitectura y datos de entrenamiento, pero el

1:22

proceso de extremo a extremo es más o menos el

1:24

igual aquí tenemos un modelo de lenguaje

1:27

llamado bart bart es un modelo entrenado para

1:29

transformar la entrada de texto en un idioma

1:32

comprensible para el próximo modelo durante

1:34

entrenamiento alimentamos pares de imágenes con

1:36

subtítulos a dalemini bart toma el texto

1:39

subtítulo y lo transforma en discreto

1:42

fichas que serán legibles por el

1:44

siguiente modelo y lo ajustamos en base a la

1:46

diferencia entre la imagen generada

1:48

y la imagen enviada como entrada pero luego

1:51

que es esto de aqui que genera

1:54

la imagen que llamamos esto un decodificador lo hará

1:57

tomar la nueva representación de subtítulos

1:59

producido por bart que llamamos un

2:01

codificación y lo decodificará en un

2:04

imagen en este caso el decodificador de imagen es

2:07

vqgan un modelo que ya cubrí en el

2:10

canal así que definitivamente te invito a

2:11

mira el video si te interesa

2:14

short vkugen es una gran arquitectura para

2:16

hace lo contrario aprende a pasar de

2:19

tal mapeo de codificación y generar un

2:22

imagen fuera de ella como sospecha gpt3 y

2:25

otros modelos generativos de lenguaje hacen un

2:27

algo muy similar codificando texto y

2:29

decodificando el mapeo recién generado

2:32

en un nuevo texto que te devuelve

2:35

aqui es lo mismo pero con pixeles

2:37

formando una imagen en lugar de letras

2:40

formando una oración se aprende a través de

2:42

millones de pares de imágenes de codificación de

2:45

Internet, así que básicamente estás publicado

2:47

imágenes con subtítulos y termina siendo

2:50

bastante precisa en la reconstrucción de la

2:52

imagen inicial, entonces puedes alimentarla nueva

2:54

codificaciones que se parecen a las de

2:56

entrenamiento pero son un poco diferentes y

2:59

generará un completamente nuevo pero

3:01

imagen similar de manera similar generalmente agregamos

3:04

solo un poco de ruido a estas codificaciones

3:06

para generar una nueva imagen que represente el

3:08

mismo mensaje de texto y listo, así es como

3:12

dali mini aprende a generar imágenes a partir de

3:14

sus subtítulos de texto como mencioné es

3:17

código abierto e incluso puedes jugar con

3:19

de inmediato gracias a abrazar la cara

3:22

Por supuesto, esto fue solo un simple

3:24

resumen y omití algunos importantes

3:26

pasos para mayor claridad si desea más

3:29

detalles sobre el modelo que vinculé genial

3:31

recursos en la descripción a continuación i

3:34

también publicó recientemente dos videos cortos

3:36

mostrando algunos resultados divertidos, así como

3:38

los resultados de una comparación con el día 2 para

3:40

el mismo texto indica que es genial

3:42

a ver espero que hayas disfrutado este video

3:45

y si es así por favor tómese unos segundos para

3:47

házmelo saber en los comentarios y déjame un

3:50

como te veré no la próxima semana sino en

3:52

dos semanas con otro artículo increíble

3:55

[Música]

4:14

[Música]