paint-brush
Phương pháp tiếp cận của NVIDIA và Đại học Tel Aviv để điều chỉnh mô hình chuyển văn bản thành hình ảnhtừ tác giả@whatsai
721 lượt đọc
721 lượt đọc

Phương pháp tiếp cận của NVIDIA và Đại học Tel Aviv để điều chỉnh mô hình chuyển văn bản thành hình ảnh

từ tác giả Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Các mô hình chuyển văn bản thành hình ảnh như DALLE hoặc khuếch tán ổn định thực sự tuyệt vời và cho phép chúng tôi tạo ra những bức ảnh tuyệt vời với một đầu vào văn bản đơn giản. Nhưng sẽ tuyệt hơn nếu đưa cho họ một bức tranh của bạn và yêu cầu họ biến nó thành một bức tranh? Hãy tưởng tượng bạn có thể gửi bất kỳ bức ảnh nào về đồ vật, con người hoặc thậm chí là con mèo của bạn và yêu cầu người mẫu biến nó thành một phong cách khác như biến bạn thành một người máy theo phong cách nghệ thuật ưa thích của bạn hoặc thêm nó vào một cảnh mới.

Company Mentioned

Mention Thumbnail
featured image - Phương pháp tiếp cận của NVIDIA và Đại học Tel Aviv để điều chỉnh mô hình chuyển văn bản thành hình ảnh
Louis Bouchard HackerNoon profile picture

Các mô hình chuyển văn bản thành hình ảnh như DALLE hoặc khuếch tán ổn định thực sự tuyệt vời và cho phép chúng tôi tạo ra những bức ảnh tuyệt vời với một đầu vào văn bản đơn giản. Nhưng sẽ tuyệt hơn nếu đưa cho họ một bức tranh của bạn và yêu cầu họ biến nó thành một bức tranh? Hãy tưởng tượng bạn có thể gửi bất kỳ bức ảnh nào về một đồ vật, con người hoặc thậm chí là con mèo của bạn và yêu cầu người mẫu biến nó thành một phong cách khác như biến bạn thành một người máy theo phong cách nghệ thuật ưa thích của bạn hoặc thêm nó vào một cảnh mới.

Về cơ bản, sẽ tuyệt vời như thế nào nếu có một phiên bản DALLE mà chúng ta có thể sử dụng để chỉnh sửa hình ảnh của mình thay vì có các thế hệ ngẫu nhiên? Có một DALLE được cá nhân hóa, đồng thời giúp việc kiểm soát thế hệ trở nên đơn giản hơn nhiều vì “một hình ảnh có giá trị một ngàn lời nói”. Nó sẽ giống như việc có một mô hình DALLE được cá nhân hóa và gây nghiện như thuật toán TikTok.

Đây là những gì các nhà nghiên cứu từ Đại học Tel Aviv và NVIDIA đã nghiên cứu. Họ đã phát triển một cách tiếp cận để điều hòa các mô hình văn bản thành hình ảnh, như sự khuếch tán ổn định mà tôi đã đề cập vào tuần trước, với một vài hình ảnh để đại diện cho bất kỳ đối tượng hoặc khái niệm nào thông qua các từ bạn sẽ gửi cùng hình ảnh của mình. Chuyển đổi đối tượng của hình ảnh đầu vào của bạn thành bất kỳ thứ gì bạn muốn! Tìm hiểu thêm trong video ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/imageworthoneword/
► Giấy: Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. và Cohen-Or, D., 2022. Một hình ảnh đáng giá một lời:
Cá nhân hóa tạo văn bản thành hình ảnh bằng cách sử dụng Đảo ngược văn bản. https://arxiv.org/pdf/2208.01618v1.pdf
►Code: https://textual-inversion.github.io/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

mô hình chuyển văn bản thành hình ảnh như dali hoặc ổn định

0:02

sự khuếch tán thực sự tuyệt vời và cho phép chúng tôi

0:04

để tạo ra những bức ảnh tuyệt vời với

0:07

đầu vào văn bản đơn giản nhưng nó sẽ thậm chí

0:09

mát hơn để cung cấp cho họ hình ảnh của bạn và

0:11

yêu cầu nó biến nó thành một bức tranh

0:13

tưởng tượng có thể gửi bất kỳ hình ảnh nào

0:15

của một người hoặc thậm chí con mèo của bạn và

0:18

yêu cầu mô hình biến nó thành

0:20

một phong cách khác như biến bạn thành

0:22

một người máy thành nghệ thuật ưa thích của bạn

0:24

phong cách hoặc thậm chí thêm nó vào một cảnh mới

0:27

về cơ bản sẽ tuyệt biết bao nếu có một

0:30

phiên bản dali chúng ta có thể sử dụng để photoshop

0:32

hình ảnh của chúng tôi thay vì ngẫu nhiên

0:35

các thế hệ

0:36

có một dolly được cá nhân hóa trong khi chế tạo

0:39

điều khiển đơn giản hơn nhiều

0:41

các thế hệ như một hình ảnh có giá trị

0:44

ngàn từ nó sẽ giống như có một

0:46

mô hình dali cũng được cá nhân hóa

0:49

và gây nghiện như thuật toán tic tac

0:52

đây là những gì các nhà nghiên cứu từ điện thoại di động

0:54

đại học aviv và nvidia đã làm việc trên

0:57

họ đã phát triển một cách tiếp cận để

0:58

điều hòa các mô hình chuyển văn bản thành hình ảnh như

1:01

sự khuếch tán ổn định mà tôi đã đề cập vào tuần trước

1:03

với một vài hình ảnh đại diện cho bất kỳ

1:05

đối tượng hoặc khái niệm thông qua các từ bạn

1:08

sẽ gửi những hình ảnh của bạn đang biến đổi

1:11

đối tượng của hình ảnh đầu vào của bạn vào

1:13

bất cứ điều gì bạn muốn tất nhiên là kết quả

1:15

vẫn cần làm việc nhưng đây chỉ là

1:17

tờ giấy đầu tiên giải quyết một cách tuyệt vời như vậy

1:19

nhiệm vụ có thể cách mạng hóa thiết kế

1:22

ngành công nghiệp như một youtuber tuyệt vời

1:24

đồng nghiệp sẽ nói chỉ cần tưởng tượng thêm hai

1:26

giấy tờ xuống dòng, vậy làm thế nào chúng ta có thể lấy

1:29

một số ít hình ảnh của một đối tượng và

1:31

tạo một hình ảnh mới theo sau một văn bản

1:33

nhập điều kiện để thêm kiểu hoặc

1:35

chi tiết chuyển đổi để trả lời điều này

1:38

câu hỏi phức tạp chúng ta hãy xem xét

1:40

Reynold gal và nhóm của anh ấy đã nghĩ ra điều gì

1:42

với các hình ảnh đầu vào được mã hóa thành

1:44

những gì họ gọi là từ absurdo mà bạn có thể

1:47

sau đó sử dụng trong thế hệ văn bản của bạn

1:50

do đó tên giấy một hình ảnh có giá trị

1:52

một từ nhưng làm thế nào để họ có được loại này

1:55

từ và nó là gì

1:57

chúng bắt đầu với ba đến năm hình ảnh về

2:00

một đối tượng cụ thể họ cũng sử dụng

2:02

được đào tạo trước từ mô hình văn bản sang hình ảnh trong này

2:04

trường hợp họ sử dụng mô hình khuếch tán tiềm ẩn

2:07

tôi đã đề cập đến cách đây không đến một tuần mà

2:09

nhận bất kỳ loại đầu vào nào như hình ảnh hoặc

2:12

văn bản và tạo hình ảnh mới từ

2:15

chúng, bạn có thể xem nó như một cái mát và cởi mở

2:18

nguồn đồ ăn ngon nếu bạn chưa xem của tôi

2:20

video nhưng bạn nên tạm dừng video này

2:23

tìm hiểu về mô hình này và quay lại

2:25

ở đây bạn sẽ thích video và học hỏi

2:27

về kiến trúc nóng nhất của

2:29

khoảnh khắc để bạn có hình ảnh đầu vào của mình và

2:32

mô hình cơ sở để tạo hình ảnh

2:34

điều kiện và đầu vào như văn bản hoặc

2:37

những hình ảnh khác nhưng bạn làm gì với

2:39

ba đến năm hình ảnh của bạn về một đối tượng

2:42

và làm thế nào để bạn kiểm soát mô hình

2:43

kết quả chính xác đến mức đối tượng của bạn

2:46

xuất hiện trong các thế hệ đây là tất cả

2:48

được thực hiện trong quá trình đào tạo của bạn

2:51

thứ hai mô hình hóa bộ mã hóa văn bản bằng cách sử dụng

2:54

trình tạo hình ảnh cố định và được đào tạo trước

2:56

mô hình khuếch tán tiềm ẩn trong trường hợp này

2:59

đã có thể chụp ảnh và

3:00

xây dựng lại nó mà bạn muốn dạy

3:02

phương thức mã hóa văn bản để khớp với absurdo

3:05

từ các hình ảnh được mã hóa của bạn hoặc trong các hình ảnh khác

3:08

từ đại diện của bạn được lấy từ

3:11

năm hình ảnh của bạn để bạn sẽ cung cấp

3:13

hình ảnh vào mạng trình tạo hình ảnh của bạn

3:16

và đào tạo ngược lại bộ mã hóa văn bản của bạn

3:19

để tìm ra những từ giả mạo hoặc một số

3:22

từ tốt nhất sẽ đại diện cho tất cả của bạn

3:24

hình ảnh được mã hóa về cơ bản tìm ra cách

3:27

thể hiện chính xác khái niệm của bạn trong

3:29

không gian giống như nơi tạo hình ảnh

3:32

quy trình tôi đã mô tả trong video trước của mình

3:34

xảy ra

3:36

sau đó trích xuất một từ giả từ nó để

3:38

hướng dẫn thế hệ tương lai theo cách này bạn

3:41

có thể đưa khái niệm của bạn vào bất kỳ tương lai nào

3:44

thế hệ và thêm một vài từ nữa vào

3:46

điều kiện thế hệ hơn nữa

3:49

sử dụng cùng một văn bản thành hình ảnh được đào tạo trước

3:51

mô hình, vì vậy bạn sẽ chỉ đơn giản là đào tạo

3:54

mô hình nhỏ để hiểu vị trí của bạn

3:56

hình ảnh nằm trong không gian tiềm ẩn để

3:58

chuyển chúng thành một từ giả để sử dụng

4:00

mô hình tạo hình ảnh thông thường của họ

4:03

thậm chí không cần phải chạm vào hình ảnh

4:05

mô hình thế hệ và điều đó khá lớn

4:07

thỏa thuận xem chúng đắt như thế nào

4:09

để đào tạo và thì đó là cách bạn có thể

4:12

dạy một mô hình tương tự để tạo hình ảnh

4:14

các biến thể của đối tượng ưa thích của bạn hoặc

4:17

thực hiện chuyển kiểu mạnh mẽ

4:19

tất nhiên đây chỉ là một cái nhìn tổng quan về

4:21

phương pháp mới này giải quyết một

4:24

nhiệm vụ thú vị và tôi mời bạn

4:26

đọc bài báo của họ được liên kết bên dưới để biết

4:28

hiểu sâu hơn về cách tiếp cận và

4:30

thách thức đó là một nhiệm vụ rất phức tạp

4:33

và vẫn còn rất nhiều hạn chế

4:35

như thời gian cần thiết để hiểu

4:37

một khái niệm như vậy trong một từ giả mạo là

4:39

khoảng hai giờ nó cũng chưa

4:42

có khả năng hoàn toàn hiểu

4:44

khái niệm nhưng khá gần đó

4:47

cũng có rất nhiều rủi ro khi có một

4:49

sản phẩm có thể truy cập được mà chúng tôi cần

4:51

hãy xem xét việc tưởng tượng có thể nhúng

4:54

khái niệm về một người cụ thể và

4:56

tạo ra bất cứ điều gì liên quan đến người đó

4:58

trong vài giây, điều này khá đáng sợ và

5:01

loại công nghệ này chỉ là xung quanh

5:03

góc

5:04

tôi rất muốn nghe những suy nghĩ của bạn trong

5:06

phần bình luận hoặc thảo luận về điều này trên

5:09

máy chủ bất hòa

5:10

cảm ơn bạn đã xem video và tôi

5:12

Hẹn gặp lại bạn vào tuần sau với một người khác

5:14

giấy tuyệt vời

5:22

[Âm nhạc]