735 lượt đọc

Phương pháp tiếp cận của NVIDIA và Đại học Tel Aviv để điều chỉnh mô hình chuyển văn bản thành hình ảnh

từ tác giả Louis Bouchard5m2022/09/05

dài quá đọc không nổi

Các mô hình chuyển văn bản thành hình ảnh như DALLE hoặc khuếch tán ổn định thực sự tuyệt vời và cho phép chúng tôi tạo ra những bức ảnh tuyệt vời với một đầu vào văn bản đơn giản. Nhưng sẽ tuyệt hơn nếu đưa cho họ một bức tranh của bạn và yêu cầu họ biến nó thành một bức tranh? Hãy tưởng tượng bạn có thể gửi bất kỳ bức ảnh nào về đồ vật, con người hoặc thậm chí là con mèo của bạn và yêu cầu người mẫu biến nó thành một phong cách khác như biến bạn thành một người máy theo phong cách nghệ thuật ưa thích của bạn hoặc thêm nó vào một cảnh mới.

Company Mentioned

featured image - Phương pháp tiếp cận của NVIDIA và Đại học Tel Aviv để điều chỉnh mô hình chuyển văn bản thành hình ảnh

Các mô hình chuyển văn bản thành hình ảnh như DALLE hoặc khuếch tán ổn định thực sự tuyệt vời và cho phép chúng tôi tạo ra những bức ảnh tuyệt vời với một đầu vào văn bản đơn giản. Nhưng sẽ tuyệt hơn nếu đưa cho họ một bức tranh của bạn và yêu cầu họ biến nó thành một bức tranh? Hãy tưởng tượng bạn có thể gửi bất kỳ bức ảnh nào về một đồ vật, con người hoặc thậm chí là con mèo của bạn và yêu cầu người mẫu biến nó thành một phong cách khác như biến bạn thành một người máy theo phong cách nghệ thuật ưa thích của bạn hoặc thêm nó vào một cảnh mới.

Về cơ bản, sẽ tuyệt vời như thế nào nếu có một phiên bản DALLE mà chúng ta có thể sử dụng để chỉnh sửa hình ảnh của mình thay vì có các thế hệ ngẫu nhiên? Có một DALLE được cá nhân hóa, đồng thời giúp việc kiểm soát thế hệ trở nên đơn giản hơn nhiều vì “một hình ảnh có giá trị một ngàn lời nói”. Nó sẽ giống như việc có một mô hình DALLE được cá nhân hóa và gây nghiện như thuật toán TikTok.

Đây là những gì các nhà nghiên cứu từ Đại học Tel Aviv và NVIDIA đã nghiên cứu. Họ đã phát triển một cách tiếp cận để điều hòa các mô hình văn bản thành hình ảnh, như sự khuếch tán ổn định mà tôi đã đề cập vào tuần trước, với một vài hình ảnh để đại diện cho bất kỳ đối tượng hoặc khái niệm nào thông qua các từ bạn sẽ gửi cùng hình ảnh của mình. Chuyển đổi đối tượng của hình ảnh đầu vào của bạn thành bất kỳ thứ gì bạn muốn! Tìm hiểu thêm trong video ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/imageworthoneword/
► Giấy: Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. và Cohen-Or, D., 2022. Một hình ảnh đáng giá một lời:
Cá nhân hóa tạo văn bản thành hình ảnh bằng cách sử dụng Đảo ngược văn bản. https://arxiv.org/pdf/2208.01618v1.pdf
►Code: https://textual-inversion.github.io/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/