Make-A-Scene không phải là “một Dalle khác”. Mục tiêu của mô hình mới này không phải là cho phép người dùng tạo hình ảnh ngẫu nhiên sau lời nhắc văn bản như dalle đã làm - điều này thực sự tuyệt vời - nhưng hạn chế quyền kiểm soát của người dùng trên các thế hệ.
Thay vào đó, Meta muốn thúc đẩy sự thể hiện sáng tạo về phía trước, kết hợp xu hướng chuyển văn bản thành hình ảnh này với các mô hình phác thảo thành hình ảnh trước đó, dẫn đến “Make-A-Scene”: một sự pha trộn tuyệt vời giữa văn bản và tạo hình ảnh có điều kiện phác thảo. Tìm hiểu thêm trong video ...
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/make-a-scene/
► Bài đăng trên blog của Maeta: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
► Giấy: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. và
Taigman, Y., 2022. Make-a-scene: Tạo văn bản thành hình ảnh dựa trên cảnh
với con người.
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:00
[Âm nhạc]
0:06
đây là tạo ra một cảnh mà nó không chỉ
0:08
một người khác thích mục tiêu của mô hình mới này
0:11
không cho phép người dùng tạo ngẫu nhiên
0:13
hình ảnh sau lời nhắc văn bản dưới dạng dali
0:15
điều đó thực sự tuyệt vời nhưng hạn chế
0:17
sự kiểm soát của người dùng trên các thế hệ
0:20
thay vào đó meta muốn thúc đẩy quảng cáo
0:22
biểu thức chuyển tiếp hợp nhất văn bản này thành
0:25
xu hướng hình ảnh với bản phác thảo trước đó để
0:27
các mô hình hình ảnh dẫn đến việc tạo ra một cảnh
0:30
sự pha trộn tuyệt vời giữa văn bản và phác thảo
0:32
điều kiện tạo hình ảnh đơn giản này
0:35
nghĩa là sử dụng cách tiếp cận mới này, bạn
0:37
có thể nhanh chóng phác thảo một con mèo và viết
0:40
loại hình ảnh bạn muốn và
0:42
quá trình tạo hình ảnh sẽ theo sau
0:43
cả bản phác thảo và hướng dẫn của bạn
0:45
nhắn tin nó đưa chúng ta đến gần hơn
0:48
có thể tạo ra sự hoàn hảo
0:49
minh họa chúng tôi muốn trong vài giây
0:52
bạn có thể thấy đa phương thức này mang tính tổng hợp
0:54
ai phương pháp như một mô hình hàng ngày với một chút
0:57
kiểm soát nhiều hơn qua các thế hệ kể từ
0:59
nó cũng có thể đưa vào một bản phác thảo nhanh như
1:01
đầu vào, đây là lý do tại sao chúng tôi gọi nó là đa phương thức
1:04
vì nó có thể có nhiều phương thức như
1:07
đầu vào như văn bản và hình ảnh một bản phác thảo
1:10
trong trường hợp này so với delhi
1:12
chỉ lấy văn bản để tạo hình ảnh
1:14
mô hình đa phương thức là một cái gì đó siêu
1:17
hứa hẹn đặc biệt nếu chúng tôi phù hợp với
1:19
chất lượng của kết quả chúng tôi thấy trực tuyến
1:21
vì chúng tôi có nhiều quyền kiểm soát hơn đối với
1:23
kết quả ngày càng gần với một
1:25
mục tiêu cuối cùng thú vị là tạo ra
1:27
hình ảnh hoàn hảo mà chúng tôi có trong tâm trí mà không có
1:30
bất kỳ kỹ năng thiết kế nào, tất nhiên đây là
1:32
vẫn ở trạng thái nghiên cứu và là một
1:34
thám hiểm ai nghiên cứu khái niệm nó
1:37
không có nghĩa là những gì chúng ta thấy không phải là
1:38
có thể đạt được nó chỉ có nghĩa là nó sẽ mất một
1:41
thêm chút thời gian để đến với công chúng
1:43
tiến độ cực kỳ nhanh trong lĩnh vực này
1:45
và tôi sẽ không ngạc nhiên khi thấy nó
1:47
sống rất ngắn hoặc một mô hình tương tự
1:49
từ những người khác để chơi với tôi tin
1:52
các mô hình phác thảo và dựa trên văn bản như vậy là
1:54
thậm chí còn thú vị hơn, đặc biệt là đối với
1:56
ngành công nghiệp đó là lý do tại sao tôi muốn bao gồm
1:58
nó trên kênh của tôi mặc dù kết quả
2:00
chậm hơn một chút so với hàng ngày 2 mà chúng ta thấy
2:03
trực tuyến và nó không chỉ thú vị cho
2:05
ngành công nghiệp nhưng đối với các nghệ sĩ quá một số
2:08
sử dụng tính năng phác thảo để tạo ra
2:10
kết quả bất ngờ hơn những gì delhi
2:13
có thể làm được không, chúng tôi có thể yêu cầu nó tạo ra
2:14
một cái gì đó và vẽ một biểu mẫu không
2:17
đại diện cho những thứ cụ thể như
2:18
vẽ một con sứa hình bông hoa
2:21
có thể không phải là không thể có với
2:23
dali nhưng phức tạp hơn nhiều nếu không có
2:25
hướng dẫn phác thảo như mô hình sẽ chỉ
2:27
tái tạo những gì nó học được từ đó
2:29
đến từ hình ảnh thế giới thực và
2:32
hình minh họa nên câu hỏi chính là
2:34
làm thế nào họ có thể hướng dẫn các thế hệ với
2:36
cả kiểu nhập văn bản như delhi và bản phác thảo
2:39
đồng thời và có mô hình theo
2:41
cả hai nguyên tắc tốt, nó rất rất
2:44
tương tự như cách delhi hoạt động, vì vậy tôi sẽ không
2:47
nhập quá nhiều vào các chi tiết của một
2:49
mô hình tổng quát như tôi đã đề cập ít nhất
2:51
năm cách tiếp cận khác nhau trong quá khứ
2:53
hai tháng mà bạn chắc chắn nên làm
2:55
xem nếu bạn chưa làm như những mô hình này
2:57
như dali 2 hay imogen đều khá
2:59
tuyệt vời
3:00
thông thường những mô hình này sẽ lấy
3:02
hàng triệu ví dụ đào tạo để học hỏi
3:04
cách tạo hình ảnh từ văn bản với
3:07
dữ liệu dưới dạng hình ảnh và
3:09
chú thích cóp nhặt từ internet ở đây
3:12
trong quá trình đào tạo thay vì chỉ dựa vào
3:14
trên chú thích tạo ra đầu tiên
3:17
phiên bản của hình ảnh và so sánh nó với
3:19
hình ảnh thực tế và lặp lại điều này
3:21
xử lý nhiều lần với tất cả
3:23
hình ảnh chúng tôi cũng sẽ cung cấp cho nó một bản phác thảo
3:26
điều thú vị là các bản phác thảo là
3:28
khá dễ sản xuất để đào tạo
3:30
chỉ cần lấy một mạng được đào tạo trước, bạn
3:32
có thể tải xuống trực tuyến và thực hiện phiên bản
3:35
phân khúc cho những người muốn
3:37
chi tiết họ sử dụng vgg được đào tạo trước miễn phí
3:40
mô hình trên imagenet nên khá nhỏ
3:42
so với những mạng ngày nay siêu
3:44
kết quả chính xác và nhanh chóng như
3:47
cái này được gọi là bản đồ phân đoạn họ
3:49
chỉ cần xử lý tất cả hình ảnh của họ một lần và
3:52
lấy những bản đồ này để đào tạo mô hình
3:55
sau đó sử dụng bản đồ này cũng như chú thích
3:58
để định hướng mô hình để tạo ra
4:00
hình ảnh ban đầu tại thời điểm suy luận hoặc khi
4:02
một trong số chúng tôi sẽ sử dụng nó bản phác thảo của chúng tôi sẽ
4:05
thay thế những bản đồ đó như tôi đã nói rằng họ đã sử dụng
4:08
mô hình được gọi là vgg để tạo các bản phác thảo giả
4:11
để đào tạo họ sử dụng một máy biến áp
4:13
kiến trúc cho thế hệ hình ảnh
4:15
quy trình khác với dolly đến
4:17
và tôi mời bạn xem video tôi
4:19
giới thiệu máy biến áp cho tầm nhìn
4:21
ứng dụng nếu bạn muốn biết thêm chi tiết
4:23
về cách nó có thể xử lý và tạo ra
4:25
hình ảnh máy biến áp hướng dẫn phác thảo này là
4:28
sự khác biệt chính với tạp chí cùng
4:30
với việc không sử dụng trình xếp hạng văn bản hình ảnh như
4:33
clip để đo các cặp văn bản và hình ảnh
4:36
mà bạn cũng có thể tìm hiểu về
4:37
video hàng ngày
4:39
thay vào đó tất cả văn bản được mã hóa và
4:41
bản đồ phân đoạn được gửi đến
4:43
biến mô hình mô hình sau đó
4:45
tạo mã thông báo hình ảnh có liên quan
4:48
được mã hóa và giải mã bởi
4:50
mạng chủ yếu để tạo ra hình ảnh
4:53
bộ mã hóa được sử dụng trong quá trình đào tạo để
4:55
tính toán sự khác biệt giữa
4:57
được sản xuất và hình ảnh ban đầu nhưng chỉ
4:59
bộ giải mã là cần thiết để thực hiện điều này
5:01
đầu ra máy biến áp và biến nó thành
5:04
một tấm ảnh
5:05
và thì đây là cách mô hình mới của meta
5:08
có thể chụp bản phác thảo và nhập văn bản
5:11
và tạo ra một hình ảnh có độ nét cao
5:13
nó cho phép kiểm soát nhiều hơn đối với
5:16
kết quả với chất lượng tuyệt vời
5:18
và như họ nói đó chỉ là sự khởi đầu
5:20
của loại ai mới này mô hình
5:22
các phương pháp tiếp cận sẽ tiếp tục cải thiện cả hai
5:24
về chất lượng và tính khả dụng cho
5:27
công chúng cực kỳ thú vị
5:30
các nghệ sĩ đã sử dụng mô hình cho
5:32
công việc của riêng họ như được mô tả trong meta
5:34
bài đăng trên blog và tôi rất vui mừng về thời điểm chúng tôi
5:37
cũng sẽ có thể sử dụng nó
5:39
cách tiếp cận không yêu cầu bất kỳ mã hóa nào
5:41
kiến thức chỉ có một bàn tay phác thảo tốt và
5:43
một số kỹ thuật nhanh chóng có nghĩa là
5:45
thử và sai với các đầu vào văn bản
5:48
điều chỉnh các công thức và từ ngữ được sử dụng
5:50
để tạo ra các kết quả khác nhau và tốt hơn
5:53
tất nhiên đây chỉ là một cái nhìn tổng quan về
5:55
cái mới tạo ra một cách tiếp cận cảnh và tôi
5:57
mời bạn đọc toàn bộ bài báo được liên kết
5:59
dưới đây để có cái nhìn tổng quan đầy đủ về cách nó
6:02
hoạt động, tôi hy vọng bạn thích video này
6:04
và tôi sẽ gặp bạn vào tuần tới với
6:06
một tờ giấy tuyệt vời khác
6:09
[Âm nhạc]