paint-brush
Nhà sản xuất phim AI đột phá của Meta: Make-A-Sceneby@whatsai
1,815
1,815

Nhà sản xuất phim AI đột phá của Meta: Make-A-Scene

Louis Bouchard5m2022/10/01
Read on Terminal Reader
Read this story w/o Javascript

Mô hình tạo video mới của Meta AI đã ra mắt và chỉ trong một câu: nó tạo video từ văn bản. Nó không chỉ có thể tạo video mà còn là phương pháp hiện đại mới, tạo ra các video có chất lượng cao hơn và mạch lạc hơn bao giờ hết. Đây là tất cả thông tin bạn phải đã thấy trên một trang web tin tức hoặc chỉ khi đọc tiêu đề của bài báo, nhưng điều bạn chưa biết chính xác là nó là gì và nó hoạt động như thế nào.
featured image - Nhà sản xuất phim AI đột phá của Meta: Make-A-Scene
Louis Bouchard HackerNoon profile picture
0-item

Mô hình tạo video mới của Meta AI đã ra mắt và chỉ trong một câu: nó tạo video từ văn bản . Nó không chỉ có thể tạo video mà còn là phương pháp hiện đại mới, tạo ra các video có chất lượng cao hơn và mạch lạc hơn bao giờ hết!

Bạn có thể xem mô hình này là mô hình khuếch tán ổn định cho video. Chắc chắn là bước tiếp theo sau khi có thể tạo hình ảnh. Đây là tất cả thông tin bạn chắc hẳn đã thấy trên một trang web tin tức hoặc chỉ khi đọc tiêu đề của bài báo, nhưng điều bạn chưa biết chính xác là nó là gì và nó hoạt động như thế nào.

Đây là cách ...

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/make-a-video/
► Bài đăng trên blog của Meta: https://ai.facebook.com/blog/generative-ai-text-to-video/
►Singer và cộng sự. (Meta AI), 2022, "MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION KHÔNG CÓ DỮ LIỆU VĂN BẢN-VIDEO", https://makeavideo.studio/Make-A-Video.pdf
►Make-a-video (trang chính thức): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Triển khai Pytorch: https://github.com/lucidrains/make-a-video-pytorch
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

methias mô hình mới làm video đã ra mắt

0:03

và trong một câu duy nhất, nó tạo ra

0:05

video từ văn bản nó không phải là không thể

0:07

tạo video nhưng nó cũng là video mới

0:09

phương pháp hiện đại sản xuất cao hơn

0:11

video chất lượng và mạch lạc hơn

0:14

bao giờ bạn có thể thấy mô hình này là một

0:16

mô hình khuếch tán cho video chắc chắn

0:19

bước tiếp theo sau khi có thể tạo

0:21

hình ảnh đây là thông tin bạn phải làm như thế nào

0:23

đã thấy trên một trang web Tin tức hoặc

0:26

chỉ bằng cách đọc tiêu đề của video

0:28

nhưng những gì bạn chưa biết là những gì là

0:30

nó chính xác và nó hoạt động như thế nào để tạo ra một video

0:33

là ấn phẩm gần đây nhất của met

0:35

III và nó cho phép bạn tạo

0:37

video ngắn không có đầu vào văn bản chỉ

0:40

như thế này, vì vậy bạn đang thêm phức tạp

0:42

để kiểm tra tạo hình ảnh không chỉ bởi

0:45

phải tạo nhiều khung

0:47

cùng một chủ đề và cảnh nhưng nó cũng

0:49

phải mạch lạc trong thời gian bạn không thể

0:51

chỉ cần tạo ra 60 hình ảnh bằng cách sử dụng dally

0:53

và tạo một video, nó sẽ giống như

0:56

xấu và không có gì thực tế bạn cần một

0:58

mô hình hiểu thế giới trong một

1:00

cách tốt hơn và tận dụng mức này

1:02

sự hiểu biết để tạo ra một mạch lạc

1:04

một loạt hình ảnh kết hợp tốt

1:06

cùng nhau về cơ bản bạn muốn mô phỏng

1:08

một thế giới và sau đó mô phỏng các bản ghi âm của

1:11

nó nhưng làm thế nào bạn có thể làm điều đó thường bạn

1:14

sẽ cần rất nhiều cặp video văn bản để

1:16

đào tạo mô hình của bạn để tạo ra những video như vậy

1:18

từ đầu vào văn bản nhưng không phải trong trường hợp này

1:21

vì loại dữ liệu này thực sự là

1:23

khó có được và chi phí đào tạo

1:25

siêu đắt, họ tiếp cận cái này

1:27

vấn đề khác một cách khác là

1:30

lấy văn bản tốt nhất làm mô hình hình ảnh và

1:32

điều chỉnh nó thành video và đó là điều tôi đã đáp ứng

1:35

đã làm trong một bài báo nghiên cứu họ chỉ

1:38

phát hành trong trường hợp của họ văn bản thành hình ảnh

1:40

mô hình là một mô hình khác theo meta được gọi là

1:43

tạp chí mà tôi đã đề cập trong một

1:45

video nếu bạn muốn tìm hiểu thêm về

1:47

nó nhưng làm thế nào để bạn điều chỉnh một mô hình như vậy để

1:50

dành thời gian cân nhắc, bạn thêm một

1:53

đường ống thời gian không gian cho mô hình của bạn

1:55

để có thể xử lý video, điều này có nghĩa là

1:58

rằng mô hình sẽ không chỉ tạo ra một

2:00

nhưng trong trường hợp này, 16 trong số chúng ở mức thấp

2:03

phân giải để tạo ra một mạch lạc ngắn

2:06

video theo cách tương tự như một văn bản tới

2:08

mô hình hình ảnh nhưng thêm một chiều

2:11

tích chập cùng với thông thường

2:13

hai chiều một sự bổ sung đơn giản

2:15

cho phép họ giữ những điều đã được đào tạo trước

2:17

chập trùng hai chiều giống nhau

2:19

và thêm Thứ nguyên tạm thời mà chúng

2:22

sẽ đào tạo lại từ đầu, sử dụng lại hầu hết

2:25

thông số mã và mô hình từ

2:27

mô hình hình ảnh họ cũng bắt đầu từ chúng tôi

2:30

muốn hướng dẫn các Thế hệ của Chúng ta bằng văn bản

2:32

đầu vào sẽ rất giống với

2:34

mô hình hình ảnh sử dụng nhúng clip a

2:37

quy trình tôi đi chi tiết trong chuồng của tôi

2:39

video khuếch tán nếu bạn không quen thuộc

2:41

với vấn đề của họ nhưng họ cũng sẽ

2:43

thêm Thứ nguyên thời gian khi

2:45

pha trộn các tính năng văn bản với

2:47

tính năng hình ảnh làm điều tương tự

2:49

giữ mô-đun chú ý mà tôi đã mô tả

2:52

trong tôi tạo một video cảnh và thêm một

2:55

mô-đun chú ý một chiều hoặc

2:57

cân nhắc tạm thời sao chép dán

3:00

mô hình trình tạo hình ảnh và sao chép

3:02

các mô-đun thế hệ cho một nữa

3:04

Kích thước để có tất cả 16 chữ cái đầu của chúng tôi

3:07

khung nhưng bạn có thể làm gì với 16

3:10

khung hình cũng không có gì thực sự thú vị

3:13

chúng ta cần tạo một video độ nét cao

3:16

ra khỏi những khung đó, mô hình sẽ làm

3:19

điều đó bằng cách có quyền truy cập vào các bản xem trước và

3:21

khung tương lai và lặp đi lặp lại

3:23

nội suy từ chúng cả về

3:27

Kích thước thời gian và không gian tại

3:30

đồng thời vì vậy về cơ bản tạo ra

3:33

và khung lớn hơn ở giữa những

3:35

16 khung hình ban đầu dựa trên khung hình

3:38

trước và sau chúng sẽ

3:40

mê hoặc làm cho chuyển động mạch lạc

3:43

và video tổng thể đã làm hỏng điều này được thực hiện

3:45

sử dụng mạng nội suy khung

3:47

mà tôi cũng đã mô tả trong các video khác

3:50

nhưng về cơ bản sẽ lấy những hình ảnh mà chúng tôi

3:52

có và lấp đầy những khoảng trống tạo ra

3:54

giữa các thông tin nó sẽ làm như nhau

3:57

điều để mở rộng thành phần không gian

3:59

hình ảnh và lấp đầy khoảng trống pixel để

4:02

làm cho nó có độ nét cao hơn

4:04

vì vậy để tóm tắt tinh chỉnh một văn bản để

4:07

mô hình hình ảnh để tạo video này

4:09

có nghĩa là họ đã có một mô hình mạnh mẽ

4:12

được đào tạo và thích nghi và đào tạo nó một chút

4:14

thêm chút nữa để làm quen với video này

4:16

đào tạo lại sẽ được thực hiện với

4:19

video chỉ để dạy mô hình

4:21

hiểu video và khung video

4:23

tính nhất quán tạo nên tập dữ liệu

4:25

quá trình xây dựng đơn giản hơn nhiều sau đó chúng tôi

4:27

sử dụng một lần nữa một mô hình được tối ưu hóa hình ảnh

4:30

để cải thiện độ phân giải không gian trong

4:32

thành phần nội suy khung cuối cùng thành

4:35

thêm nhiều khung hình để làm cho video trở nên mượt mà

4:38

tất nhiên kết quả vẫn chưa hoàn hảo

4:40

giống như mô hình văn bản thành hình ảnh nhưng chúng tôi

4:43

biết tiến trình này diễn ra nhanh như thế nào

4:45

chỉ là một cái nhìn tổng quan về cách tôi đã gặp

4:47

giải quyết thành công văn bản thành video

4:49

nhiệm vụ trong bài báo tuyệt vời này tất cả các liên kết

4:52

có trong mô tả bên dưới nếu bạn

4:53

muốn tìm hiểu thêm về cách tiếp cận của họ

4:55

tại việc triển khai pytorch cũng là

4:57

đã được phát triển bởi cộng đồng

4:59

cũng như vậy, hãy theo dõi điều đó nếu bạn

5:02

muốn tự mình thực hiện nó cảm ơn bạn

5:04

để xem toàn bộ video và tôi sẽ

5:06

hẹn gặp lại lần sau với một điều tuyệt vời khác

5:08

giấy