Bạn có muốn nhìn thấy Mona Lisa cười như phù thủy không? Hay bạn muốn cô gái đeo bông tai ngọc trai nháy mắt và mỉm cười? Google vừa ra mắt một mô hình tạo video có tên Lumiere [1] có khả năng thực hiện tất cả những việc đó cho bạn.
Mặc dù đây chủ yếu là mô hình chuyển văn bản thành video nhưng nó có thể làm được nhiều hơn thế. Đưa ra một hình ảnh tham chiếu có lời nhắc, nó có thể tạo kiểu cho video của bạn bằng cách sao chép kiểu của hình ảnh tham chiếu vào video của bạn.
Bạn thậm chí có thể chỉnh sửa video của mình chỉ bằng một lời nhắc. Người mẫu là Lumiaire. Nó thậm chí còn có thể tạo hoạt ảnh cho các đối tượng trong vùng do người dùng chỉ định trong hình ảnh, một kỹ thuật được gọi là Cinemagraphs.
Khi nói đến việc vẽ tranh, Lumiere thậm chí còn có thể suy luận về một vật thể hoàn toàn bị thiếu, chẳng hạn như một chiếc bánh trong ví dụ này.
Tất cả đều tập trung vào một mô hình khuếch tán với kiến trúc U-Net không-thời gian mới lạ [3]. Đó là sự tùy chỉnh của kiến trúc U-Net để giải quyết vấn đề về tính nhất quán theo thời gian khá phổ biến trong các mô hình tạo video.
Đã có giải thích trực quan về bài báo của Lumiere, kiến trúc mô hình và kết quả.
Chúng ta đều biết rằng video là một chuỗi hình ảnh. Vì vậy, hãy lấy một chuỗi hình ảnh được hiển thị ở hàng trên cùng trong hình trên. Nếu chúng ta thu hẹp chỉ một hàng trong hình ảnh, được biểu thị bằng đường màu xanh lục đi từ trái sang phải, chúng ta cần thấy sự chuyển đổi mượt mà về giá trị pixel giữa các hình ảnh trong chuỗi.
Nếu quá trình chuyển đổi diễn ra suôn sẻ thì chúng ta sẽ không thấy hiệu ứng nhảy khi xem video.
Ví dụ: nếu chúng ta lấy Stable Video Diffusion [2] và xem video về một phi hành gia đi bộ trên mặt trăng (ở trên), chúng ta có thể thấy rằng bàn tay của anh ta vừa biến mất giữa các khung hình. Nói cách khác, thiếu tính nhất quán về thời gian giữa các khung hình.
Loại không nhất quán về thời gian này giữa thời gian và cường độ theo hướng x có thể được vẽ dưới dạng Lát XT như được tô sáng trong hình trên. Và nếu có sự không nhất quán về mặt thời gian thì nó sẽ được đánh dấu trong biểu đồ của lát cắt XT.
Lumiere giải quyết vấn đề này bằng cách giới thiệu mô hình khuếch tán không-thời gian và kiến trúc U-Net được sửa đổi có trong mô hình khuếch tán.
Trước khi xem chi tiết, hãy bắt đầu với quy trình điển hình của mô hình tạo Văn bản thành video.
Các quy trình này lấy mẫu mọi khung hình thứ 5 dưới dạng khung hình chính từ chuỗi video đầu vào và huấn luyện mô hình cơ sở có thể tạo ra các khung hình chính này ở độ phân giải thấp tới 128 x 128 với tốc độ chỉ 3 khung hình/giây.
Sau đó, Siêu phân giải tạm thời được sử dụng để tăng tốc độ khung hình bằng cách dự đoán các khung hình trung gian. Vì vậy, tốc độ khung hình bây giờ trở thành 16 khung hình mỗi giây.
Độ phân giải không gian của các khung hình này sau đó được tăng lên thành 1024 x 1024 bởi mạng siêu phân giải không gian (SSR), cuối cùng dẫn đến video được tạo của chúng tôi.
Mô hình cơ sở được sử dụng trong khung này thường là mô hình khuếch tán có U-Net bên trong nó.
Mặt khác, đường dẫn được đề xuất của Lumiere xử lý tất cả các khung hình cùng một lúc mà không làm rơi khung hình. Để đối phó với chi phí tính toán khi xử lý tất cả các khung, kiến trúc của mô hình khuếch tán cơ sở được sửa đổi để đưa ra kiến trúc UNet không-thời gian hoặc STUNet.
Vì STUNet xử lý tất cả các khung hình đầu vào nên nhu cầu về Siêu phân giải tạm thời hoặc TSR sẽ bị loại bỏ. Vì vậy, đường ống vẫn có siêu phân giải không gian hoặc SSR. Nhưng điều mới lạ là sự ra đời của MultiDiffusion.
Chúng ta hãy xem nhanh U-Net trước khi xem xét U-Net không-thời gian. Đầu vào của U-Net là hình ảnh 3 chiều với Chiều rộng W, Chiều cao H và các kênh RGB. Sau mỗi giai đoạn tích chập kép của U-Net, chúng tôi áp dụng tính năng gộp tối đa để lấy mẫu xuống hoặc giảm kích thước không gian của các đối tượng địa lý. Bước giảm kích thước không gian này được biểu thị bằng các mũi tên màu đỏ.
Tương tự, trong giai đoạn giải mã, có các phép cuộn để tăng hoặc tăng mẫu độ phân giải trở lại kích thước của đầu vào.
Khi nói đến video, chúng tôi có một khía cạnh bổ sung trong đầu vào đó là thời gian. do đó, U-Net không-thời gian đề xuất giảm mẫu và tăng mẫu video không chỉ theo chiều không gian mà còn theo chiều thời gian T. Đây là ý tưởng chính của việc thay đổi kích thước thời gian và là đóng góp chính của bài báo Lumiere này.
Để thay đổi kích thước, họ sử dụng tính năng tổng hợp 3D thay vì tính năng tổng hợp 2D vì đầu vào hiện có kích thước bổ sung.
Giống như tôi, bạn có thể ngạc nhiên bởi sự đơn giản của ý tưởng này. Chính các tác giả đã đề cập trong bài báo:
Điều đáng ngạc nhiên là lựa chọn thiết kế này đã bị các mô hình T2V trước đây bỏ qua, tuân theo quy ước chỉ bao gồm các hoạt động lấy mẫu lên và xuống theo không gian trong kiến trúc và duy trì độ phân giải thời gian cố định trên toàn mạng.
Chúng ta hãy đi đến một số sắc thái của việc thực hiện. Họ sử dụng tích chập hệ số được giới thiệu trong bài báo này có tên là Mô hình khuếch tán video. Ý tưởng là thay đổi từng tích chập 2D thành tích chập 3D chỉ trong không gian, bằng cách thay đổi từng tích chập 3x3 thành tích chập 1x3x3.
Đối với sự chú ý, sau mỗi khối chú ý không gian, chúng tôi chèn một khối chú ý tạm thời để thực hiện sự chú ý trên trục đầu tiên và coi các trục không gian là các trục hàng loạt.
Với hai thay đổi đó, các khối tích chập được nhân tố hóa sẽ được thêm vào mô hình được huấn luyện trước và chỉ các lớp bổ sung được huấn luyện với trọng số của lớp được huấn luyện trước là cố định.
Điểm mới lạ thứ hai của bài báo là MultiDiffusion được giới thiệu trong quá trình siêu phân giải không gian. Nếu bạn lấy mô hình tạo video trước lumiere, thì mô hình siêu phân giải không gian sẽ có một chuỗi khung hình.
Tuy nhiên, các trình tự không trùng lặp. Ví dụ: 8 khung hình đầu tiên và 8 khung hình tiếp theo được mô-đun SSR lấy làm đầu vào là riêng biệt mà không có bất kỳ sự chồng chéo nào.
Nhưng khi nói đến Lumiere, 8 khung hình đầu tiên và 8 khung hình thứ hai có sự chồng chéo của hai khung hình. Bằng cách này, mô hình siêu phân giải không gian dường như đạt được sự chuyển tiếp mượt mà giữa các phân đoạn thời gian. Đây là những gì được gọi là multiDiffusion trong bài báo.
Việc kết hợp hai kỹ thuật được đề xuất cùng với việc không có kiến trúc mô hình khuếch tán xếp tầng vốn phổ biến trong các kiến trúc trước đó như video hình ảnh, dẫn đến khá nhiều ứng dụng đa dạng.
Ví dụ:
Để đánh giá mô hình một cách định lượng, mô hình đã được chạy thông qua nghiên cứu người dùng trong đó người dùng so sánh kết quả của mô hình được đề xuất với một số mô hình hiện đại như Pika, ZeroScope hoặc khuếch tán video ổn định. Kết quả chỉ ra rằng người dùng ưa thích mô hình Lumiere cả trong trường hợp chuyển văn bản thành video và hình ảnh thành video.
Vì vậy, để kết luận, ngoài tất cả các pha nguy hiểm trong video quảng cáo, chẳng hạn như Monalisa đang mỉm cười, đóng góp của bài viết này khá đơn giản. Chỉ trong một dòng, bài báo giới thiệu cách lấy mẫu xuống của kênh thời gian.
Điều này kết hợp với MultiDiffusion, không có gì khác ngoài việc đưa các khung hình chồng chéo vào mô hình siêu phân giải, tạo ra các video có độ trung thực cao và nhất quán về mặt thời gian.
Điều tôi muốn thấy là một số nghiên cứu cắt bỏ trong bài báo cho thấy kết quả khi có và không có quy trình đa khuếch tán.
Điều đó đưa chúng ta đến phần cuối của bài viết này. Lần tới khi ai đó nói chuyện với bạn về Lumiere, bạn biết phải nói gì chỉ trong một dòng. Tôi hy vọng điều đó đã cung cấp một số hiểu biết sâu sắc về mô hình Lumiere.
Hẹn gặp lại bạn lần sau, cho đến lúc đó, hãy bảo trọng nhé…
[1] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri,
[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach,
[3] Olaf Ronneberger, Philipp Fischer và Thomas Brox,
Cũng được xuất bản ở đây