paint-brush
Google Şimdiye Kadarki En Umut Verici Metinden Videoya Modelini Açıkladı: Lumiereile@aibites
1,348 okumalar
1,348 okumalar

Google Şimdiye Kadarki En Umut Verici Metinden Videoya Modelini Açıkladı: Lumiere

ile Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

Çok uzun; Okumak

Mona Lisa'nın bir cadı gibi gülümsemesini görmek ister misiniz? Yoksa inci küpeli kızın göz kırpıp gülümsemesini mi istersiniz? Google yakın zamanda Lumiere [1] adında, bunların hepsini sizin için yapabilecek kapasitede bir video oluşturma modelini çıkardı. Öncelikle metinden videoya bir model olmasına rağmen bundan çok daha fazlasını yapabilir. Bir istemle referans görsel verildiğinde, referans görselin stilini videolarınıza kopyalayarak videolarınıza stil kazandırabilir.
featured image - Google Şimdiye Kadarki En Umut Verici Metinden Videoya Modelini Açıkladı: Lumiere
Shrinivasan Sankar HackerNoon profile picture

giriiş

Mona Lisa'nın bir cadı gibi gülümsemesini görmek ister misiniz? Yoksa inci küpeli kızın göz kırpıp gülümsemesini mi istersiniz? Google yakın zamanda Lumiere [1] adında, bunların hepsini sizin için yapabilecek kapasitede bir video oluşturma modelini çıkardı.


Öncelikle metinden videoya bir model olmasına rağmen bundan çok daha fazlasını yapabilir. Bir istemle referans görsel verildiğinde, referans görselin stilini videolarınıza kopyalayarak videolarınıza stil kazandırabilir.


Hatta tek bir komutla videolarınızı bile düzenleyebilirsiniz. Model Lumiaire'dir. Sinemagraf adı verilen bir teknikle, bir görüntüde kullanıcı tarafından belirlenen bir bölgedeki nesneleri bile canlandırabilir.


İç boyama söz konusu olduğunda, Lumiere bu örnekte pasta gibi tamamen eksik olan bir nesne hakkında bile mantık yürütebiliyor.


Her şey yeni bir uzay-zaman U-Net mimarisine sahip bir yayılma modeline indirgeniyor [3]. Video oluşturma modellerinde oldukça yaygın olan zamansal tutarlılık sorununu çözmek için U-Net mimarisinin özelleştirilmesidir.

Görsel Açıklama

Lumiere makalesinin görsel açıklaması, model mimarisi ve sonuçlar mevcuttur.

Peki Zamansal Tutarlılık Nedir?

Hepimiz videoların bir dizi görselden oluştuğunu biliyoruz. O halde yukarıdaki şekilde üst satırda gösterilen bir dizi görüntüyü ele alalım. Soldan sağa giden yeşil çizgiyle gösterilen görüntüde sadece bir satırı daraltırsak, dizideki görüntüler arasında piksel değerlerinde yumuşak bir geçiş görmemiz gerekir.


Geçiş düzgünse videoyu izlerken atlama efekti görmeyiz.


Örneğin, Stabil Video Difüzyonunu [2] alıp ayda yürüyen bir astronotun videosunu izlersek (yukarıda), ellerinin kareler arasında kaybolduğunu görebiliriz. Başka bir deyişle, çerçeveler arasındaki zamansal tutarlılık eksiktir.


Zaman ile x yönündeki yoğunluk arasındaki bu tür zamansal tutarsızlık, yukarıdaki şekilde vurgulandığı gibi XT Dilimi olarak çizilebilir. Ve eğer zamansal bir tutarsızlık varsa bu, XT dilimi grafiğinde vurgulanır.


Lumiere, bir uzay-zaman yayılma modeli ve yayılma modelinde mevcut olan değiştirilmiş bir U-Net mimarisini tanıtarak bu sorunu çözüyor.

Metni Videoya Dönüştürme Boru Hattı

Ayrıntılara bakmadan önce, Metinden videoya oluşturma modelinin tipik işlem hattıyla başlayalım.

Bu işlem hatları, giriş video dizisindeki anahtar kareler olarak her 5. kareyi örneklendirir ve bu anahtar kareleri saniyede yalnızca 3 karede 128 x 128 kadar düşük bir çözünürlükte oluşturabilen bir temel modeli eğitir.


Daha sonra ara kareleri tahmin ederek kare hızını artırmak için geçici Süper Çözünürlük kullanılır. Böylece kare hızı artık saniyede 16 kare oluyor.


Bu karelerin uzamsal çözünürlüğü daha sonra uzamsal süper çözünürlük ağı (SSR) tarafından 1024'e 1024'e yükseltilir ve bu da sonunda oluşturulan videomuza yol açar.


Bu çerçevede kullanılan temel model genellikle içinde U-Net bulunan bir difüzyon modelidir.

Lumiere için Önerilen Boru Hattı

Öte yandan, Lumiere'in önerilen boru hattı tüm kareleri, kareleri düşürmeden tek seferde işliyor. Tüm çerçevelerin işlenmesinin hesaplama maliyetiyle başa çıkmak için, temel yayılma modelinin mimarisi, uzay-zaman UNet mimarisini veya STUNet'i ortaya çıkaracak şekilde değiştirildi.


STUNet tüm giriş çerçeveleriyle ilgilendiğinden, Geçici Süper Çözünürlük veya TSR ihtiyacı ortadan kalkar. Yani boru hattı hala uzamsal süper çözünürlüğe veya SSR'ye sahiptir. Ancak yenilik, MultiDiffusion'ın tanıtılmasıdır.

U-Net'ten STUNet'e

Uzay-zaman U-Net'e bakmadan önce U-Net'i hızlıca gözden geçirelim. U-Net'e giriş, Genişlik W, Yükseklik H ve RGB kanallarına sahip 3 adet 3 boyutlu bir görüntüdür. U-Net'in her çift evrişim aşamasından sonra, özelliklerin uzamsal boyutunu azaltmak veya alt örneklemek için maksimum havuzlamayı uyguluyoruz. Bu uzamsal boyut azaltma adımı kırmızı oklarla gösterilmiştir.


Benzer şekilde, kod çözücü aşamasında, çözünürlüğü tekrar giriş boyutuna yükseltmek veya üst örneklemek için yukarı evrişimler vardır.

Videolar söz konusu olduğunda girdide ek bir boyutumuz daha var: zaman. dolayısıyla uzay-zaman U-Net, videoyu yalnızca uzamsal boyutta değil aynı zamanda T zaman boyutunda da alt ve üst örneklemeyi önerir. Bu, zamansal yeniden boyutlandırmanın ana fikridir ve bu Lumiere makalesinin ana katkısıdır.


Giriş artık ek bir boyuta sahip olduğundan, yeniden boyutlandırma için 2B havuzlama yerine 3B havuzlama kullanılıyor.


Benim gibi siz de fikrin basitliğine şaşırabilirsiniz. Yazarların kendileri makalede bahsetti:

Şaşırtıcı bir şekilde, bu tasarım seçimi, mimaride yalnızca uzamsal aşağı ve yukarı örnekleme işlemlerini içeren ve ağ boyunca sabit bir zamansal çözünürlüğü koruyan geleneği takip eden önceki T2V modelleri tarafından gözden kaçırılmıştır.

Uygulama

Uygulamanın bazı nüanslarına geçelim. Video Difüzyon Modelleri adlı bu makalede tanıtılan faktörleştirilmiş evrişimi kullanırlar. Buradaki fikir, her 2B evrişimi, örneğin her 3x3 evrişimi 1x3x3 evrişime dönüştürerek, yalnızca uzaydan oluşan bir 3B evrişime dönüştürmektir.


Dikkat için, her uzamsal dikkat bloğunun ardından, dikkati birinci eksen üzerinde gerçekleştiren ve uzamsal eksenleri toplu eksenler olarak ele alan bir zamansal dikkat bloğu yerleştiririz.

Bu iki değişiklikle, çarpanlara ayrılmış evrişim blokları önceden eğitilmiş modele eklenir ve önceden eğitilmiş katman ağırlıkları sabitlenerek yalnızca ek katmanlar eğitilir.


Makalenin ikinci yeniliği ise uzaysal süperçözünürlük sırasında ortaya çıkan MultiDiffusion'dır. Video oluşturma modellerini lumiere'den önce alırsanız, uzaysal süper çözünürlük modeli bir dizi kare alır.


Ancak diziler örtüşmüyordu. Örneğin, SSR modülü tarafından girdi olarak alınan ilk 8 kare ve sonraki 8 kare herhangi bir örtüşme olmaksızın ayrıdır.


Ancak Lumiere'e gelince, ilk 8 kare ve ikinci 8 karede iki karenin örtüşmesi var. Bunu yaparak, uzaysal süper çözünürlüklü model, zamansal bölümler arasında yumuşak geçişler sağlıyor gibi görünüyor. Bu, makalede multiDiffusion olarak adlandırılan şeydir.

Uygulamalar

Önerilen iki tekniğin, görüntülü video gibi önceki mimarilerde yaygın olan basamaklı bir yayılma modeli mimarisinin yokluğu ile birleştirilmesi, oldukça çeşitli uygulamaların ortaya çıkmasına yol açmaktadır.


Örneğin:

  • Model, "Mars gezegeninde yürüyen bir astronot üssünün etrafında dolanarak yürüyor" veya "komik güneş gözlüğü takarak araba kullanan bir köpek" gibi komutlarla metni videolara dönüştürebiliyor.


  • “Göz kırpan ve gülümseyen bir kız” gibi bir metin istemiyle birlikte görüntüleri videolara dönüştürebilir.


  • Bir referans görseli ve "dans eden bir ayı" gibi bir metin istemiyle nesli stilize edebilir. Sinemagraflardan bahsetmişken, kullanıcı tarafından seçilen ateş veya buhar gibi bölgeleri canlandırabilir.


  • Hatta tek bir komutla insanların giydiği elbiseleri bile düzenleyebiliyor.

Değerlendirme

Modeli niceliksel olarak değerlendirmek için model, kullanıcıların önerilen modelin sonuçlarını Pika, ZeroScope veya kararlı video dağıtımı gibi bazı son teknoloji modellerle karşılaştırdığı bir kullanıcı çalışması aracılığıyla çalıştırıldı. Sonuçlar, kullanıcıların hem metinden videoya hem de görüntüden videoya geçiş durumunda Lumiere modelini tercih ettiğini göstermektedir.

Çözüm

Sonuç olarak, gülümseyen Monalisa gibi tüm tanıtım videosu gösterileri dışında bu makalenin katkısı oldukça basittir. Bir satırda, makale zamansal kanalın alt örneklemesini tanıtıyor.


Bu, süper çözünürlük modeline beslenen üst üste binen karelerden başka bir şey olmayan MultiDiffusion ile birleştiğinde, zamansal olarak tutarlı, yüksek kaliteli videolar üretir.


Makalede çoklu Difüzyon süreci ile ve bu süreç olmadan sonuçları gösteren bazı ablasyon çalışmalarını görmek isterdim.


Bu da bizi bu makalenin sonuna getiriyor. Bir dahaki sefere birisi sizinle Lumiere hakkında konuştuğunda, tek satırda ne söyleyeceğinizi bilirsiniz. Umarım bu Lumiere modeline dair bir fikir vermiştir.


Bir sonraki yazımda görüşürüz, o zamana kadar, kendine iyi bak…

Referanslar

[1] Ömer Bar-Tal, Hila Chefer, Ömer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri, Video Üretimi için Uzay-Zaman Yayılma Modeli (2024), arXiv ön baskısı.


[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach, Kararlı Video Yayılımı: Gizli Video Yayılım Modellerini Büyük Veri Kümelerine Ölçeklendirme (2023), arXiv ön baskısı.


[3] Olaf Ronneberger, Philipp Fischer ve Thomas Brox, U-Net: Biyomedikal Görüntü Segmentasyonu için Evrişimsel Ağlar (2015), Uluslararası Tıbbi Görüntü Hesaplama ve Bilgisayar Destekli Müdahale Konferansı.


Burada da yayınlandı