Üretken yapay zeka dünyasının en yeni heyecanı Luma Dream Machine'i duydunuz mu? OpenAI'nin Sora'nın en büyük rakibi olarak adlandırılıyor. Ama gerçekten o kadar iyi mi?
Bunları karşılaştırmak zor çünkü Dream Machine herkesin kullanımına açıkken Sora'nın erişimi yok. Ama bakalım neler bulabileceğiz. Şu anda bunu inkar etmek zor, Dream Machine önde çünkü onu gerçekten kullanabiliyoruz. Pika ve Runway ML gibi rakipleri geride bırakarak görüntülerden video oluşturmak için en iyi araçtır. Peki gizemli Sora ile nasıl kıyaslanabilir?
Sora'yı kullanamadığımız için OpenAI'nin herkese açık demolarını Luma Dream Machine'in yapabilecekleriyle karşılaştıracağız. Plan şu: OpenAI'nin demo videolarından ilk kareyi alacağız ve aynı istemi Luma's Dream Machine ile kullanacağız. Bu bize Dream Machine'in Sora ile aynı fiziği, hareketi ve alanı ne kadar iyi kopyalayabildiğini gösterecek. OpenAI'nin demoları özenle seçilmiş olsa bile ayrıntıları karşılaştırabilir ve her iki modelin nasıl performans gösterdiğini görebiliriz.
Aşağıda bazı video karşılaştırmalarını bir araya getirdim. Her setin üç örneği vardır. İlk video OpenAI'nin Sora'nın web sitesindeki demosundan. İkincisi, aynı komut istemi ve Sora'nın demosunun ilk karesi kılavuz olarak kullanılarak Dream Machine'in görüntüden videoya özelliğiyle yapıldı. Üçüncüsü, Luma'nın aracının yalnızca komut istemiyle nasıl çalıştığını gösteriyor. Bu ilginç çünkü hem Sora hem de Dream Machine metinden videoya dönüştürmeyi kullanıyor, böylece yaratıcılıklarını ve talimatları ne kadar iyi takip ettiklerini karşılaştırabiliyoruz.
Lafı daha fazla uzatmadan örneklere göz atalım ve hangi aracın öne çıktığını görelim.
OpenAI'nin demosunu Luma Dream Machine ile karşılaştıralım. İlk karşılaştırmada Dream Machine etkileyici kamera hareketi gösteriyor ve ana kişinin hareketleri akıcı ve doğal. Ancak klip boyunca doğal olmayan yapılar ve nesnelerin ve insanların tutarsız görünümleriyle ilgili sorunlar var. OpenAI'nin videosunun aksine, video ilerledikçe arka plandaki kalabalık eriyip şekil değiştiriyor gibi görünüyor.
Ana karakterin yüzü de doğal olmayan bir şekilde değişerek videonun açıkça sahte görünmesine neden oluyor, bu Sora'da olmayan bir sorun.
Metinden videoya örnekte Dream Machine'in videosu fena değil ancak nesnelerin doğal olmayan dönüşümü dikkat çekiyor. Örneğin, bir yayanın elinde birdenbire bir şemsiye beliriyor ve bu açıkça yapay zeka oluşumunu gösteriyor. Bu, telifsiz stok klipler için rekabeti ortadan kaldırır. Sora'nın nesillerinin muhtemelen olabileceği bir şey.
Ancak Dream Machine istemine iyi bir şekilde sadık kalıyor: siyah ceket, kırmızı elbise, ruj, güneş gözlüğü, yansıtıcı sokak, yayalar ve neon ışıkların hepsi mevcut. Peki, ayrıntıları takip etme konusunda iyi iş çıkardın!
Luma'nın görüntüden videoya sonucunu OpenAI'ninkiyle karşılaştırdığımızda durum hiç de fena değil. Ancak kamera hareketi Tokyo videosundaki kadar düzgün değil, aniden duruyor ve sahneyi sertleştiriyor. En kötü yanı ise karakterin klibin sonunda doğal olmayan ve rastgele görünen hareketidir. Ek olarak, soldaki binaların gerçekçiliği her karede bozuluyor; bu, Sora'nın örneğinde görülmeyen bir sorun.
Önceki klibe benzer şekilde, çok fazla yapaylık nedeniyle istikrar ve tutarlılık eksikliği var. Sora ayrıca düşük kare hızı ve genel olarak eski usul kaliteyle klibin vintage görünmesini sağlamada da başarılı; bu da Dream Machine'in burada başaramadığı şekilde çıktısını istemlere göre stilize edebileceğini gösteriyor.
Kısa ve açık uçlu bir istemin yer aldığı metinden videoya dönüştürme örneğinde, Luma'nın modeli altına hücum tarihinden farklı bir sahne seçti. Doğru renkler ve ışıklandırma kullanıldığında döneme daha uygun görünüyor. Ancak geçiş efekti ve doğal olmayan hareket klibin tamamını bozarak video projelerinde kullanılamaz hale getiriyor.
Bu video OpenAI'nin web sitesindeki favorim. Araba mükemmel aydınlatma, gölgeler ve dinamiklerle çok doğal bir şekilde hareket ediyor. Gerçek bir videodan ayırt edilemez, bu da onu içerik oluşturucular için mükemmel kılar. Buna karşılık, Dream Machine'in kamera hareketi doğrudur ancak nesneler doğal olmayan bir şekilde ezilir ve ezilir. Klibin ikinci bölümünde perspektif büyük ölçüde bozuluyor ve açıkça bir yapay zeka nesline benziyor.
Metinden videoya örneğinde sonuç aslında oldukça hoş; Luma'nın ürününden elde edebildiğim en iyi sonuçlardan biri. İlkine göre daha az dinamik ama oldukça doğal görünüyor. Ancak farklı bir sorunla karşı karşıyadır. Bu istek oldukça kapsamlıydı ve SUV'un lastiklerden toz çıkarken arkadan görülmesi gerektiği belirtildi. Dream Machine bunu farklı yorumladı.
Bu, yapay zeka içerik oluşturucularının önemli bir yönünü vurguluyor: Kesin ve anında yorumlama olmazsa, vizyonumuza veya ihtiyaçlarımıza uymayan varyasyonlar oluşturmak için saatler harcayabiliriz.
Müze örneği farklı türde bir canavardır. Aslında bir canavar değil; daha incelikli, sakin ve daha az dinamik. Sabit bir kamerayla basit bir yürüyüş. OpenAI'nin sürümü doğrudur. Heyecan verici değil ama gerçekçilikten de yoksun değil. Luma'nın versiyonu farklı bir kamera hareketi sunuyor ancak diğer kliplerde görülen bozulmalar olmadan iyi görünüyor. Asıl sorun, orijinal görüntünün parçası olmayan resimlerin bulanık görünmesi ve netlikten yoksun olmasıdır. Genel olarak video gayet iyi ve birkaç ayarlamayla düzgün bir sonuç alabiliriz.
İkinci videoda da belirgin bir görsel kusur yok. Galeri iyi görünüyor. İlk bölümdeki en büyük sorunum kamera hareketi seçimi, ki bu da pek gerçekçi değil. İlginçtir ki, Dream Machine bir istem için iki sahne oluşturdu; ortadaki kesim müzedeki farklı bir odayı gösteriyordu. Modelin bunu yapmaya karar vermesi büyüleyici. İkinci kısım daha iyi kamera hareketine sahip ve göze daha hoş geliyor.
Bu örnek ilginç çünkü Sora'nın sayfasında modelin sorunlarından biri olarak gösteriliyor: Koşucu yanlış yöne koşuyor. Hiçbir koşu bandı bu şekilde çalışmaz, ancak yapay zeka dünyasında her şey mümkündür. Bu Dream Machine'in parlama şansı mı? Görüntüden videoya sonuç aslında oldukça iyi.
Koşucu, giriş görüntüsündeki gibi hâlâ geriye doğru koşuyor ancak kamera hareketi ve koşucunun davranışı neredeyse mükemmel. Bazı küçük bozulmalar var ve kamera perspektifi zamanla biraz garipleşiyor, ancak biraz seçim yaparak prodüksiyonlarımız için iyi bir sonuç elde edebiliriz.
Sadece istemle oluşturulan sürüm de ilginç. Çok dinamik ve biraz çarpık ama bu, özellikle titrek, eskiz benzeri bir estetik isteniyorsa bazı yapımlara uygun olabilir. Hiç de fena değil. Son olarak Luma'nın modeli gelecekteki rakibine yaklaşıyor.
OpenAI sitesindeki son ana örnek, renkli bir İtalyan şehrinde bir Dalmaçyalıyı gösteriyor. Sora ile hazırlanan orijinal video mükemmel değil. Daha uzun bir klipte köpek biraz tuhaf davranmaya başlıyor ve animasyonu, gösterilen diğer videolardaki kadar doğal değil. Luma'nın en yeni yapay zekası bunu nasıl hallediyor?
Hiç iyi değil. Belki de bunun nedeni yalnızca tek bir çekime sahip olmalarıdır (ve jeneratörün hızı oldukça sınırlıdır), ancak gördüğümüz şey aksaklıklardan ve gerçekçi olmayan görüntülerden oluşan bir festivaldir. Video ilerledikçe köpeğin dokusu değişiyor, binalar oyun hamurundan yapılmış gibi görünüyor ve sonunda köpeğe benzeyen başka bir iğrençlik ortaya çıkıyor, bu da onu gerçek bir videodan çok Salvador Dali'nin eserine benzetiyor. Bu kesinlikle şu ana kadarki en kötü örnek.
Dream Machine'in kendi yaratımı daha iyi değil. Talimata uymadı ve Dalmaçyalıyı hiç dahil etmedi. Köpeğin oturabileceği bir pencere yok, binalar karikatürize görünüyor ve genel mimari saçma. Hepsinden kötüsü, aşırı derecede çarpık bisikletler kullanan bisikletçiler, kanala giren deforme yaratıklar veya herhangi bir sebep olmadan diğer bisikletçilere dönüşenler. Bu beklentilerin çok altında kalıyor.
Şu anda halka açık olana bakıldığında Luma'nın yeni yapay zekası gerçekten etkileyici. Gerçekten güzel kamera hareketleri ve genellikle çok gerçekçi insan ve nesne hareketleri yaratarak sınırları zorluyor. Bir referans görüntüsü sağlandığında daha iyi çalışıyor ve mevcut rakiplerinden daha iyi efektler üretiyor gibi görünüyor.
Peki Sora kadar iyi mi? En azından şimdilik bundan uzak görünüyor. Sora'nın yaratımları en azından ilk bakışta gerçek videolarla karıştırılabilir. Sergi, Sora'nın stok videolarla rekabet edebileceğini ve film yapımcıları ile içerik oluşturucuların hayatını kolaylaştırabileceğini gösteriyor. Öte yandan Dream Machine sıklıkla aksaklıklar yaratır ve talimatları her zaman doğru şekilde takip etmez.
Bu, model iyileştirmelerinde bir başka ileri adımdır ancak hâlâ yaygın kullanım için yeterince güvenilir ve istikrarlı değildir.
Sora için gerçek bir rakip mi? Henüz değil. Ancak Sora ile doğrudan etkileşime geçmedik ve OpenAI'nin vitrini dikkatle düzenlenebilir. Sora, Luma'nın modeliyle benzer hatalar yapma potansiyeline sahip. Sora halka açık hale gelene kadar emin olamayız.
Şahsen ben Dream Machine'e sahip olduğumuza sevindim. Bizi mükemmel AI video oluşturucuya yaklaştırıyor. Bazı durumlarda faydalıdır ve muhtemelen zamanla iyileşecektir. Luma'nın bize video klipler için üretken yapay zekanın keyfini çıkarmamız için başka bir yol sunan bu aracı piyasaya sürmesini takdir ediyorum.
Öte yandan Sora'nın vitrinde gösterildiği gibi çalışmasını umuyorum. Eğer öyleyse, ileriye doğru önemli bir adım olacak. Sonuçları kendim karşılaştırabilmek için halka açık olmasını sabırsızlıkla bekliyorum.