Yazarlar:
(1) Prerak Gandhi, Bilgisayar Bilimi ve Mühendisliği Bölümü, Hindistan Teknoloji Enstitüsü Bombay, Mumbai, [email protected] ve bu yazarlar bu çalışmaya eşit katkıda bulunmuştur;
(2) Vishal Pramanik, Bilgisayar Bilimi ve Mühendisliği Bölümü, Hindistan Teknoloji Enstitüsü Bombay, Mumbai, vishalpramanik,[email protected] ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır;
(3) Pushpak Bhattacharyya, Bilgisayar Bilimi ve Mühendisliği Bölümü, Hindistan Teknoloji Enstitüsü Bombay, Mumbai.
Gözlemlerimizi ve değerlendirmelerimizi sunuyoruz. Görevimizin doğası gereği insan değerlendirmesinin otomatik değerlendirmeye göre öncelikli olmasını sağlar (sonuçta bu, otomatik film senaryosu oluşturmak içindir!). Oluşturduğumuz olay örgüsünün ve sahnelerin niteliksel analizi, endüstri ortağımız olan tanınmış medya platformunun 5 profesyonel senaristinden gelen geri bildirimlere dayanmaktadır.
Tablo 1, çoklu GPT-3 çizim oluşturma modellerine ilişkin otomatik değerlendirme puanlarını göstermektedir.
Hollywood açıklamalı kısa girdi modeli üzerinde insan değerlendirmesi yaptık. Değerlendirme, her biri 3 kişiden oluşan beş grup tarafından yapıldı.
10 benzersiz parsel tahsis edilmiştir. 5 özellik için verilen derecelendirmeler Şekil 5'te verilmiştir. Akıcılık, yaratıcılık, beğenilebilirlik, tutarlılık ve alaka düzeyine ilişkin ortalama puanlar sırasıyla 3,98, 3,29, 2,97, 2,65 ve 2,55'tir . Akıcılığın neredeyse 4 olması GPT-3'ün dil modeli olarak gücünün bir göstergesidir. Yaratıcılık ve sempatiklik yaklaşık 3,0 değerinde saygındır. Düşük BLEU puanları ortalama yaratıcılık puanını desteklemektedir (Tablo 1). Şekil 5, tutarlılık ve alaka düzeyinin hala geliştirilebilecek büyük bir alana sahip olduğunu göstermektedir.
MAUVE (Pillutla ve diğerleri, 2021) değeri, sinirsel metin ile insan metni arasındaki boşluğu ölçer. MAUVE puanlarını 20 parsel ve 50 parsel için ayrı ayrı hesapladık. İki deney için MAUVE puanlarının ağırlıklı ortalaması 0,48'dir ve bu oldukça iyidir.
Endüstri ortağımızın profesyonel senaristleri aşağıdaki gözlemleri verdiler:
Açıklamasız Hollywood Konuları
• Kurgu yaratıcı ve ilginçtir ancak sonu tutarsız hale gelir.
• Başlangıçta tanıtılan bazı karakterlerden bir daha hiç bahsedilmiyor.
• Çıktı, girdide bahsedilen kilit noktaları veya temayı yansıtmıyor.
Açıklamalı Hollywood Konuları
• Konular çok daha tutarlı ve sonlar mantıklı.
• Hala halüsinasyon mevcut (tüm modellerin ortak özelliği).
• Daha uzun girdiler, grafiklerin kilit noktalara daha dikkatli yaklaşmasını sağladı.
Türlerin de dahil olduğu Açıklamalı Hollywood Konuları
• Yukarıdaki noktaların yanı sıra, oluşturulan olay örgüsü artık yazarın yaratmak istediği filmin türüne veya türlerine daha uygun hale geldi.
• Türün eklenmesi, model tarafından oluşturulan olay örgüsü türü üzerinde bir miktar kontrol sağlar.
Açıklamalı Bollywood olay örgüleri
• Çıktılar son iki paragrafta tutarsızlık ve olay örgüsü boyunca aynı karakterlerin tekrarını gösteriyor.
• Olay örgüsünün akışı yeterince hızlı değil yani olay örgüsü pek ilerlemiyor.
• Çıktıların birçoğunun etrafında karakterlerin ayrıldığı ve daha sonra birbirlerini bulduğu 1990'lar teması var. Bunun nedeni, daha az modern grafiklere sahip çarpık bir veri kümesidir.
Veri setimizle sahne oluşturma için GPT-3'e ince ayar yaptık. 5.1'de bahsedilen modelleri kullanarak on sahne oluşturduk. Ekteki Şekil 7. tamamen oluşturulmuş bir sahnenin örneğini gösterir.
Yukarıdaki model tarafından oluşturulan 10 sahne üzerinde bir insan değerlendirmesi gerçekleştirdik. 5 kişi sahneleri Likert Ölçeği'ni kullanarak değerlendirdi. Beş özelliğe ilişkin derecelendirmeler Şekil 5'te görülebilir. Akıcılık, yaratıcılık, beğenilebilirlik, tutarlılık ve alaka düzeyine ilişkin ortalama puanlar sırasıyla 4,48, 3,9, 3,48, 3,46 ve 3,86'dır . Tüm değerler nötr işaretinin üzerindedir ve oluşturulan sahnelerin insan tarafından yazılan sahnelere yakın olduğunu ima etmektedir.
Bu bölümde GPT-3 modelinin oluşturduğu sahnelerin kalitesini analiz ediyoruz. Bu analiz, daha önce adı geçen medya şirketinin profesyonel senaristleri tarafından yapılmıştır.
• Model iyi yapılandırılmış bir sahne üretir.
• Önemsiz olsa bile yeni karakterler yaratabilir ve diyaloglar üretebilir.
• Girişteki önemli noktalar çıkışta bulunabilir.
• Tekrarlanan bazı satırlar var.
• Çıktı tamamen tutarlı değil.
Bu makale arxiv'de CC 4.0 DEED lisansı altında mevcuttur .