Yazarlar:
(1) Kedan Li, Urbana-Champaign'deki Illinois Üniversitesi;
(2) Min Jin Chong, Urbana-Champaign'deki Illinois Üniversitesi;
(3) Jingen Liu, JD AI Araştırması;
(4) David Forsyth, Illinois Üniversitesi, Urbana-Champaign.
Sanal deneme yöntemi, bir ürün görselini ve bir model görselini alır ve ürünü giyen modelin görselini üretir. Çoğu yöntem, esasen ürün görüntüsünden model görüntüsüne olan çarpıklıkları hesaplar ve görüntü oluşturma yöntemlerini kullanarak birleştirir. Ancak giysilerin kinematiği karmaşık olduğundan ve görüntüdeki dış hatlar, doku ve gölgeleme ipuçları insan izleyicilere hataları gösterdiğinden gerçekçi bir görüntü elde etmek zordur. Giysinin uygun perdeleri olmalıdır; dökümlü bir giysinin şekliyle tutarlı olması için doku eğrilmelidir; küçük detaylar (düğmeler, yakalar, yakalar, cepler vb.) giysinin üzerine uygun şekilde yerleştirilmelidir vb. Değerlendirme özellikle zordur ve genellikle nitelikseldir.
Bu makale, (a) herhangi bir çarpıtma yöntemi için sonuçları iyileştirmek amacıyla hedef modellerin otomatik olarak seçilebileceğini ve (b) birden fazla koordineli özel çözgü makinesinin öğrenilmesinin sonuçlar üzerinde daha fazla iyileştirme sunduğunu göstermek için zorlu, yeni bir veri kümesi üzerinde niceliksel değerlendirme kullanmaktadır. Hedef modeller, modelin giydiği ürünlerin temsilini tahmin eden öğrenilmiş bir yerleştirme prosedürüyle seçilir. Bu tahmin, ürünleri modellerle eşleştirmek için kullanılır. Özel çözgü makineleri, birincinin kötü çalıştığı yerlerde ikinci bir çözgü makinesinin iyi performans göstermesini teşvik eden bir yöntemle eğitilir. Çözgüler daha sonra bir U-Net kullanılarak birleştirilir. Niteliksel değerlendirme, bu iyileştirmelerin anahat, doku gölgeleme ve giysi detayları üzerinde toptan olduğunu doğrulamaktadır.
Anahtar Kelimeler: Moda, Sanal deneme, Görüntü oluşturma, Görüntü çarpıtma
E-ticaret, moda tüketicileri için zor olan bir ürünü deneyememek anlamına gelmektedir. Siteler artık rutin olarak ürün giyen modellerin fotoğraf çekimlerini yayınlıyor, ancak hacim ve ciro, bunu yapmanın çok pahalı ve zaman alıcı olduğu anlamına geliyor [34]. Farklı giyim setleri giyen moda modellerinin gerçekçi ve doğru görüntülerini oluşturmaya ihtiyaç vardır. 3 boyutlu duruş modelleri kullanılabilir [8,14]. Alternatif - ürün modeli görüntülerini 3D ölçümler olmadan sentezlemek [17,45,39,11,15] - sanal deneme olarak bilinir. Bu yöntemler genellikle iki bileşenden oluşur: 1) ürünü çarpıtacak uzaysal bir transformatör
modelin pozunun bazı tahminlerini kullanan görüntü ve 2) ürünü giyen modelin gerçekçi bir görüntüsünü oluşturmak için kabaca hizalanmış, çarpık ürünü model görüntüsüyle birleştiren bir görüntü oluşturma ağı.
Literatürde vurgulanan tişört gibi basit giysilerle transfer çok daha kolaydır. Genel giysilerin (tişörtlerin aksine) önü açılabilir; sofistike perdelere sahip; yaka ve manşet gibi şekilli yapılara sahiptir; düğmeleri var; ve benzeri. Bu etkiler mevcut yöntemlere ciddi şekilde meydan okuyor (Ek Malzemelerdeki örnekler). Ürün görseli o giysiye uygun bir model görseli seçmek için kullanılırsa çarpıklık önemli ölçüde iyileşir (Şekil 1).
En azından kısmen bu, görüntü oluşturma ağlarının nasıl eğitildiğinin bir sonucudur. Bir ürün ve bu ürünü giyen bir model gibi eşleştirilmiş görselleri kullanarak antrenman yapıyoruz [17,45,53]. Bu, üretim ağının her zaman hedef görselin ürüne uygun olmasını beklediği anlamına gelir (bu nedenle örneğin elbise giyen bir modelin üzerine kazak koymak için eğitilmemiştir, Şekil 1). Bir alternatif ise çekişmeli eğitim kullanmaktır [11,12,38,13,37]; ancak belirli ürün detaylarını (örneğin belirli bir düğme stili, tişört üzerindeki çıkartma) bu çerçevede korumak zordur. Bu zorluğun üstesinden gelmek için, yüksek kaliteli aktarımlarla sonuçlanacak ürün-model çiftlerini seçmek için bir yerleştirme alanı öğreniyoruz (Şekil 2). Gömme, model görselindeki bir giysinin ürün görselinde olsaydı nasıl bir şekil alacağını tahmin etmeyi öğrenir. Ürünler daha sonra benzer şekilli giysiler giyen modellerle eşleştiriliyor. Modeller genellikle çok sayıda giysi giydiğinden, giysinin her kategorisini (üst, alt, dış giyim, tüm vücut vb.) ayrıştırmak ve her birini ayrı ayrı yerleştirmek için bir mekansal dikkat görsel kodlayıcı kullanıyoruz.
Bir başka sorun, bir giysi açık olduğunda (örneğin, düğmesiz bir ceket) ortaya çıkar. Bu durumda warp'ın hedefi birden fazla bağlı bileşene sahip olabilir. Çözgü yapıcılar, bir bölgeyi iyi, diğerini zayıf şekilde oturtarak tepki verme eğilimindedir ve bu da ayrıntıların yanlış hizalanmasına neden olur (Şekil 1'deki düğmeler). Bu tür hatalar eğitim kaybına çok az katkıda bulunabilir, ancak çok belirgindir ve gerçek kullanıcılar tarafından ciddi sorunlar olarak kabul edilir. Birden fazla koordineli özel çözgü kullanmanın çarpıtmada önemli niceliksel ve niteliksel gelişmeler sağladığını gösterdik. Çözgü makinemiz birbiriyle koordineli çalışacak şekilde eğitilmiş birden fazla çözgü üretiyor. Bir iç boyama ağı, çözgüleri ve maskelenmiş modeli birleştirir ve sentezlenmiş bir görüntü oluşturur. İç boyama ağı esas olarak çözgüler arasında seçim yapmayı öğrenirken aynı zamanda ortaklaşa eğitildikleri için çözgücüye rehberlik de sağlıyor. Niteliksel değerlendirme, iyileştirmenin önemli bir kısmının düğmelerin, ceplerin, etiketlerin ve benzerlerinin daha iyi tahmin edilmesinden kaynaklandığını doğrular.
Sanal denemenin büyük ölçekli niceliksel değerlendirmelerini gösteriyoruz. Moda e-ticaret sitelerini inceleyerek 422.756 çift ürün görseli ve stüdyo fotoğrafından oluşan yeni bir veri seti topladık. Veri kümesi birden fazla ürün kategorisi içeriyor. Oluşturulan VITON veri seti [17] üzerindeki önceki çalışmalarla hem niceliksel hem de niteliksel olarak karşılaştırıyoruz. Nicel sonuç, şekil yerleştirme yöntemimizi kullanarak ürün modeli çiftlerinin seçilmesinin, tüm görüntü oluşturma hatları için önemli iyileştirmeler sağladığını göstermektedir (tablo 4.3). Çoklu çözgü kullanımı aynı zamanda hem niceliksel (tablo 4.3, şekil 5) hem de niteliksel (şekil 7) sonuçlarla da ortaya konduğu gibi tek çözgü temel çizgisinden tutarlı bir şekilde daha iyi performans göstermektedir. Önceki çalışmalarla yapılan niteliksel karşılaştırma, sistemimizin hem değiştirilecek giysinin hem de hedef modelin ayrıntılarını önceki çalışmalara göre daha doğru bir şekilde koruduğunu göstermektedir. Gerçek modeli sentezlenmiş modelle değiştirmek için e-ticaretin maliyetini simüle eden bir kullanıcı çalışması yaptık. Sonuç, sentezlenen modelimizin %40'ının gerçek model olarak düşünüldüğünü göstermektedir.
Katkılarımızı özetlemek gerekirse:
– hangi çözgü makinesi kullanılırsa kullanılsın, sanal denemede önemli niteliksel ve niceliksel iyileştirmelerle sonuçlanan bir eşleştirme prosedürünü uygulamaya koyuyoruz.
– birden fazla koordineli çarpıtmayı öğrenen ve tüm test setlerinde sürekli olarak temel çizgilerden daha iyi performans gösteren bir çarpıtma modeli sunuyoruz.
– oluşturulan sonuçlarımız, alışveriş yapanların sentezlenen görsellerden bazılarının gerçek olduğunu düşünmesini sağlayacak kadar ayrıntıları doğru ve gerçekçi bir şekilde koruyor.