Yazarlar:
(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.
Solos[1], URMP [1] veri kümesiyle aynı kategorilere sahip olacak şekilde tasarlandı; böylece URMP, gerçek dünya senaryosunda veri kümesini test etmek için kullanılabilir. Bu şekilde, testlerde karıştır ve ayır yöntemini kullanmaktan kaçınarak, kaynak ayırma algoritmalarının performansını değerlendirmenin standart bir yolunu oluşturmayı hedefliyoruz. Sololar, Şekil 1'de gösterildiği gibi 13 kategoriye dağıtılmış 755 kayıttan oluşur; kategori başına ortalama 58 kayıt bulunur ve ortalama süre 5:16 dakikadır. YouTube tarafından toplanan bir veri kümesi olmasına rağmen, 13 kategoriden 8'i için çözünürlük ortalama değerinin HD olduğunu vurgulamak ilginçtir. Kategori bazında istatistikler Tablo I'de bulunabilir. Bu kayıtlar, YouTube'un solo etiketleri ve seçmeler kullanılarak İngilizce, İspanyolca, Fransızca, İtalyanca, Çince veya Rusça gibi çeşitli dillerde sorgulanmasıyla toplanmıştır.
A. OpenPose İskeletleri
Sololar yalnızca bir kayıt seti değildir. Video tanımlayıcılarının yanı sıra şunları da sağlıyoruz: i) her kaydın her karesinde OpenPose [33] tarafından tahmin edilen vücut ve el iskeletleri ve ii) faydalı kısımları gösteren zaman damgaları. OpenPose vücut iskeleti ve el iskeletlerini tahmin edebilen bir sistemdir
iki farklı sinir ağının kullanılması. Bunu yapmak için, belirli bir vücut parçasının herhangi bir pikselde bulunabileceği inancının bir güven haritasını ve farklı vücut parçaları arasındaki ilişkinin derecesini kodlayan parça afinite alanlarını tahmin ediyorlar. Son olarak açgözlü çıkarım yoluyla 2 boyutlu iskeletleri ve eklem başına güveni tahmin eder. Uygulamada ilk olarak vücut iskeleti bir ağ ile tahmin edilmektedir. Daha sonra bileklerin vücut iskeletindeki konumu kullanılarak her iki elin konumu tahmin edilir. İkinci bir sinir ağı, her elin iskeletini bağımsız olarak elde ediyor. Her vücut parçası bağımsız olarak tahmin edildiğinden, OpenPose'un bulunacak uzuvlar hakkında herhangi bir varsayımda bulunmadığını unutmayın. Yalnızca güven haritaları ve parça yakınlık alanları göz önüne alındığında en olası iskeleti hesaplar. Tüm süreç çerçeve bazında gerçekleştirilir. Bu, kareler arasında küçük bir titremeye ve yanlış tahminlere yol açar.
B. Zaman damgası tahmini ve iskelet iyileştirmesi
OpenPose, yanlış tahmin edilen eklemleri koordinatların kökenine eşler. Bir eklemin konumundaki bu kadar büyük bir sıçramanın gürültüye neden olduğunu ampirik olarak bulduk. Enterpolasyonlu koordinatların kullanılması bu sorunun çözülmesine yardımcı olur.
[1] Veri kümesi https://juanfmontesinos.github.io/Solos/ adresinde mevcuttur.