paint-brush
Tablo Verilerinde Yeni Sınıf Keşfine Pratik Bir Yaklaşımile@dataology
558 okumalar
558 okumalar

Tablo Verilerinde Yeni Sınıf Keşfine Pratik Bir Yaklaşım

Çok uzun; Okumak

Bu makale, yeni sınıflar hakkında önceden bilgi sahibi olmadan tablolu verilerde Yeni Sınıf Keşfi'ni (NCD) ele almakta ve uyarlanmış bir k-katlı çapraz doğrulama süreci aracılığıyla hiperparametreleri ayarlayarak aşırı uyumu önleyen yöntemler sunmaktadır. Basit bir derin NCD modelinin yanı sıra uyarlanmış k-ortalamalar ve Spektral Kümeleme algoritmaları sunmakta ve bunların etkinliğini yedi tablo halindeki veri seti üzerinde kapsamlı deneylerle göstermektedir.
featured image - Tablo Verilerinde Yeni Sınıf Keşfine Pratik Bir Yaklaşım
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Yazarlar:

(1) Troisemaine Colin, Bilgisayar Bilimleri Bölümü, IMT Atlantique, Brest, Fransa. ve Orange Labs, Lannion, Fransa;

(2) Reiffers-Masson Alexandre, Bilgisayar Bilimleri Bölümü, IMT Atlantique, Brest, Fransa;

(3) Gosselin Stephane, Orange Labs, Lannion, Fransa;

(4) Lemaire Vincent, Orange Labs, Lannion, Fransa;

(5) Vaton Sandrine, Bilgisayar Bilimleri Bölümü, IMT Atlantique, Brest, Fransa.

Bağlantı Tablosu

Özet ve Giriş

Alakalı iş

Yaklaşımlar

Hiperparametre optimizasyonu

Yeni sınıfların sayısını tahmin etmek

Tam eğitim prosedürü

Deneyler

Çözüm

Beyannameler

Referanslar

Ek A: Ek sonuç ölçümleri

Ek B: Hiperparametreler

Ek C: Küme Geçerlilik Endekslerinin sayısal sonuçları

Ek D: BOH k-ortalama merkezleri yakınsama çalışması

Soyut

Yeni Sınıf Keşfinin (NCD) sorunu, etiketlenmemiş bir yeni sınıflar kümesini doğru bir şekilde bölümlemek için etiketlenmiş bilinen sınıflar kümesinden bilginin çıkarılmasından oluşur. BOH son zamanlarda toplumdan büyük ilgi görse de, genellikle bilgisayarlı görme sorunları ve gerçekçi olmayan koşullar altında çözülmektedir. Özellikle, yeni sınıfların sayısının genellikle önceden bilindiği varsayılır ve bunların etiketleri bazen hiperparametreleri ayarlamak için kullanılır. Bu varsayımlara dayanan yöntemler gerçek dünya senaryolarında uygulanamaz. Bu çalışmada, yeni sınıflara ilişkin önceden bilgi bulunmadığında BOH'un tablo halindeki verilerle çözülmesine odaklanıyoruz. Bu amaçla, k-katlı çapraz doğrulama sürecini uyarlayarak ve her katlamada bilinen sınıflardan bazılarını gizleyerek NCD yöntemlerinin hiperparametrelerini ayarlamayı öneriyoruz. Çok fazla hiper parametreye sahip yöntemlerin bu gizli sınıflara aşırı uyum sağlama olasılığının yüksek olduğunu bulduğumuzdan, basit bir derin BOH modeli tanımlıyoruz. Bu yöntem yalnızca BOH sorunu için gerekli olan temel unsurlardan oluşur ve gerçekçi koşullar altında etkileyici derecede iyi performans gösterir. Ayrıca, bu yöntemin gizli uzayının yeni sınıfların sayısını güvenilir bir şekilde tahmin etmek için kullanılabileceğini bulduk. Ek olarak, bilinen sınıfların bilgisinden yararlanmak için iki denetimsiz kümeleme algoritmasını (k-ortalamalar ve Spektral Kümeleme) uyarlıyoruz. Kapsamlı deneyler 7 tablolu veri seti üzerinde yürütülmekte ve önerilen yöntemin ve hiperparametre ayarlama sürecinin etkinliğini ortaya koymakta ve NCD sorununun yeni sınıflardan elde edilen bilgilere dayanmadan çözülebileceğini göstermektedir.


Anahtar Kelimeler : yeni sınıf keşfi, kümeleme, tablolu veriler, açık dünya öğrenimi, transfer öğrenimi

1. Giriş

Son zamanlarda, kısmen ImageNet [1] gibi büyük ve tamamen etiketlenmiş setlerin yardımıyla, denetlenen görevlerde dikkate değer bir ilerleme elde edilmiştir. Bu gelişmeler ağırlıklı olarak kapalı dünya senaryolarına odaklanmıştır; eğitim sırasında tüm sınıfların önceden bilindiği ve bazı etiketli örneklere sahip olduğu varsayılmaktadır. Ancak pratik uygulamalarda, tüm ilgi sınıfları için etiketli örneklerin elde edilmesi, bütçe kısıtlamaları veya kapsamlı bilgi eksikliği gibi faktörlerden dolayı zor bir iş olabilir. Ayrıca modellerin öğrenilen kavramları yeni sınıflara aktarabilmesi için başlangıçtan itibaren bu durum göz önünde bulundurularak tasarlanması gerekir ki bu çok nadir görülen bir durumdur. Ancak bu, insanların zahmetsizce kullanabileceği önemli bir beceridir. Örneğin, birkaç hayvanı ayırt etmeyi öğrenen bir kişi, daha önce hiç görmediği yeni türleri kolaylıkla tanıyabilecek ve "kümelendirebilecek". Bu insan kapasitesinin makine öğrenimi alanına aktarılması, yeni ürünleri yeni kategorilerde kategorize edebilecek bir model olabilir.


Bu gözlem, araştırmacıları Yeni Sınıf Keşfi (NCD) olarak adlandırılan yeni bir sorunu formüle etmeye yöneltmiştir [2, 3]. Burada bize, bilinen sınıfların etiketli bir kümesi ve keşfedilmesi gereken, farklı ancak ilişkili sınıfların etiketlenmemiş bir kümesi verilmektedir. Son zamanlarda bu görev, AutoNovel [4], OpenMix [5] veya NCL [6] gibi birçok yeni yöntemle ve teorik çalışmalarla [7, 8] topluluktan büyük ilgi görmüştür. Bununla birlikte, bu çalışmaların çoğu, yeni sınıfların sayısının önceden bilindiği veya yeni sınıfların hedef etiketlerinin hiperparametre optimizasyonu için mevcut olduğu şeklindeki gerçekçi olmayan varsayım altında BOH problemini ele almaktadır [9]. Bu varsayımlar, bu yöntemleri gerçek dünyadaki BOH senaryoları için kullanışsız kılmaktadır. Bu zorlukların üstesinden gelmek için, gerçek dünyadaki BOH senaryolarında mevcut olmadığından yeni sınıfların temel doğruluk etiketlerinin hiçbir zaman kullanılmadığı BOH yöntemlerinin hiperparametrelerini optimize etmek için genel bir çerçeve öneriyoruz. Ayrıca, bu tür yöntemlerle elde edilen gizli uzayların yeni sınıfların sayısını doğru bir şekilde tahmin etmek için kullanılabileceğini gösterdik.


Ayrıca üç yeni BOH yöntemini de tanıtıyoruz. Bunlardan ikisi, NCD ortamında mevcut olan ek bilgilerden yararlanmak üzere değiştirilmiş, denetlenmeyen kümeleme algoritmalarıdır. Birincisi, k-ortalamaların centroid başlatma adımını geliştirerek birçok senaryoda hala iyi sonuçlar verebilen hızlı ve kullanımı kolay bir algoritma sağlar. İkinci yöntem Spektral Kümeleme (SC) algoritmasının parametrelerini optimize etmeye odaklanır. Gösterimin kendisi (yani spektral yerleştirme) yeni verileri kolayca kümeleyecek şekilde ayarlandığından, bu yaklaşım potansiyel olarak daha yüksek bir öğrenme kapasitesine sahiptir. Son olarak son yaklaşım, yalnızca BOH sorunu için gerekli olan temel bileşenlerden oluşan derin bir BOH yöntemidir. SC ile karşılaştırıldığında bu yöntem, gizli uzayının tanımında daha esnektir ve bilinen sınıfların bilgilerini etkili bir şekilde bütünleştirir.


Bu katkılar her türlü veriye uygulanabilirken, bizim çalışmamız tablosal verilere odaklanıyor. NCD topluluğu neredeyse tamamen bilgisayarlı görme sorunlarına odaklanmıştır ve bilgimiz dahilinde yalnızca bir makale [9] tablo bağlamında NCD sorununu ele almıştır. Ancak bu çalışma, en iyi sonuçlara ulaşmak için çok sayıda hiper parametrenin titizlikle ayarlanmasını gerektiriyordu. Tablosal veriler için tasarlanan yöntemler, bilgisayarla görmede yaygın olarak kullanılan güçlü tekniklerden yararlanamaz. Örnekler arasında, herhangi bir denetim olmadan temsili gizli alanlar elde etme konusundaki güçlü yetenekleri sayesinde, BOH çalışmalarında [11-13] büyük bir başarıyla kullanılan, evrişimler, veri artırma veya DINO [10] gibi Kendi Kendine Denetimli Öğrenme yöntemleri yer almaktadır. Öte yandan, tablosal veri yöntemlerinin en iyi sonuçları elde etmek için hassas şekilde ayarlanmış hiper parametrelere dayanması gerekir. Bu nedenle katkılarımızdan en çok tablosal veri alanının yararlanacağına inanıyoruz.


Aşağıdaki katkıları yaparak, tablo verileriyle ve gerçekçi koşullar altında BOH sorununu çözmenin fizibilitesini ortaya koyuyoruz:


• Bilinen sınıflardan sonuçları iyi bir genellemeyle yeni sınıflara aktarmak için uyarlanmış bir hiperparametre optimizasyon prosedürü geliştiriyoruz.


• BOH yöntemlerinin gizli uzayında basit kümeleme kalite ölçümlerini uygulayarak, BOH bağlamında yeni sınıfların sayısını doğru bir şekilde tahmin etmenin mümkün olduğunu gösteriyoruz.


• BOH ortamında mevcut verileri etkili bir şekilde kullanmak için iki klasik denetimsiz kümeleme algoritmasını değiştiriyoruz.


• PBN (Projeksiyon Tabanlı BOH için) adı verilen, bilinen sınıfların önemli özelliklerini aşırı uyum sağlamadan birleştiren gizli bir temsili öğrenen basit ve sağlam bir yöntem öneriyoruz. Kod https://github.com/Orange-OpenSource/PracticalNCD adresinde mevcuttur.