저자:
(1) Troisemaine Colin, 프랑스 브레스트 소재 IMT Atlantique 컴퓨터 과학부 및 프랑스 Lannion 소재 Orange Labs;
(2) Reiffers-Masson Alexandre, 프랑스 브레스트 소재 IMT Atlantique 컴퓨터 과학부;
(3) 프랑스 라니옹 소재 Orange Labs의 Gosselin Stephane;
(4) Lemaire Vincent, Orange Labs, Lannion, France;
(5) Vaton Sandrine, 프랑스 브레스트 소재 IMT Atlantique 컴퓨터 과학부.
NCD(Novel Class Discovery)의 문제는 레이블이 지정되지 않은 새로운 클래스 집합을 정확하게 분할하기 위해 레이블이 지정된 알려진 클래스 집합에서 지식을 추출하는 것으로 구성됩니다. NCD는 최근 커뮤니티에서 많은 관심을 받았지만 컴퓨터 비전 문제와 비현실적인 조건에서 해결되는 경우가 많습니다. 특히, 새로운 클래스의 수는 일반적으로 미리 알려져 있다고 가정하고, 해당 레이블은 하이퍼파라미터를 조정하는 데 사용되기도 합니다. 이러한 가정에 의존하는 방법은 실제 시나리오에 적용할 수 없습니다. 이 연구에서는 새로운 클래스에 대한 사전 지식이 없을 때 표 형식 데이터에서 NCD를 해결하는 데 중점을 둡니다. 이를 위해 우리는 k-fold 교차 검증 프로세스를 적용하고 각 폴드에 알려진 클래스 중 일부를 숨겨 NCD 방법의 하이퍼파라미터를 조정할 것을 제안합니다. 하이퍼파라미터가 너무 많은 메서드는 이러한 히든 클래스에 과적합될 가능성이 높으므로 간단한 심층 NCD 모델을 정의합니다. 이 방법은 NCD 문제에 꼭 필요한 요소들로만 구성되어 있으며, 현실적인 조건에서 인상적인 성능을 발휘합니다. 또한, 우리는 이 방법의 잠재 공간을 사용하여 새로운 클래스의 수를 안정적으로 추정할 수 있음을 발견했습니다. 또한 알려진 클래스에 대한 지식을 활용하기 위해 두 가지 비지도 클러스터링 알고리즘(k-평균 및 스펙트럼 클러스터링)을 적용합니다. 7개의 표 형식 데이터세트에 대해 광범위한 실험을 수행하여 제안된 방법과 하이퍼파라미터 튜닝 프로세스의 효율성을 입증하고 새로운 클래스의 지식에 의존하지 않고도 NCD 문제를 해결할 수 있음을 보여줍니다.
키워드 : 새로운 클래스 발견, 클러스터링, 테이블 형식 데이터, 오픈 월드 학습, 전이 학습
최근에는 ImageNet[1]과 같은 대규모의 완전 레이블이 지정된 세트의 도움으로 지도 작업에서 놀라운 진전이 이루어졌습니다. 이러한 발전은 주로 닫힌 세계 시나리오에 초점을 맞추었습니다. 여기서는 훈련 중에 모든 클래스가 미리 알려져 있고 일부 레이블이 지정된 예가 있다고 가정됩니다. 그러나 실제 적용에서는 예산 제약이나 포괄적인 정보 부족과 같은 요인으로 인해 관심 있는 모든 클래스에 대해 레이블이 지정된 인스턴스를 얻는 것이 어려울 수 있습니다. 또한, 모델이 학습된 개념을 새로운 클래스로 전송할 수 있으려면 처음부터 이를 염두에 두고 설계해야 하는데, 이는 드문 경우입니다. 그러나 이것은 인간이 쉽게 사용할 수 있는 중요한 기술이다. 예를 들어, 몇 가지 동물을 구별하는 방법을 배운 사람은 이전에 본 적이 없는 새로운 종을 쉽게 인식하고 "클러스터"할 수 있습니다. 이러한 인간 역량을 기계 학습 분야로 전환하는 것은 신제품을 새로운 카테고리로 분류할 수 있는 모델이 될 수 있습니다.
이러한 관찰로 인해 연구자들은 NCD(Novel Class Discovery)라는 새로운 문제를 공식화하게 되었습니다[2, 3]. 여기에는 알려진 클래스의 레이블이 지정된 집합과 검색해야 하는 서로 다르지만 관련된 클래스의 레이블이 지정되지 않은 집합이 제공됩니다. 최근 이 작업은 AutoNovel[4], OpenMix[5] 또는 NCL[6]과 같은 많은 새로운 방법과 이론적 연구[7, 8]를 통해 커뮤니티에서 많은 관심을 받았습니다. 그러나 이러한 연구의 대부분은 새로운 클래스의 수가 미리 알려져 있거나 새로운 클래스의 대상 레이블이 하이퍼파라미터 최적화에 사용 가능하다는 비현실적인 가정 하에 NCD 문제를 다루고 있습니다[9]. 이러한 가정으로 인해 실제 NCD 시나리오에서는 이러한 방법이 실용적이지 않습니다. 이러한 문제를 해결하기 위해 우리는 실제 NCD 시나리오에서는 사용할 수 없기 때문에 새로운 클래스의 실제 레이블이 절대 사용되지 않는 NCD 방법의 하이퍼 매개변수를 최적화하기 위한 일반적인 프레임워크를 제안합니다. 또한, 우리는 이러한 방법으로 얻은 잠재 공간을 사용하여 새로운 클래스의 수를 정확하게 추정할 수 있음을 보여줍니다.
또한 세 가지 새로운 NCD 방법을 소개합니다. 그 중 두 개는 NCD 설정에서 사용할 수 있는 추가 정보를 활용하도록 수정된 비지도 클러스터링 알고리즘입니다. 첫 번째는 k-평균의 중심 초기화 단계를 개선하여 많은 시나리오에서 여전히 좋은 결과를 제공할 수 있는 빠르고 사용하기 쉬운 알고리즘을 제공합니다. 두 번째 방법은 스펙트럼 클러스터링(SC) 알고리즘의 매개변수를 최적화하는 데 중점을 둡니다. 이 접근 방식은 표현 자체(즉, 스펙트럼 임베딩)가 새로운 데이터를 쉽게 클러스터링하도록 조정되므로 잠재적으로 더 높은 학습 용량을 갖습니다. 마지막으로 마지막 접근방식은 NCD 문제에 꼭 필요한 구성요소만으로 구성된 Deep NCD 방법이다. SC에 비해 이 방법은 잠재 공간 정의가 더 유연하고 알려진 클래스의 지식을 효과적으로 통합합니다.
이러한 기여는 모든 유형의 데이터에 적용될 수 있지만 우리 작업은 표 형식 데이터에 중점을 둡니다. NCD 커뮤니티는 거의 독점적으로 컴퓨터 비전 문제에 초점을 맞춰 왔으며, 우리가 아는 한 단 하나의 논문[9]만이 표 형식의 맥락에서 NCD 문제를 다루고 있습니다. 그러나 이 작업에서는 최적의 결과를 얻기 위해 수많은 하이퍼파라미터를 세심하게 조정해야 했습니다. 표 형식 데이터용으로 설계된 방법은 컴퓨터 비전에 일반적으로 사용되는 강력한 기술을 활용할 수 없습니다. 예를 들어 컨볼루션, 데이터 증대 또는 DINO[10]와 같은 자가 지도 학습 방법이 있으며, 이는 어떠한 감독 없이 대표적인 잠재 공간을 얻을 수 있는 강력한 능력 덕분에 NCD 작업[11-13]에서 큰 성공을 거두었습니다. 반면, 표 형식의 데이터 방법은 최적의 결과를 얻기 위해 정밀하게 조정된 하이퍼파라미터에 의존해야 합니다. 이러한 이유로 우리는 표 데이터 분야가 우리의 기여로 가장 큰 이익을 얻을 것이라고 믿습니다.
다음과 같은 기여를 통해 우리는 표 형식의 데이터와 현실적인 조건에서 NCD 문제를 해결할 수 있는 타당성을 보여줍니다.
• 우리는 좋은 일반화를 통해 알려진 클래스의 결과를 새로운 클래스로 전송하도록 맞춤화된 하이퍼파라미터 최적화 절차를 개발합니다.
• NCD 방법의 잠재 공간에 간단한 클러스터링 품질 메트릭을 적용하여 NCD의 맥락에서 새로운 클래스의 수를 정확하게 추정하는 것이 가능하다는 것을 보여줍니다.
• NCD 설정에서 사용 가능한 데이터를 효과적으로 활용하기 위해 두 가지 기존 비지도 클러스터링 알고리즘을 수정합니다.
• 우리는 알려진 클래스의 중요한 특징을 과대적합하지 않고 통합하는 잠재 표현을 학습하는 PBN(투영 기반 NCD용)이라는 간단하고 강력한 방법을 제안합니다. 코드는 https://github.com/Orange-OpenSource/PracticalNCD에서 확인할 수 있습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.