paint-brush
表格数据中新类别发现的实用方法经过@dataology
558 讀數
558 讀數

表格数据中新类别发现的实用方法

太長; 讀書

本文探讨了在不了解新类别的情况下在表格数据中发现新类别 (NCD) 的方法,并介绍了通过经过调整的 k 倍交叉验证过程调整超参数来避免过度拟合的方法。本文介绍了一个简单的深度 NCD 模型以及经过调整的 k 均值和谱聚类算法,并通过对七个表格数据集进行大量实验证明了它们的有效性。
featured image - 表格数据中新类别发现的实用方法
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

作者:

(1) Troisemaine Colin,法国布雷斯特 IMT Atlantique 计算机科学系和法国拉尼翁 Orange 实验室;

(2) Reiffers-Masson Alexandre,法国布雷斯特 IMT Atlantique 计算机科学系;

(3) Gosselin Stephane,法国拉尼翁 Orange Labs;

(4) Lemaire Vincent,法国拉尼翁 Orange Labs;

(5) Vaton Sandrine,法国布雷斯特 IMT Atlantique 计算机科学系

链接表

摘要和简介

相关工作

方法

超参数优化

估计新类别的数量

完整的训练流程

实验

结论

声明

参考

附录 A:附加结果指标

附录 B:超参数

附录 C:聚类有效性指数数值结果

附录 D:NCD k-means 质心收敛研究

抽象的

新类别发现 (NCD) 问题在于从一组带标签的已知类别中提取知识,以准确地划分一组未带标签的新类别。尽管 NCD 最近受到了社区的广泛关注,但它通常是在计算机视觉问题和不切实际的条件下解决的。特别是,通常假设新类别的数量是预先知道的,并且它们的标签有时用于调整超参数。依赖于这些假设的方法不适用于现实世界场景。在这项工作中,我们专注于在没有新类别的先验知识的情况下解决表格数据中的 NCD。为此,我们建议通过调整 k 倍交叉验证过程并隐藏每个折叠中的一些已知类别来调整 NCD 方法的超参数。由于我们发现具有太多超参数的方法可能会过度拟合这些隐藏的类,因此我们定义了一个简单的深度 NCD 模型。该方法仅由 NCD 问题所需的基本元素组成,并且在现实条件下表现非常出色。此外,我们发现该方法的潜在空间可用于可靠地估计新类别的数量。此外,我们采用两种无监督聚类算法(k-means 和 Spectral Clustering)来利用已知类别的知识。在 7 个表格数据集上进行了广泛的实验,证明了所提出的方法和超参数调整过程的有效性,并表明无需依赖新类别的知识即可解决 NCD 问题。


关键词:新类别发现、聚类、表格数据、开放世界学习、迁移学习

1 简介

最近,监督任务取得了显著进展,部分原因是借助 ImageNet [1] 等大型且完全标记的数据集。这些进步主要集中在封闭世界场景中,在训练期间,假设所有类别都是预先已知的,并且有一些标记的示例。然而,在实际应用中,由于预算限制或缺乏全面信息等因素,获取所有感兴趣的类别的标记实例可能是一项艰巨的任务。此外,为了使模型能够将学习到的概念转移到新的类别,它们需要从一开始就考虑到这一点进行设计,而这种情况很少发生。然而,这是人类可以毫不费力地使用的一项重要技能。例如,在学会区分一些动物后,一个人将能够轻松识别和“聚类”他们从未见过的新物种。将人类的这种能力转移到机器学习领域,可以形成一个能够将新产品归类为新类别的模型。


这一观察促使研究人员提出了一个新问题,即新类别发现 (NCD) [2, 3]。在这里,我们给出了一组已知类别的带标签集和一组必须发现的不同但相关的未标记类别。最近,这项任务受到了社区的广泛关注,出现了许多新方法,例如 AutoNovel [4]、OpenMix [5] 或 NCL [6] 以及理论研究 [7, 8]。然而,这些工作中的大多数都是在不切实际的假设下解决 NCD 问题的,即事先知道新类别的数量,或者新类别的目标标签可用于超参数优化 [9]。这些假设使得这些方法不适用于现实世界的 NCD 场景。为了应对这些挑战,我们提出了一个通用框架来优化 NCD 方法的超参数,其中新类别的真实标签从未使用过,因为它们在现实世界的 NCD 场景中不可用。此外,我们表明,通过此类方法获得的潜在空间可用于准确估计新类别的数量。


我们还介绍了三种新的 NCD 方法。其中两种是经过修改的无监督聚类算法,以利用 NCD 设置中可用的附加信息。第一种方法改进了 k 均值的质心初始化步骤,从而产生了一种快速且易于使用的算法,该算法在许多情况下仍能产生良好的结果。第二种方法侧重于优化谱聚类 (SC) 算法的参数。这种方法具有潜在的更高学习能力,因为表示本身(即谱嵌入)经过调整,可以轻松对新数据进行聚类。最后,最后一种方法是一种深度 NCD 方法,仅由 NCD 问题所需的基本组件组成。与 SC 相比,该方法在潜在空间的定义上更灵活,并有效地整合了已知类的知识。


虽然这些贡献可以应用于任何类型的数据,但我们的工作重点是表格数据。NCD 社区几乎只关注计算机视觉问题,据我们所知,只有一篇论文 [9] 解决了表格环境中的 NCD 问题。然而,这项工作需要对大量超参数进行细致的调整才能获得最佳结果。为表格数据设计的方法无法利用计算机视觉中常用的强大技术。例子包括卷积、数据增强或自监督学习方法(如 DINO [10]),这些方法在 NCD 工作 [11-13] 中得到了巨大成功,这要归功于它们在没有任何监督的情况下获得代表性潜在空间的强大能力。另一方面,表格数据方法必须依靠精细调整的超参数来实现最佳结果。因此,我们相信表格数据领域将从我们的贡献中受益最多。


通过以下贡献,我们证明了使用表格数据和在现实条件下解决 NCD 问题的可行性:


• 我们开发了一个超参数优化程序,旨在将结果从已知类别转移到具有良好泛化能力的新类别。


• 我们表明,通过在 NCD 方法的潜在空间中应用简单的聚类质量指标,可以准确估计 NCD 背景下的新类别的数量。


• 我们修改了两种经典的无监督聚类算法,以有效利用 NCD 设置中可用的数据。


• 我们提出了一种简单而强大的方法,称为 PBN(基于投影的 NCD),该方法可以学习一种潜在表示,该表示结合了已知类别的重要特征,而不会对它们进行过度拟合。代码可在 https://github.com/Orange-OpenSource/PracticalNCD 上找到。