tác giả:
(1) Troisemaine Colin, Khoa Khoa học Máy tính, IMT Atlantique, Brest, Pháp, và Orange Labs, Lannion, Pháp;
(2) Reiffers-Masson Alexandre, Khoa Khoa học Máy tính, IMT Atlantique, Brest, Pháp.;
(3) Gosselin Stephane, Orange Labs, Lannion, Pháp;
(4) Lemaire Vincent, Orange Labs, Lannion, Pháp;
(5) Vaton Sandrine, Khoa Khoa học Máy tính, IMT Atlantique, Brest, Pháp.
Phụ lục A: Số liệu kết quả bổ sung
Phụ lục C: Kết quả số về Chỉ số Hiệu lực của Cụm
Phụ lục D: Nghiên cứu hội tụ NCD k-means centroid
Bài toán Khám phá lớp mới (NCD) bao gồm việc trích xuất kiến thức từ một tập hợp các lớp đã biết được gắn nhãn để phân chia chính xác một tập hợp các lớp mới chưa được gắn nhãn. Mặc dù NCD gần đây nhận được rất nhiều sự quan tâm của cộng đồng nhưng nó thường được giải quyết trên các vấn đề về thị giác máy tính và trong những điều kiện không thực tế. Đặc biệt, số lượng các lớp mới thường được giả định là đã biết trước và nhãn của chúng đôi khi được sử dụng để điều chỉnh các siêu tham số. Các phương pháp dựa trên những giả định này không thể áp dụng được trong các tình huống thực tế. Trong công việc này, chúng tôi tập trung vào việc giải NCD bằng dữ liệu dạng bảng khi không có sẵn kiến thức trước về các lớp mới. Để đạt được mục đích này, chúng tôi đề xuất điều chỉnh các siêu tham số của các phương pháp NCD bằng cách điều chỉnh quy trình xác thực chéo k-fold và ẩn một số lớp đã biết trong mỗi lần. Vì chúng tôi nhận thấy rằng các phương thức có quá nhiều siêu tham số có khả năng phù hợp quá mức với các lớp ẩn này, nên chúng tôi xác định một mô hình NCD sâu đơn giản. Phương pháp này chỉ bao gồm các yếu tố thiết yếu cần thiết cho vấn đề NCD và thực hiện tốt một cách ấn tượng trong điều kiện thực tế. Hơn nữa, chúng tôi thấy rằng không gian tiềm ẩn của phương pháp này có thể được sử dụng để ước tính một cách đáng tin cậy số lượng các lớp mới. Ngoài ra, chúng tôi điều chỉnh hai thuật toán phân cụm không giám sát (k-means và Spectral Clustering) để tận dụng kiến thức về các lớp đã biết. Các thử nghiệm mở rộng được tiến hành trên 7 bộ dữ liệu dạng bảng và chứng minh tính hiệu quả của phương pháp đề xuất và quy trình điều chỉnh siêu tham số, đồng thời cho thấy rằng vấn đề NCD có thể được giải quyết mà không cần dựa vào kiến thức từ các lớp mới.
Từ khóa : khám phá lớp mới, phân cụm, dữ liệu dạng bảng, học tập thế giới mở, học chuyển giao
Gần đây, đã đạt được tiến bộ đáng kể trong các nhiệm vụ được giám sát, một phần nhờ sự trợ giúp của các bộ lớn và được dán nhãn đầy đủ như ImageNet [1]. Những tiến bộ này chủ yếu tập trung vào các kịch bản thế giới đóng, trong đó, trong quá trình đào tạo, người ta cho rằng tất cả các lớp đều được biết trước và có một số ví dụ được gắn nhãn. Tuy nhiên, trong các ứng dụng thực tế, việc có được các phiên bản được dán nhãn cho tất cả các loại quan tâm có thể là một nhiệm vụ khó khăn do các yếu tố như hạn chế về ngân sách hoặc thiếu thông tin toàn diện. Hơn nữa, để các mô hình có thể chuyển các khái niệm đã học sang các lớp mới, chúng cần được thiết kế có tính đến điều này ngay từ đầu, điều này hiếm khi xảy ra. Tuy nhiên, đây là một kỹ năng quan trọng mà con người có thể sử dụng dễ dàng. Ví dụ, sau khi học cách phân biệt một số loài động vật, một người sẽ dễ dàng nhận biết và “phân cụm” những loài mới mà họ chưa từng thấy trước đây. Việc chuyển đổi năng lực này của con người sang lĩnh vực học máy có thể là một mô hình có khả năng phân loại các sản phẩm mới thành các danh mục mới.
Quan sát này đã khiến các nhà nghiên cứu hình thành một vấn đề mới gọi là Khám phá lớp tiểu thuyết (NCD) [2, 3]. Ở đây, chúng ta có một tập có nhãn gồm các lớp đã biết và một tập không có nhãn gồm các lớp khác nhau nhưng có liên quan cần được khám phá. Gần đây, nhiệm vụ này nhận được rất nhiều sự quan tâm của cộng đồng, với nhiều phương pháp mới như AutoNovel [4], OpenMix [5] hay NCL [6] và các nghiên cứu lý thuyết [7, 8]. Tuy nhiên, hầu hết các công trình này đều giải quyết vấn đề NCD theo giả định phi thực tế rằng số lượng các lớp mới đã được biết trước hoặc nhãn mục tiêu của các lớp mới có sẵn để tối ưu hóa siêu tham số [9]. Những giả định này khiến các phương pháp này không thực tế đối với các kịch bản NCD trong thế giới thực. Để giải quyết những thách thức này, chúng tôi đề xuất một khuôn khổ chung để tối ưu hóa các siêu tham số của các phương pháp NCD trong đó nhãn chân lý cơ bản của các lớp mới không bao giờ được sử dụng vì chúng không có sẵn trong các kịch bản NCD trong thế giới thực. Hơn nữa, chúng tôi cho thấy rằng không gian tiềm ẩn thu được bằng các phương pháp như vậy có thể được sử dụng để ước tính chính xác số lượng lớp mới.
Chúng tôi cũng giới thiệu ba phương pháp NCD mới. Hai trong số đó là các thuật toán phân cụm không giám sát được sửa đổi để tận dụng thông tin bổ sung có sẵn trong cài đặt NCD. Cái đầu tiên cải thiện bước khởi tạo trọng tâm của k-mean, dẫn đến thuật toán nhanh và dễ sử dụng mà vẫn có thể cho kết quả tốt trong nhiều tình huống. Phương pháp thứ hai tập trung vào việc tối ưu hóa các tham số của thuật toán Spectral Clustering (SC). Cách tiếp cận này có khả năng học hỏi cao hơn vì bản thân việc biểu diễn (tức là việc nhúng phổ) được điều chỉnh để dễ dàng phân cụm dữ liệu mới. Cuối cùng, cách tiếp cận cuối cùng là phương pháp NCD sâu chỉ bao gồm các thành phần thiết yếu cần thiết cho vấn đề NCD. So với SC, phương pháp này linh hoạt hơn trong việc xác định không gian tiềm ẩn của nó và tích hợp hiệu quả kiến thức của các lớp đã biết.
Mặc dù những đóng góp này có thể được áp dụng cho bất kỳ loại dữ liệu nào nhưng công việc của chúng tôi tập trung vào dữ liệu dạng bảng. Cộng đồng NCD hầu như chỉ tập trung vào các vấn đề về thị giác máy tính và theo hiểu biết tốt nhất của chúng tôi, chỉ có một bài báo [9] đã giải quyết vấn đề NCD trong bối cảnh dạng bảng. Tuy nhiên, công việc này đòi hỏi phải điều chỉnh tỉ mỉ một số lượng lớn các siêu tham số để đạt được kết quả tối ưu. Các phương pháp được thiết kế cho dữ liệu dạng bảng không thể tận dụng được các kỹ thuật mạnh mẽ thường được sử dụng trong thị giác máy tính. Các ví dụ bao gồm tích chập, tăng cường dữ liệu hoặc các phương pháp Học tự giám sát như DINO [10], đã được sử dụng rất thành công trong các công trình NCD [11–13], nhờ khả năng mạnh mẽ của chúng để có được không gian tiềm ẩn đại diện mà không cần bất kỳ sự giám sát nào. Mặt khác, các phương pháp dữ liệu dạng bảng phải dựa vào các siêu tham số được tinh chỉnh để đạt được kết quả tối ưu. Vì lý do này, chúng tôi tin rằng lĩnh vực dữ liệu dạng bảng sẽ được hưởng lợi nhiều nhất từ những đóng góp của chúng tôi.
Bằng cách thực hiện những đóng góp sau đây, chúng tôi chứng minh tính khả thi của việc giải quyết vấn đề NCD bằng dữ liệu dạng bảng và trong các điều kiện thực tế:
• Chúng tôi phát triển một quy trình tối ưu hóa siêu tham số được thiết kế riêng để chuyển kết quả từ các lớp đã biết sang các lớp mới với khả năng khái quát hóa tốt.
• Chúng tôi chứng tỏ rằng có thể ước tính chính xác số lượng các lớp mới trong bối cảnh NCD, bằng cách áp dụng các thước đo chất lượng phân cụm đơn giản trong không gian tiềm ẩn của các phương pháp NCD.
• Chúng tôi sửa đổi hai thuật toán phân cụm không giám sát cổ điển để sử dụng hiệu quả dữ liệu có sẵn trong cài đặt NCD.
• Chúng tôi đề xuất một phương pháp đơn giản và mạnh mẽ, được gọi là PBN (dành cho NCD dựa trên phép chiếu), phương pháp này học cách biểu diễn tiềm ẩn kết hợp các tính năng quan trọng của các lớp đã biết mà không trang bị quá mức cho chúng. Mã có sẵn tại https://github.com/Orange-OpenSource/PracticalNCD.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.