লেখক:  (1) Troisemaine Colin, Computer Science Department, IMT Atlantique, Brest, France., and Orange Labs, Lannion, France;  (2) রিফার্স-ম্যাসন আলেকজান্ডার, কম্পিউটার সায়েন্স বিভাগ, আইএমটি আটলান্টিক, ব্রেস্ট, ফ্রান্স।;  (3) Gosselin Stephane, Orange Labs, Lannion, France;  (4) Lemaire Vincent, Orange Labs, Lannion, France;  (5) ভ্যাটন স্যান্ড্রিন, কম্পিউটার সায়েন্স বিভাগ, আইএমটি আটলান্টিক, ব্রেস্ট, ফ্রান্স।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   পন্থা   হাইপারপ্যারামিটার অপ্টিমাইজেশান   উপন্যাস ক্লাস সংখ্যা অনুমান   সম্পূর্ণ প্রশিক্ষণ পদ্ধতি   পরীক্ষা-নিরীক্ষা   উপসংহার   ঘোষণাপত্র   তথ্যসূত্র   পরিশিষ্ট A: অতিরিক্ত ফলাফল মেট্রিক্স   পরিশিষ্ট বি: হাইপারপ্যারামিটার   পরিশিষ্ট সি: ক্লাস্টার বৈধতা সূচক সংখ্যাসূচক ফলাফল   পরিশিষ্ট D: NCD k- মানে সেন্ট্রোয়েড কনভারজেন্স স্টাডি  বিমূর্ত  নভেল ক্লাস ডিসকভারি (এনসিডি) এর সমস্যাটি একটি লেবেলবিহীন উপন্যাসের সেটকে সঠিকভাবে বিভাজন করার জন্য পরিচিত ক্লাসের একটি লেবেল সেট থেকে জ্ঞান আহরণ করা। যদিও NCD সম্প্রতি সম্প্রদায়ের কাছ থেকে অনেক মনোযোগ পেয়েছে, এটি প্রায়শই কম্পিউটারের দৃষ্টি সমস্যা এবং অবাস্তব পরিস্থিতিতে সমাধান করা হয়। বিশেষ করে, উপন্যাসের ক্লাসের সংখ্যা সাধারণত আগে থেকেই জানা বলে ধরে নেওয়া হয় এবং তাদের লেবেলগুলি কখনও কখনও হাইপারপ্যারামিটারগুলিকে সুর করার জন্য ব্যবহার করা হয়। এই অনুমানগুলির উপর নির্ভর করে এমন পদ্ধতিগুলি বাস্তব-বিশ্বের পরিস্থিতিতে প্রযোজ্য নয়। এই কাজে, আমরা টেবুলার ডেটাতে এনসিডি সমাধানের উপর ফোকাস করি যখন উপন্যাসের ক্লাসের কোন পূর্ব জ্ঞান পাওয়া যায় না। এই লক্ষ্যে, আমরা কে-ফোল্ড ক্রস-ভ্যালিডেশন প্রক্রিয়াকে অভিযোজিত করে এবং প্রতিটি ভাঁজে কিছু পরিচিত ক্লাস লুকিয়ে NCD পদ্ধতির হাইপারপ্যারামিটারগুলি টিউন করার প্রস্তাব করছি। যেহেতু আমরা খুঁজে পেয়েছি যে অনেকগুলি হাইপারপ্যারামিটার সহ পদ্ধতিগুলি এই লুকানো ক্লাসগুলিকে ওভারফিট করতে পারে, আমরা একটি সাধারণ গভীর এনসিডি মডেল সংজ্ঞায়িত করি। এই পদ্ধতিটি এনসিডি সমস্যার জন্য প্রয়োজনীয় শুধুমাত্র প্রয়োজনীয় উপাদানগুলির সমন্বয়ে গঠিত এবং বাস্তবসম্মত পরিস্থিতিতে প্রভাবশালীভাবে ভাল কাজ করে। তদ্ব্যতীত, আমরা দেখতে পাই যে এই পদ্ধতির সুপ্ত স্থানটি নির্ভরযোগ্যভাবে উপন্যাস ক্লাসের সংখ্যা অনুমান করতে ব্যবহার করা যেতে পারে। উপরন্তু, আমরা পরিচিত ক্লাসের জ্ঞান লাভের জন্য দুটি তত্ত্বাবধানহীন ক্লাস্টারিং অ্যালগরিদম (কে-মানস এবং স্পেকট্রাল ক্লাস্টারিং) মানিয়ে নিই। 7টি ট্যাবুলার ডেটাসেটের উপর ব্যাপক পরীক্ষা-নিরীক্ষা করা হয় এবং প্রস্তাবিত পদ্ধতি এবং হাইপারপ্যারামিটার টিউনিং প্রক্রিয়ার কার্যকারিতা প্রদর্শন করে এবং দেখায় যে এনসিডি সমস্যাটি উপন্যাসের ক্লাস থেকে জ্ঞানের উপর নির্ভর না করেই সমাধান করা যেতে পারে।    : নভেল ক্লাস আবিষ্কার, ক্লাস্টারিং, ট্যাবুলার ডেটা, ওপেন ওয়ার্ল্ড লার্নিং, ট্রান্সফার লার্নিং কীওয়ার্ড  1। পরিচিতি  সম্প্রতি, ইমেজনেট [১] এর মতো বড় এবং সম্পূর্ণ লেবেলযুক্ত সেটগুলির সাহায্যে তত্ত্বাবধানে কাজগুলিতে উল্লেখযোগ্য অগ্রগতি অর্জন করা হয়েছে। এই অগ্রগতিগুলি প্রধানত বদ্ধ-বিশ্বের পরিস্থিতিগুলির উপর দৃষ্টি নিবদ্ধ করেছে, যেখানে, প্রশিক্ষণের সময়, অনুমান করা হয় যে সমস্ত শ্রেণী আগে থেকেই পরিচিত এবং কিছু লেবেলযুক্ত উদাহরণ রয়েছে। যাইহোক, ব্যবহারিক অ্যাপ্লিকেশনগুলিতে, সমস্ত শ্রেণীর আগ্রহের জন্য লেবেলযুক্ত উদাহরণগুলি অর্জন করা একটি কঠিন কাজ হতে পারে যেমন বাজেটের সীমাবদ্ধতা বা ব্যাপক তথ্যের অভাবের কারণে। তদুপরি, মডেলগুলি শেখা ধারণাগুলিকে নতুন ক্লাসে স্থানান্তর করতে সক্ষম হওয়ার জন্য, তাদের শুরু থেকেই এটি মাথায় রেখে ডিজাইন করা দরকার, যা খুব কমই ঘটে। তবুও এটি একটি গুরুত্বপূর্ণ দক্ষতা যা মানুষ অনায়াসে ব্যবহার করতে পারে। উদাহরণস্বরূপ, কয়েকটি প্রাণীকে আলাদা করতে শেখার পরে, একজন ব্যক্তি সহজেই চিনতে সক্ষম হবেন এবং নতুন প্রজাতিকে "গুচ্ছ" করতে পারবেন যা তারা আগে কখনও দেখেনি। মেশিন লার্নিংয়ের ক্ষেত্রে এই মানব ক্ষমতার স্থানান্তর একটি মডেল হতে পারে যা নতুন পণ্যগুলিকে অভিনব বিভাগে শ্রেণীবদ্ধ করতে সক্ষম।  এই পর্যবেক্ষণটি গবেষকদের নভেল ক্লাস ডিসকভারি (এনসিডি) [২, ৩] নামে একটি নতুন সমস্যা তৈরি করতে পরিচালিত করেছে। এখানে, আমাদের পরিচিত ক্লাসগুলির একটি লেবেলযুক্ত সেট এবং বিভিন্ন তবে সম্পর্কিত ক্লাসগুলির একটি লেবেলবিহীন সেট দেওয়া হয়েছে যা অবশ্যই আবিষ্কার করা উচিত। ইদানীং, এই কাজটি সম্প্রদায়ের কাছ থেকে অনেক মনোযোগ পেয়েছে, যেমন অটোনোভেল [৪], ওপেনমিক্স [৫] বা এনসিএল [৬] এবং তাত্ত্বিক গবেষণা [৭, ৮]। যাইহোক, এই কাজগুলির বেশিরভাগই এনসিডি সমস্যা মোকাবেলা করে অবাস্তব অনুমানের অধীনে যে উপন্যাসের ক্লাসের সংখ্যা আগে থেকেই জানা যায়, অথবা উপন্যাসের ক্লাসের লক্ষ্য লেবেলগুলি হাইপারপ্যারামিটার অপ্টিমাইজেশানের জন্য উপলব্ধ [9]। এই অনুমানগুলি বাস্তব-বিশ্ব NCD পরিস্থিতিগুলির জন্য এই পদ্ধতিগুলিকে অবাস্তব করে তোলে। এই চ্যালেঞ্জগুলি মোকাবেলা করার জন্য, আমরা এনসিডি পদ্ধতির হাইপারপ্যারামিটারগুলিকে অপ্টিমাইজ করার জন্য একটি সাধারণ কাঠামোর প্রস্তাব করি যেখানে উপন্যাস ক্লাসের গ্রাউন্ড-ট্রুথ লেবেলগুলি কখনই ব্যবহার করা হয় না, কারণ সেগুলি বাস্তব-বিশ্ব এনসিডি পরিস্থিতিতে পাওয়া যায় না। তদ্ব্যতীত, আমরা দেখাই যে এই জাতীয় পদ্ধতি দ্বারা প্রাপ্ত সুপ্ত স্থানগুলি উপন্যাস শ্রেণীর সংখ্যা নির্ভুলভাবে অনুমান করতে ব্যবহার করা যেতে পারে।  আমরা তিনটি নতুন এনসিডি পদ্ধতিও চালু করেছি। তাদের মধ্যে দুটি হল এনসিডি সেটিং-এ উপলব্ধ অতিরিক্ত তথ্যের সুবিধার জন্য পরিবর্তিত অনিয়ন্ত্রিত ক্লাস্টারিং অ্যালগরিদম। প্রথমটি কে-মিন্সের সেন্ট্রোয়েড ইনিশিয়ালাইজেশন ধাপকে উন্নত করে, যার ফলে একটি দ্রুত এবং সহজে ব্যবহারযোগ্য অ্যালগরিদম যা এখনও অনেক পরিস্থিতিতে ভাল ফলাফল দিতে পারে। দ্বিতীয় পদ্ধতিটি স্পেকট্রাল ক্লাস্টারিং (SC) অ্যালগরিদমের পরামিতিগুলিকে অপ্টিমাইজ করার উপর দৃষ্টি নিবদ্ধ করে। এই পদ্ধতির একটি সম্ভাব্য উচ্চ শেখার ক্ষমতা রয়েছে কারণ উপস্থাপনা নিজেই (অর্থাৎ বর্ণালী এম্বেডিং) সহজে উপন্যাসের ডেটা ক্লাস্টার করার জন্য টিউন করা হয়েছে। অবশেষে, শেষ পন্থা হল একটি গভীর এনসিডি পদ্ধতি যা এনসিডি সমস্যার জন্য প্রয়োজনীয় শুধুমাত্র প্রয়োজনীয় উপাদানগুলির সমন্বয়ে গঠিত। SC-এর তুলনায়, এই পদ্ধতিটি এর সুপ্ত স্থানের সংজ্ঞায় আরও নমনীয় এবং কার্যকরভাবে পরিচিত শ্রেণীগুলির জ্ঞানকে একীভূত করে।  যদিও এই অবদানগুলি যে কোনও ধরণের ডেটাতে প্রয়োগ করা যেতে পারে, আমাদের কাজটি ট্যাবুলার ডেটাতে ফোকাস করে। এনসিডি সম্প্রদায় প্রায় একচেটিয়াভাবে কম্পিউটার দৃষ্টি সমস্যাগুলির উপর দৃষ্টি নিবদ্ধ করেছে এবং, আমাদের সর্বোত্তম জ্ঞান অনুসারে, শুধুমাত্র একটি কাগজ [9] টেবিলের প্রেক্ষাপটে এনসিডির সমস্যাটি মোকাবেলা করেছে। যাইহোক, এই কাজের জন্য সর্বোত্তম ফলাফল অর্জনের জন্য প্রচুর সংখ্যক হাইপারপ্যারামিটারের সূক্ষ্ম টিউনিং প্রয়োজন। ট্যাবুলার ডেটার জন্য ডিজাইন করা পদ্ধতিগুলি সাধারণত কম্পিউটার ভিশনে নিযুক্ত শক্তিশালী কৌশলগুলির সুবিধা নিতে পারে না। উদাহরণগুলির মধ্যে রয়েছে কনভল্যুশন, ডেটা অগমেন্টেশন বা স্ব-তত্ত্বাবধানে শেখার পদ্ধতি যেমন DINO [10], যেগুলি NCD কাজে [11-13] দুর্দান্ত সাফল্যের সাথে ব্যবহার করা হয়েছে, কোনো তত্ত্বাবধান ছাড়াই প্রতিনিধিত্বমূলক সুপ্ত স্থানগুলি পেতে তাদের শক্তিশালী ক্ষমতার জন্য ধন্যবাদ। অন্যদিকে, সারণী ডেটা পদ্ধতিগুলিকে সর্বোত্তম ফলাফল অর্জনের জন্য সূক্ষ্মভাবে টিউন করা হাইপারপ্যারামিটারের উপর নির্ভর করতে হবে। এই কারণে, আমরা বিশ্বাস করি যে ট্যাবুলার ডেটার ক্ষেত্রটি আমাদের অবদান থেকে সবচেয়ে বেশি উপকৃত হবে।  নিম্নলিখিত অবদানগুলি করার মাধ্যমে, আমরা ট্যাবুলার ডেটা এবং বাস্তব অবস্থার অধীনে NCD সমস্যা সমাধানের সম্ভাব্যতা প্রদর্শন করি:  • আমরা একটি হাইপারপ্যারামিটার অপ্টিমাইজেশান পদ্ধতি তৈরি করি যা জানা ক্লাস থেকে ফলাফলগুলিকে ভাল সাধারণীকরণ সহ উপন্যাস ক্লাসে স্থানান্তর করার জন্য তৈরি করা হয়েছে।  • আমরা দেখাই যে এনসিডি পদ্ধতির সুপ্ত স্থানে সাধারণ ক্লাস্টারিং গুণমান মেট্রিক্স প্রয়োগ করে এনসিডি প্রসঙ্গে উপন্যাসের ক্লাসের সংখ্যা সঠিকভাবে অনুমান করা সম্ভব।  • আমরা NCD সেটিং-এ উপলব্ধ ডেটা কার্যকরভাবে ব্যবহার করার জন্য দুটি শাস্ত্রীয় তত্ত্বাবধানহীন ক্লাস্টারিং অ্যালগরিদম পরিবর্তন করি।  • আমরা PBN (প্রজেকশন-ভিত্তিক NCD-এর জন্য) নামে একটি সহজ এবং শক্তিশালী পদ্ধতির প্রস্তাব করি, যা একটি সুপ্ত উপস্থাপনা শিখে যা পরিচিত ক্লাসগুলির গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করে, তাদের উপর অতিরিক্ত ফিটিং না করে। কোডটি https://github.com/Orange-OpenSource/PracticalNCD এ উপলব্ধ।  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

গল্পের মূল ভাষায় এই অডিও তৈরি!

ট্যাবুলার ডেটাতে নভেল ক্লাস ডিসকভারির একটি ব্যবহারিক পদ্ধতি

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps