paint-brush
ট্যাবুলার ডেটাতে নভেল ক্লাস ডিসকভারির একটি ব্যবহারিক পদ্ধতিদ্বারা@dataology
558 পড়া
558 পড়া

ট্যাবুলার ডেটাতে নভেল ক্লাস ডিসকভারির একটি ব্যবহারিক পদ্ধতি

দ্বারা Dataology: Study of Data in Computer Science5m2024/05/26
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই কাগজটি নভেল ক্লাসের পূর্ব জ্ঞান ছাড়াই টেবুলার ডেটাতে নভেল ক্লাস ডিসকভারি (এনসিডি) সম্বোধন করে, এমন পদ্ধতিগুলি উপস্থাপন করে যা একটি অভিযোজিত কে-ফোল্ড ক্রস-ভ্যালিডেশন প্রক্রিয়ার মাধ্যমে হাইপারপ্যারামিটারগুলিকে টিউন করে ওভারফিটিং এড়ায়। এটি অভিযোজিত কে-মিন্স এবং স্পেকট্রাল ক্লাস্টারিং অ্যালগরিদম সহ একটি সাধারণ গভীর এনসিডি মডেল প্রবর্তন করে, সাতটি ট্যাবুলার ডেটাসেটের উপর ব্যাপক পরীক্ষার মাধ্যমে তাদের কার্যকারিতা প্রদর্শন করে।
featured image - ট্যাবুলার ডেটাতে নভেল ক্লাস ডিসকভারির একটি ব্যবহারিক পদ্ধতি
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

লেখক:

(1) Troisemaine Colin, Computer Science Department, IMT Atlantique, Brest, France., and Orange Labs, Lannion, France;

(2) রিফার্স-ম্যাসন আলেকজান্ডার, কম্পিউটার সায়েন্স বিভাগ, আইএমটি আটলান্টিক, ব্রেস্ট, ফ্রান্স।;

(3) Gosselin Stephane, Orange Labs, Lannion, France;

(4) Lemaire Vincent, Orange Labs, Lannion, France;

(5) ভ্যাটন স্যান্ড্রিন, কম্পিউটার সায়েন্স বিভাগ, আইএমটি আটলান্টিক, ব্রেস্ট, ফ্রান্স।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

পন্থা

হাইপারপ্যারামিটার অপ্টিমাইজেশান

উপন্যাস ক্লাস সংখ্যা অনুমান

সম্পূর্ণ প্রশিক্ষণ পদ্ধতি

পরীক্ষা-নিরীক্ষা

উপসংহার

ঘোষণাপত্র

তথ্যসূত্র

পরিশিষ্ট A: অতিরিক্ত ফলাফল মেট্রিক্স

পরিশিষ্ট বি: হাইপারপ্যারামিটার

পরিশিষ্ট সি: ক্লাস্টার বৈধতা সূচক সংখ্যাসূচক ফলাফল

পরিশিষ্ট D: NCD k- মানে সেন্ট্রোয়েড কনভারজেন্স স্টাডি

বিমূর্ত

নভেল ক্লাস ডিসকভারি (এনসিডি) এর সমস্যাটি একটি লেবেলবিহীন উপন্যাসের সেটকে সঠিকভাবে বিভাজন করার জন্য পরিচিত ক্লাসের একটি লেবেল সেট থেকে জ্ঞান আহরণ করা। যদিও NCD সম্প্রতি সম্প্রদায়ের কাছ থেকে অনেক মনোযোগ পেয়েছে, এটি প্রায়শই কম্পিউটারের দৃষ্টি সমস্যা এবং অবাস্তব পরিস্থিতিতে সমাধান করা হয়। বিশেষ করে, উপন্যাসের ক্লাসের সংখ্যা সাধারণত আগে থেকেই জানা বলে ধরে নেওয়া হয় এবং তাদের লেবেলগুলি কখনও কখনও হাইপারপ্যারামিটারগুলিকে সুর করার জন্য ব্যবহার করা হয়। এই অনুমানগুলির উপর নির্ভর করে এমন পদ্ধতিগুলি বাস্তব-বিশ্বের পরিস্থিতিতে প্রযোজ্য নয়। এই কাজে, আমরা টেবুলার ডেটাতে এনসিডি সমাধানের উপর ফোকাস করি যখন উপন্যাসের ক্লাসের কোন পূর্ব জ্ঞান পাওয়া যায় না। এই লক্ষ্যে, আমরা কে-ফোল্ড ক্রস-ভ্যালিডেশন প্রক্রিয়াকে অভিযোজিত করে এবং প্রতিটি ভাঁজে কিছু পরিচিত ক্লাস লুকিয়ে NCD পদ্ধতির হাইপারপ্যারামিটারগুলি টিউন করার প্রস্তাব করছি। যেহেতু আমরা খুঁজে পেয়েছি যে অনেকগুলি হাইপারপ্যারামিটার সহ পদ্ধতিগুলি এই লুকানো ক্লাসগুলিকে ওভারফিট করতে পারে, আমরা একটি সাধারণ গভীর এনসিডি মডেল সংজ্ঞায়িত করি। এই পদ্ধতিটি এনসিডি সমস্যার জন্য প্রয়োজনীয় শুধুমাত্র প্রয়োজনীয় উপাদানগুলির সমন্বয়ে গঠিত এবং বাস্তবসম্মত পরিস্থিতিতে প্রভাবশালীভাবে ভাল কাজ করে। তদ্ব্যতীত, আমরা দেখতে পাই যে এই পদ্ধতির সুপ্ত স্থানটি নির্ভরযোগ্যভাবে উপন্যাস ক্লাসের সংখ্যা অনুমান করতে ব্যবহার করা যেতে পারে। উপরন্তু, আমরা পরিচিত ক্লাসের জ্ঞান লাভের জন্য দুটি তত্ত্বাবধানহীন ক্লাস্টারিং অ্যালগরিদম (কে-মানস এবং স্পেকট্রাল ক্লাস্টারিং) মানিয়ে নিই। 7টি ট্যাবুলার ডেটাসেটের উপর ব্যাপক পরীক্ষা-নিরীক্ষা করা হয় এবং প্রস্তাবিত পদ্ধতি এবং হাইপারপ্যারামিটার টিউনিং প্রক্রিয়ার কার্যকারিতা প্রদর্শন করে এবং দেখায় যে এনসিডি সমস্যাটি উপন্যাসের ক্লাস থেকে জ্ঞানের উপর নির্ভর না করেই সমাধান করা যেতে পারে।


কীওয়ার্ড : নভেল ক্লাস আবিষ্কার, ক্লাস্টারিং, ট্যাবুলার ডেটা, ওপেন ওয়ার্ল্ড লার্নিং, ট্রান্সফার লার্নিং

1। পরিচিতি

সম্প্রতি, ইমেজনেট [১] এর মতো বড় এবং সম্পূর্ণ লেবেলযুক্ত সেটগুলির সাহায্যে তত্ত্বাবধানে কাজগুলিতে উল্লেখযোগ্য অগ্রগতি অর্জন করা হয়েছে। এই অগ্রগতিগুলি প্রধানত বদ্ধ-বিশ্বের পরিস্থিতিগুলির উপর দৃষ্টি নিবদ্ধ করেছে, যেখানে, প্রশিক্ষণের সময়, অনুমান করা হয় যে সমস্ত শ্রেণী আগে থেকেই পরিচিত এবং কিছু লেবেলযুক্ত উদাহরণ রয়েছে। যাইহোক, ব্যবহারিক অ্যাপ্লিকেশনগুলিতে, সমস্ত শ্রেণীর আগ্রহের জন্য লেবেলযুক্ত উদাহরণগুলি অর্জন করা একটি কঠিন কাজ হতে পারে যেমন বাজেটের সীমাবদ্ধতা বা ব্যাপক তথ্যের অভাবের কারণে। তদুপরি, মডেলগুলি শেখা ধারণাগুলিকে নতুন ক্লাসে স্থানান্তর করতে সক্ষম হওয়ার জন্য, তাদের শুরু থেকেই এটি মাথায় রেখে ডিজাইন করা দরকার, যা খুব কমই ঘটে। তবুও এটি একটি গুরুত্বপূর্ণ দক্ষতা যা মানুষ অনায়াসে ব্যবহার করতে পারে। উদাহরণস্বরূপ, কয়েকটি প্রাণীকে আলাদা করতে শেখার পরে, একজন ব্যক্তি সহজেই চিনতে সক্ষম হবেন এবং নতুন প্রজাতিকে "গুচ্ছ" করতে পারবেন যা তারা আগে কখনও দেখেনি। মেশিন লার্নিংয়ের ক্ষেত্রে এই মানব ক্ষমতার স্থানান্তর একটি মডেল হতে পারে যা নতুন পণ্যগুলিকে অভিনব বিভাগে শ্রেণীবদ্ধ করতে সক্ষম।


এই পর্যবেক্ষণটি গবেষকদের নভেল ক্লাস ডিসকভারি (এনসিডি) [২, ৩] নামে একটি নতুন সমস্যা তৈরি করতে পরিচালিত করেছে। এখানে, আমাদের পরিচিত ক্লাসগুলির একটি লেবেলযুক্ত সেট এবং বিভিন্ন তবে সম্পর্কিত ক্লাসগুলির একটি লেবেলবিহীন সেট দেওয়া হয়েছে যা অবশ্যই আবিষ্কার করা উচিত। ইদানীং, এই কাজটি সম্প্রদায়ের কাছ থেকে অনেক মনোযোগ পেয়েছে, যেমন অটোনোভেল [৪], ওপেনমিক্স [৫] বা এনসিএল [৬] এবং তাত্ত্বিক গবেষণা [৭, ৮]। যাইহোক, এই কাজগুলির বেশিরভাগই এনসিডি সমস্যা মোকাবেলা করে অবাস্তব অনুমানের অধীনে যে উপন্যাসের ক্লাসের সংখ্যা আগে থেকেই জানা যায়, অথবা উপন্যাসের ক্লাসের লক্ষ্য লেবেলগুলি হাইপারপ্যারামিটার অপ্টিমাইজেশানের জন্য উপলব্ধ [9]। এই অনুমানগুলি বাস্তব-বিশ্ব NCD পরিস্থিতিগুলির জন্য এই পদ্ধতিগুলিকে অবাস্তব করে তোলে। এই চ্যালেঞ্জগুলি মোকাবেলা করার জন্য, আমরা এনসিডি পদ্ধতির হাইপারপ্যারামিটারগুলিকে অপ্টিমাইজ করার জন্য একটি সাধারণ কাঠামোর প্রস্তাব করি যেখানে উপন্যাস ক্লাসের গ্রাউন্ড-ট্রুথ লেবেলগুলি কখনই ব্যবহার করা হয় না, কারণ সেগুলি বাস্তব-বিশ্ব এনসিডি পরিস্থিতিতে পাওয়া যায় না। তদ্ব্যতীত, আমরা দেখাই যে এই জাতীয় পদ্ধতি দ্বারা প্রাপ্ত সুপ্ত স্থানগুলি উপন্যাস শ্রেণীর সংখ্যা নির্ভুলভাবে অনুমান করতে ব্যবহার করা যেতে পারে।


আমরা তিনটি নতুন এনসিডি পদ্ধতিও চালু করেছি। তাদের মধ্যে দুটি হল এনসিডি সেটিং-এ উপলব্ধ অতিরিক্ত তথ্যের সুবিধার জন্য পরিবর্তিত অনিয়ন্ত্রিত ক্লাস্টারিং অ্যালগরিদম। প্রথমটি কে-মিন্সের সেন্ট্রোয়েড ইনিশিয়ালাইজেশন ধাপকে উন্নত করে, যার ফলে একটি দ্রুত এবং সহজে ব্যবহারযোগ্য অ্যালগরিদম যা এখনও অনেক পরিস্থিতিতে ভাল ফলাফল দিতে পারে। দ্বিতীয় পদ্ধতিটি স্পেকট্রাল ক্লাস্টারিং (SC) অ্যালগরিদমের পরামিতিগুলিকে অপ্টিমাইজ করার উপর দৃষ্টি নিবদ্ধ করে। এই পদ্ধতির একটি সম্ভাব্য উচ্চ শেখার ক্ষমতা রয়েছে কারণ উপস্থাপনা নিজেই (অর্থাৎ বর্ণালী এম্বেডিং) সহজে উপন্যাসের ডেটা ক্লাস্টার করার জন্য টিউন করা হয়েছে। অবশেষে, শেষ পন্থা হল একটি গভীর এনসিডি পদ্ধতি যা এনসিডি সমস্যার জন্য প্রয়োজনীয় শুধুমাত্র প্রয়োজনীয় উপাদানগুলির সমন্বয়ে গঠিত। SC-এর তুলনায়, এই পদ্ধতিটি এর সুপ্ত স্থানের সংজ্ঞায় আরও নমনীয় এবং কার্যকরভাবে পরিচিত শ্রেণীগুলির জ্ঞানকে একীভূত করে।


যদিও এই অবদানগুলি যে কোনও ধরণের ডেটাতে প্রয়োগ করা যেতে পারে, আমাদের কাজটি ট্যাবুলার ডেটাতে ফোকাস করে। এনসিডি সম্প্রদায় প্রায় একচেটিয়াভাবে কম্পিউটার দৃষ্টি সমস্যাগুলির উপর দৃষ্টি নিবদ্ধ করেছে এবং, আমাদের সর্বোত্তম জ্ঞান অনুসারে, শুধুমাত্র একটি কাগজ [9] টেবিলের প্রেক্ষাপটে এনসিডির সমস্যাটি মোকাবেলা করেছে। যাইহোক, এই কাজের জন্য সর্বোত্তম ফলাফল অর্জনের জন্য প্রচুর সংখ্যক হাইপারপ্যারামিটারের সূক্ষ্ম টিউনিং প্রয়োজন। ট্যাবুলার ডেটার জন্য ডিজাইন করা পদ্ধতিগুলি সাধারণত কম্পিউটার ভিশনে নিযুক্ত শক্তিশালী কৌশলগুলির সুবিধা নিতে পারে না। উদাহরণগুলির মধ্যে রয়েছে কনভল্যুশন, ডেটা অগমেন্টেশন বা স্ব-তত্ত্বাবধানে শেখার পদ্ধতি যেমন DINO [10], যেগুলি NCD কাজে [11-13] দুর্দান্ত সাফল্যের সাথে ব্যবহার করা হয়েছে, কোনো তত্ত্বাবধান ছাড়াই প্রতিনিধিত্বমূলক সুপ্ত স্থানগুলি পেতে তাদের শক্তিশালী ক্ষমতার জন্য ধন্যবাদ। অন্যদিকে, সারণী ডেটা পদ্ধতিগুলিকে সর্বোত্তম ফলাফল অর্জনের জন্য সূক্ষ্মভাবে টিউন করা হাইপারপ্যারামিটারের উপর নির্ভর করতে হবে। এই কারণে, আমরা বিশ্বাস করি যে ট্যাবুলার ডেটার ক্ষেত্রটি আমাদের অবদান থেকে সবচেয়ে বেশি উপকৃত হবে।


নিম্নলিখিত অবদানগুলি করার মাধ্যমে, আমরা ট্যাবুলার ডেটা এবং বাস্তব অবস্থার অধীনে NCD সমস্যা সমাধানের সম্ভাব্যতা প্রদর্শন করি:


• আমরা একটি হাইপারপ্যারামিটার অপ্টিমাইজেশান পদ্ধতি তৈরি করি যা জানা ক্লাস থেকে ফলাফলগুলিকে ভাল সাধারণীকরণ সহ উপন্যাস ক্লাসে স্থানান্তর করার জন্য তৈরি করা হয়েছে।


• আমরা দেখাই যে এনসিডি পদ্ধতির সুপ্ত স্থানে সাধারণ ক্লাস্টারিং গুণমান মেট্রিক্স প্রয়োগ করে এনসিডি প্রসঙ্গে উপন্যাসের ক্লাসের সংখ্যা সঠিকভাবে অনুমান করা সম্ভব।


• আমরা NCD সেটিং-এ উপলব্ধ ডেটা কার্যকরভাবে ব্যবহার করার জন্য দুটি শাস্ত্রীয় তত্ত্বাবধানহীন ক্লাস্টারিং অ্যালগরিদম পরিবর্তন করি।


• আমরা PBN (প্রজেকশন-ভিত্তিক NCD-এর জন্য) নামে একটি সহজ এবং শক্তিশালী পদ্ধতির প্রস্তাব করি, যা একটি সুপ্ত উপস্থাপনা শিখে যা পরিচিত ক্লাসগুলির গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করে, তাদের উপর অতিরিক্ত ফিটিং না করে। কোডটি https://github.com/Orange-OpenSource/PracticalNCD এ উপলব্ধ।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ