সাপোর্ট ভেক্টর ডেটা বর্ণনা (SVDD) হল অসামঞ্জস্যতা সনাক্তকরণের জন্য মেশিন লার্নিং-এ ব্যবহৃত জনপ্রিয় সীমানা পদ্ধতিগুলির মধ্যে একটি। SVDD-এর লক্ষ্য হল এমন একটি মডেল তৈরি করা যা স্বাভাবিক (অ-অসামান্য) ডেটার বৈশিষ্ট্যগুলিকে ক্যাপচার করে এবং তারপরে এই বৈশিষ্ট্যগুলি থেকে বিচ্যুত হওয়া উদাহরণগুলিকে অসঙ্গতি হিসাবে চিহ্নিত করে৷
অসঙ্গতি সনাক্তকরণ বিভিন্ন অ্যাপ্লিকেশনে ব্যাপক ব্যবহার খুঁজে পায়, যেমন ক্রেডিট কার্ডের জন্য জালিয়াতি সনাক্তকরণ, বীমা, বা স্বাস্থ্যসেবা, সাইবার-নিরাপত্তার জন্য অনুপ্রবেশ সনাক্তকরণ, নিরাপত্তা-গুরুত্বপূর্ণ সিস্টেমে ত্রুটি সনাক্তকরণ এবং শত্রু কার্যকলাপের জন্য সামরিক নজরদারি।
কল্পনা করুন আপনার কাছে ডেটা পয়েন্টের একটি সেট রয়েছে এবং তাদের বেশিরভাগই স্বাভাবিক আচরণের প্রতিনিধিত্ব করে। এসভিডিডির লক্ষ্য এই স্বাভাবিক ডেটা পয়েন্টগুলির চারপাশে এমনভাবে একটি সীমানা তৈরি করা যাতে বেশিরভাগ ডেটা এই সীমানার মধ্যে পড়ে। এই সীমানার বাইরের যেকোন ডেটা পয়েন্ট তখন একটি অসঙ্গতি বা আউটলায়ার হিসাবে বিবেচিত হয়।
অন্য কথায়, আমরা একটি কম্পিউটারকে উদাহরণগুলির একটি সেটের উপর ভিত্তি করে "স্বাভাবিক" দেখতে কেমন তা শনাক্ত করতে শেখাচ্ছি এবং তারপরে শেখা প্যাটার্নের সাথে মানানসই না হলে "অস্বাভাবিক" হিসাবে কিছু পতাকাঙ্কিত করতে সক্ষম হচ্ছি।
এই প্রবন্ধে, আমরা SVDD-এর মৌলিক ধারণাগুলির মধ্যে গভীরভাবে ডুব দিয়েছি, প্রশিক্ষণ পর্বের সময় বিশেষ সুবিধাপ্রাপ্ত তথ্যের ব্যবহার অন্বেষণ করি - একটি কৌশল যা অসঙ্গতি সনাক্তকরণের পরিস্থিতিতে শ্রেণীবিভাগের নির্ভুলতা বাড়ানোর লক্ষ্যে।
উপরে যেমন বলা হয়েছে, অসংগতি সনাক্তকরণের একটি ধ্রুপদী পদ্ধতি হল প্রত্যাশিত ("স্বাভাবিক") আচরণকে এক-শ্রেণীর শ্রেণীবিভাগ কৌশল ব্যবহার করে বর্ণনা করা, যেমন, অনেক উদাহরণ ব্যবহার করে একটি "স্বাভাবিক" অবস্থার বর্ণনা তৈরি করা, যেমন, একটি জ্যামিতিক স্থান বর্ণনা করে একটি বৈশিষ্ট্য স্থান প্রশিক্ষণ নিদর্শন. যদি একটি নতুন পরীক্ষার প্যাটার্ন "স্বাভাবিক" শ্রেণীর অন্তর্গত না হয়, আমরা এটিকে অস্বাভাবিক বিবেচনা করি।
একটি "স্বাভাবিক" ডোমেন তৈরি করতে, আমরা সুপরিচিত পদ্ধতিগুলি ব্যবহার করতে পারি যেমন সমর্থন ভেক্টর ডোমেন বিবরণ।
আমরা বিশেষ সুবিধাপ্রাপ্ত তথ্য ব্যবহার না করেই মূল SVDD-এর সংক্ষিপ্ত ব্যাখ্যা দিয়ে শুরু করি। আমাদের কাছে একটি আইআইডি নমুনা রয়েছে (x1, ... , xl)
এই অ্যালগরিদমের মূল ধারণা হল "স্বাভাবিক" বলে বিবেচিত নমুনার একটি উল্লেখযোগ্য অংশকে কিছু অর্থে "অস্বাভাবিক" বলে বিবেচিত থেকে আলাদা করা। আমরা φ(·) মূল ডেটা পয়েন্টকে আরও কিছু এক্সপ্রেসিভ ফিচার স্পেসে ম্যাপিং দ্বারা বোঝাই, উদাহরণস্বরূপ, কিছু বহুপদী বৈশিষ্ট্য যোগ করা, একটি গভীর নিউরাল নেট দিয়ে কিছু বৈশিষ্ট্য নিষ্কাশন প্রয়োগ করা, অথবা এমনকি মানছি যে ম্যাপিং কিছু অসীম মাত্রার স্থানে রয়েছে।
বৈশিষ্ট্য মানচিত্রের ছবিতে একটি বিন্দু এবং R কিছু ইতিবাচক মান হতে দিন। একটি প্যাটার্ন x একটি "স্বাভাবিক" শ্রেণীর অন্তর্গত যদি এটি গোলকের অভ্যন্তরে থাকে ∥a − φ(x)∥ ≤ R। কেন্দ্র a
এবং ব্যাসার্ধ R
খুঁজে পেতে আমরা অপ্টিমাইজেশন সমস্যার সমাধান করি:
এখানে ξ হল গোলকের বাইরে অবস্থিত xi থেকে গোলকের পৃষ্ঠের দূরত্ব। যদি একটি বিন্দু গোলকের অভ্যন্তরে থাকে তবে আমরা ξi = 0 বিবেচনা করি R পরিবর্তনশীলটিকে ব্যাসার্ধ হিসাবে বিবেচনা করা যেতে পারে শুধুমাত্র যদি আমাদের এর ইতিবাচকতার প্রয়োজন হয়। যাইহোক, এটি সহজেই প্রমাণ করা যেতে পারে যে এই শর্তটি স্বয়ংক্রিয়ভাবে পূর্ণ হয় যদি ν ∈ (0, 1), এবং ν ̸ ∈ (0, 1) এর জন্য, সমাধানটিতে হয় সমস্ত বিন্দু থাকে বা তাদের একটিও থাকে না।
আপনি সম্ভবত অনুমান করেছেন, যেহেতু আমাদের অ্যালগরিদমের নামে সমর্থন রয়েছে, আমরা দ্বৈত সমস্যাটি সমাধান করব:
এখানে আমরা স্কেলার পণ্য (φ(xi) · φ(xj )) কে সংশ্লিষ্ট কার্নেল K(xi, xj) দিয়ে প্রতিস্থাপন করি। আমরা যেকোন xi ব্যবহার করে a এবং R গণনা করতে পারি যেমন αi > 0
এর উপর ভিত্তি করে আমরা সিদ্ধান্ত ফাংশন সংজ্ঞায়িত করতে পারি:
যদি f(x) > 0 হয়, তাহলে একটি প্যাটার্ন x গোলকের বাইরে অবস্থিত এবং অস্বাভাবিক বলে বিবেচিত হয়। এছাড়াও আমরা লক্ষ্য করতে পারি যে f(x) রিটার্ন মান এবং আমরা সত্য ইতিবাচক এবং সত্যিকারের নেতিবাচক মানগুলির একটি লক্ষ্য স্তর অর্জন করতে থ্রেশহোল্ড টিউন করতে পারি।
মূল দ্বি-শ্রেণীর সাপোর্ট ভেক্টর মেশিনের জন্য, একটি অ্যালগরিদম বিভিন্ন শ্রেণীর ডেটা পয়েন্টগুলির মধ্যে একটি সর্বোত্তম সীমানা তৈরি করে,
আমাদের বিশেষ সুবিধাপ্রাপ্ত তথ্যের কিছু উদাহরণ প্রদান করা যাক। যদি আমরা একটি চিত্র শ্রেণিবিন্যাসের সমস্যা সমাধান করি, তাহলে বিশেষ সুবিধাপ্রাপ্ত তথ্য হিসাবে, আমরা একটি পাঠ্য চিত্র বর্ণনা ব্যবহার করতে পারি। ম্যালওয়্যার সনাক্তকরণের ক্ষেত্রে, শ্রেণীবিভাগের জন্য অতিরিক্ত বৈশিষ্ট্য পেতে আমরা ম্যালওয়্যারের একটি উৎস কোড ব্যবহার করতে পারি।
পরীক্ষার পর্যায়ে এই ধরনের তথ্য অনুপলব্ধ থাকে (যেমন, এটি গণনামূলকভাবে নিষিদ্ধ বা প্রাপ্ত করা খুব ব্যয়বহুল হতে পারে) যখন আমরা অসঙ্গতি সনাক্তকরণ এবং শ্রেণীবিভাগের জন্য প্রশিক্ষিত মডেল ব্যবহার করি। তবুও, এটি প্রশিক্ষণ পর্বের সময় ব্যবহার করা যেতে পারে।
ধরা যাক প্রশিক্ষণের ডেটা জোড়ায় আসছে (xi, xi*)। উদাহরণস্বরূপ, কল্পনা করুন যে আমরা এক্স-রে চিত্রগুলিতে অসঙ্গতিগুলি সনাক্ত করার চেষ্টা করছি। আমাদের কাছে চিত্রটি এবং ডাক্তারের বর্ণনা উভয়ই রয়েছে। সাধারণত, একটি টেক্সট বিবরণ যথেষ্ট বেশি কিন্তু অতিরিক্ত সহায়তা প্রয়োজন। তারা কি মডেল প্রশিক্ষণের সময় ব্যবহার করা যেতে পারে কিন্তু শুধুমাত্র ছবি ব্যবহার করে ভবিষ্যদ্বাণী করতে পারে? সনাক্তকরণ উন্নত করতে এই অতিরিক্ত তথ্য ব্যবহার করা সম্ভব।
পূর্ববর্তী সূত্রে, আমাদের ξi আকারে একটি ত্রুটি রয়েছে। আসুন অনুমান করা যাক যে সুবিধাপ্রাপ্ত ডেটা এত ভাল যে এটি একটি ত্রুটির আকারের পূর্বাভাস দিতে পারে:
আমরা একজন বুদ্ধিমান শিক্ষক হিসাবে এটি সম্পর্কে চিন্তা করতে পারি যিনি প্রশিক্ষণের সময় বলেছিলেন যে আপনি এই মান দিয়ে ছোট ত্রুটি পেতে পারেননি। অন্যান্য, আরও মূল্যবান উদাহরণগুলিতে মনোনিবেশ করা যুক্তিসঙ্গত।
এখন, এই দানবের মতো সমীকরণটি লিখি:
এখানে γ হল স্ল্যাক ভেরিয়েবলের রৈখিক আনুমানিকতার জন্য একটি নিয়মিতকরণ পরামিতি। ζi হল ইনস্ট্রুমেন্টাল ভেরিয়েবল যা একটি "ইতিবাচক" অর্ধ-বিমানের অন্তর্গত সেই নিদর্শনগুলিকে শাস্তি হতে বাধা দেয়। মনে রাখবেন যে যদি γ অসীমতে যায়, তাহলে সমাধানটি SVDD-এর আসল সমাধানের কাছাকাছি।
Lagrange ফাংশনের সাথে জটিলতাগুলি এড়াতে, এই সমস্যার দ্বৈত রূপটি লিখুন:
এখানে আমরা স্কেলার পণ্য (φ* (xi* ) · φ*(xj* )) কে সংশ্লিষ্ট কার্নেল ফাংশন K* (xi*, xj*) দিয়ে প্রতিস্থাপন করি। শেষে, ডিসিশন ফাংশনটির মূল SVDD এর ক্ষেত্রে একই ফর্ম রয়েছে:
লক্ষ্য করুন যে মূল সমস্যার থেকে কিছুটা ভয়ঙ্কর হওয়া সত্ত্বেও, এই কাজটি একটি নির্দিষ্ট ধরণের অপ্টিমাইজেশান যাকে বলা হয় চতুর্মুখী অপ্টিমাইজেশান এবং লগারিদমিক বাধা ফাংশনের মতো স্ট্যান্ডার্ড পদ্ধতির মাধ্যমে সহজেই সমাধান করা যেতে পারে।
মূল SVDD পদ্ধতিটি একটি উচ্চ-মাত্রিক স্থানের স্বাভাবিক ডেটা পয়েন্টগুলির চারপাশে একটি সীমানা নির্মাণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, SVDD+ তত্ত্ব শ্রেণীবিভাগের নির্ভুলতা বাড়ানোর জন্য প্রশিক্ষণ পর্বের সময় বিশেষ সুবিধাপ্রাপ্ত তথ্যের ধারণার প্রবর্তন করে।
বিশেষাধিকারপ্রাপ্ত তথ্য, পরীক্ষার সময় উপলব্ধ নয়, অতিরিক্ত অন্তর্দৃষ্টি প্রদানের জন্য প্রশিক্ষণের সময় ব্যবহার করা যেতে পারে, মডেলের অসঙ্গতিগুলি সনাক্ত করার ক্ষমতা উন্নত করে। বিশেষ সুবিধাপ্রাপ্ত তথ্য অন্তর্ভুক্ত করার সাথে মূল SVDD অ্যালগরিদমের একটি পরিবর্তন জড়িত, যা এটিকে প্রশিক্ষণের সময় সম্পূরক ডেটা বিবেচনা করার অনুমতি দেয়, যেমন চিকিৎসা সংক্রান্ত অসঙ্গতি সনাক্তকরণে চিত্রগুলির সাথে পাঠ্য বিবরণ।
বিশেষ সুবিধাপ্রাপ্ত তথ্যের অন্তর্ভুক্তি একটি বুদ্ধিমান নির্দেশিকা হিসাবে তৈরি করা হয়েছে, মডেলের শিক্ষার উন্নতির জন্য মূল্যবান অন্তর্দৃষ্টি প্রদানকারী একজন সচেতন শিক্ষকের মতো। পরিবর্তিত SVDD+ ফর্মুলেশনে একটি চতুর্মুখী অপ্টিমাইজেশন টাস্ক জড়িত, যা লগারিদমিক বাধা ফাংশনের মতো স্ট্যান্ডার্ড পদ্ধতির মাধ্যমে সমাধানযোগ্য। সুবিধাপ্রাপ্ত তথ্যের অন্তর্ভুক্তির ফলে জটিলতা থাকা সত্ত্বেও, SVDD+ তত্ত্বের সিদ্ধান্তের কার্যকারিতাটি আসল SVDD-এর মতো একটি ফর্ম বজায় রাখে, যা ব্যবহারিক বাস্তবায়নের সুবিধা দেয়।
সারসংক্ষেপে, SVDD+ তত্ত্বটি প্রশিক্ষণ পর্বের সময় বিশেষ সুবিধাপ্রাপ্ত তথ্যের ব্যবহার করে অসঙ্গতি সনাক্তকরণের উন্নতির জন্য একটি প্রতিশ্রুতিশীল উপায় প্রদর্শন করে, চিত্র শ্রেণীবিভাগ এবং ম্যালওয়্যার সনাক্তকরণ সহ বিভিন্ন ক্ষেত্রে সম্ভাব্য অ্যাপ্লিকেশন সরবরাহ করে।