Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
লেখক:
(1) সের্গেই কুচেরিয়াভস্কি, রসায়ন ও জীববিজ্ঞান বিভাগ, আলবার্গ বিশ্ববিদ্যালয় এবং একজন সংশ্লিষ্ট লেখক (svk@bio.aau.dk);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, বার্নাউল, 656023, রাশিয়া এবং অবদানকারী লেখক0 (szhilin@gmail.com)।
সম্পাদকের দ্রষ্টব্য: এটি একটি অধ্যয়নের 4 এর অংশ 1 যা সংখ্যাসূচক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির বিশদ বিবরণ দেয়৷ নীচে বাকি পড়ুন.
এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির প্রস্তাব করি। পদ্ধতিটি ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং প্রচ্ছন্ন পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করে। এটি মাঝারি থেকে উচ্চ ডিগ্রী সমনক্ষত্রতার সাথে ডেটাসেটের জন্য বিশেষভাবে কার্যকর, কারণ এটি প্রজন্মের জন্য এই সম্পত্তিটি সরাসরি ব্যবহার করে। পদ্ধতিটি সহজ, দ্রুত, এবং খুব কম প্যারামিটার রয়েছে, যা কাগজে দেখানো হয়েছে, নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। এটি বেশ কয়েকটি বাস্তব ডেটাসেটে পরীক্ষা করা হয়েছে; এখানে, আমরা দুটি ক্ষেত্রে বিশদ ফলাফলের প্রতিবেদন করি, কাছাকাছি ইনফ্রারেড স্পেকট্রার উপর ভিত্তি করে কিমা করা মাংসে প্রোটিনের পূর্বাভাস (সম্পূর্ণ সংখ্যাসূচক ডেটা সহ উচ্চ মাত্রার সমকোনতা) এবং করোনারি এনজিওগ্রাফির জন্য উল্লেখ করা রোগীদের বৈষম্য (মিশ্র ডেটা, উভয় সংখ্যাসূচক এবং শ্রেণীগত ভেরিয়েবল সহ, এবং মাঝারি সমসংখ্যা)। উভয় ক্ষেত্রেই, রিগ্রেশন এবং বৈষম্যের মডেলগুলি বিকাশের জন্য কৃত্রিম নিউরাল নেটওয়ার্কগুলি নিযুক্ত করা হয়েছিল। ফলাফল মডেলের কর্মক্ষমতা একটি স্পষ্ট উন্নতি দেখায়; এইভাবে মাংস প্রোটিনের ভবিষ্যদ্বাণীর জন্য, মডেলটিকে বর্ধিত ডেটার সাথে ফিট করার ফলে 1.5 থেকে 3 বার সেট করা স্বাধীন পরীক্ষার জন্য গণনা করা রুট গড় বর্গক্ষেত্র ত্রুটি হ্রাস পায়।
কীওয়ার্ড : ডেটা অগমেন্টেশন, কৃত্রিম নিউরাল নেটওয়ার্ক, প্রক্রস্টেস ক্রস-ভ্যালিডেশন, প্রচ্ছন্ন ভেরিয়েবল, সমকোনতা
আধুনিক মেশিন লার্নিং পদ্ধতি যা উচ্চ জটিলতার মডেলের উপর নির্ভর করে, যেমন কৃত্রিম নিউরাল নেটওয়ার্ক (ANN), মডেলগুলিকে প্রশিক্ষণ এবং অপ্টিমাইজ করার জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন। অপর্যাপ্ত প্রশিক্ষণের ডেটা প্রায়শই ওভারফিটিং সমস্যার দিকে পরিচালিত করে, কারণ টিউন করার জন্য মডেল হাইপারপ্যারামিটারের সংখ্যা ডেটাসেটে স্বাধীনতার ডিগ্রির সংখ্যার চেয়ে অনেক বেশি।
এই ক্ষেত্রে আরেকটি সাধারণ সমস্যা হল প্রজননযোগ্যতার অভাব কারণ প্রাথমিক মডেলের পরামিতিগুলির এলোমেলো নির্বাচন এবং তাদের অপ্টিমাইজেশনের স্টোকাস্টিক প্রকৃতির প্রেক্ষিতে ANN প্রশিক্ষণ পদ্ধতিটি নির্ধারক নয়। ফলস্বরূপ, এটি কখনই একই পরামিতি এবং কর্মক্ষমতা সহ একটি মডেলের দিকে পরিচালিত করে না, কারণ বিভিন্ন প্রশিক্ষণ পরীক্ষার ফলে বিভিন্ন মডেল হতে পারে। প্রশিক্ষণ সেট খুব ছোট হলে এই পরিবর্তনশীলতা বড় হয়ে যায়।
পরীক্ষামূলক ডেটা ফিট করার ক্ষেত্রে এই সমস্যাটি বিশেষভাবে জরুরী, কারণ অনেক পরীক্ষামূলক ট্রায়াল চালানো প্রায়ই ব্যয়বহুল এবং সময়সাপেক্ষ, সঠিক প্রশিক্ষণ এবং অপ্টিমাইজেশনের জন্য প্রয়োজনীয় হাজার হাজার পরিমাপ সংগ্রহ করা সহজভাবে অসম্ভব। চিকিৎসা গবেষণায় অনুমতি সংক্রান্ত কাগজপত্রের মতো অন্যান্য বাধাও থাকতে পারে।
অপর্যাপ্ত প্রশিক্ষণ ডেটার সমস্যা কাটিয়ে ওঠার একটি উপায় হল নতুন ডেটা পয়েন্ট অনুকরণ করে বা বিদ্যমানগুলিকে ছোট পরিবর্তন করে এটিকে কৃত্রিমভাবে বৃদ্ধি করা। এই কৌশলটিকে প্রায়ই "ডেটা অগমেন্টেশন" হিসাবে উল্লেখ করা হয়। ডেটা অগমেন্টেশন ইমেজ বিশ্লেষণ এবং শ্রেণীবিভাগে বিশেষভাবে দক্ষ বলে প্রমাণিত হয়েছে, গবেষণার একটি বৃহৎ অংশ উভয় বহুমুখী বর্ধন পদ্ধতি [1] [2], [3] এবং নির্দিষ্ট ক্ষেত্রে বিশেষভাবে কার্যকরী পদ্ধতিগুলি রিপোর্ট করছে [4] [5] . টাইম সিরিজ ডেটার জন্য পরিবর্ধন পদ্ধতিগুলিও তুলনামূলকভাবে ভালভাবে বিকশিত হয়েছে [6]।
যাইহোক, এমন দক্ষ পদ্ধতির অভাব রয়েছে যা সাংখ্যিক ডেটাসেটের জন্য মাঝারি থেকে উচ্চ মাত্রার সমন্বিততার সাথে শালীন ডেটা বৃদ্ধি প্রদান করতে পারে। এই ধরনের ডেটাসেটগুলি পরীক্ষামূলক গবেষণায় বিস্তৃত, যার মধ্যে রয়েছে বিভিন্ন ধরনের স্পেকট্রোস্কোপিক ডেটা, জিনোম সিকোয়েন্সিংয়ের ফলাফল (যেমন, 16S RNA) এবং আরও অনেক কিছু। অনেক ট্যাবুলেড ডেটাসেট অভ্যন্তরীণ কাঠামোও প্রদর্শন করে যেখানে ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত। এই জাতীয় ডেটা বৃদ্ধির জন্য বর্তমানে উপলব্ধ পদ্ধতিগুলি বেশিরভাগই বিদ্যমান পরিমাপের সাথে বিভিন্ন ধরণের শব্দ [7] যোগ করার উপর নির্ভর করে, যা সর্বদা যথেষ্ট নয়। এছাড়াও প্রতিশ্রুতিশীল পদ্ধতি রয়েছে যেগুলি তাদের সুপ্ত পরিবর্তনশীল স্থান [8] থেকে র্যান্ডম নমুনা দ্বারা পরিবর্তনশীল অটোএনকোডারগুলিকে ব্যবহার করে, বা জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলির উপর ভিত্তি করে পদ্ধতিগুলি [4]। নেতিবাচক দিকগুলি হল যে উভয় পদ্ধতির জন্য ডেটা বৃদ্ধির জন্য একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক মডেল তৈরি এবং টিউন করা প্রয়োজন এবং তাই একটি পুঙ্খানুপুঙ্খ এবং সম্পদের চাহিদা অপ্টিমাইজেশন প্রক্রিয়া এবং একটি অপেক্ষাকৃত বড় প্রাথমিক প্রশিক্ষণ সেট প্রয়োজন।
এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র সমরেখার ডেটাসেটগুলিকে বৃদ্ধি করার জন্য একটি সহজ, দ্রুত, বহুমুখী, তবুও দক্ষ পদ্ধতির প্রস্তাব করি। পদ্ধতিটি এমন একটি পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে যা প্রাথমিকভাবে অন্য উদ্দেশ্যে তৈরি করা হয়েছিল, বিশেষ করে বৈধতা সেট তৈরি করার জন্য, এবং তাই এটি প্রক্রস্টেস ক্রস-ভ্যালিডেশন [৯] [১০] নামে পরিচিত। যাইহোক, এই কাগজে প্রদর্শিত হিসাবে, এটি কার্যকরভাবে ডেটা বৃদ্ধি সমস্যা সমাধান করে, যার ফলে উল্লেখযোগ্যভাবে উন্নত ভবিষ্যদ্বাণী বা শ্রেণীবিভাগ কর্মক্ষমতা সহ মডেলগুলি তৈরি হয়।
আমাদের পদ্ধতিটি প্রজন্মের পদ্ধতিতে সরাসরি সমন্বিততা লাভ করে। এটি প্রচ্ছন্ন ভেরিয়েবলের একটি সেটের সাথে প্রশিক্ষণের ডেটা ফিট করে এবং তারপরে ভেরিয়েবলের অভিযোজনে বৈচিত্রগুলি পরিমাপ করতে ক্রস-ভ্যালিডেশন রিস্যাম্পলিং নিযুক্ত করে। এই বৈচিত্রটি স্যাম্পলিং ত্রুটি হিসাবে প্রশিক্ষণ সেটে প্রবর্তিত হয়, ফলে ডেটা পয়েন্টগুলির একটি নতুন সেট তৈরি হয়।
দুটি ফিটিং মডেল নিযুক্ত করা যেতে পারে — একক মান পচন (SVD) এবং আংশিক সর্বনিম্ন বর্গক্ষেত্র (PLS) পচন। ফিটিং মডেলের পছন্দ ব্যবহারকারীকে কোভেরিয়েন্স স্ট্রাকচারের একটি অংশকে অগ্রাধিকার দিতে দেয়, যা নতুন ডেটা তৈরির জন্য ব্যবহার করা হবে।
উভয় ফিটিং মডেলের দুটি পরামিতি রয়েছে — সুপ্ত ভেরিয়েবলের সংখ্যা এবং ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এর জন্য ব্যবহৃত সেগমেন্টের সংখ্যা। পরীক্ষাগুলি দেখায় যে পরামিতিগুলির নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। প্রশিক্ষণ সেট মানগুলির পদ্ধতিগত পরিবর্তনগুলি ক্যাপচার করার জন্য যথেষ্ট পরিমাণে প্রচ্ছন্ন ভেরিয়েবলের সংখ্যা সমানভাবে ভালভাবে কাজ করে। পাশাপাশি তিনটি থেকে শুরু করে যেকোন সংখ্যক সেগমেন্ট।
প্রস্তাবিত পদ্ধতিটি বহুমুখী এবং সম্পূর্ণ সাংখ্যিক ডেটার পাশাপাশি সারণীকৃত ডেটাতে প্রয়োগ করা যেতে পারে যেখানে এক বা একাধিক ভেরিয়েবল গুণগত। এটি আরেকটি দৃষ্টিভঙ্গি খোলে, যথা ডেটা মকিং, যা উপযোগী হতে পারে, যেমন, উচ্চ লোড সফ্টওয়্যার সিস্টেমের পরীক্ষার জন্য, যদিও আমরা এখানে এই দিকটি বিবেচনা করি না।
কাগজটি পদ্ধতির তাত্ত্বিক ভিত্তি বর্ণনা করে এবং বিভিন্ন প্রকৃতির দুটি ডেটাসেটের উপর ভিত্তি করে এর ব্যবহারিক প্রয়োগ এবং কর্মক্ষমতা চিত্রিত করে। বাস্তব-বিশ্বের পরিস্থিতিতে বিভিন্ন ডেটাসেটে কীভাবে পদ্ধতিটি কার্যকরভাবে প্রয়োগ করা যেতে পারে তার বিস্তৃত বিবরণ প্রদান করে।
আমরা পাইথন, আর, ম্যাটল্যাব এবং জাভাস্ক্রিপ্ট সহ বেশ কয়েকটি প্রোগ্রামিং ভাষায় পদ্ধতিটি প্রয়োগ করেছি এবং সমস্ত বাস্তবায়ন গিটহাব সংগ্রহস্থলে (https://github.com/svkucheryavski/pcv) অবাধে উপলব্ধ। উপরন্তু, আমরা একটি অনলাইন সংস্করণ সরবরাহ করি যেখানে কেউ সরাসরি ব্রাউজারে (https://mda.tools/pcv) নতুন ডেটা পয়েন্ট তৈরি করতে পারে।
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন | HackerNoon