paint-brush
গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন দ্বারা@procrustes
727 পড়া
727 পড়া

গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন

দ্বারা Procrustes Technologies
Procrustes Technologies HackerNoon profile picture

Procrustes Technologies

@procrustes

Procrustes' method aligns and adjusts, making data conform, with precision...

5 মিনিট read2025/01/27
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
bn-flagBN
এই গল্পটি বাংলায় পড়ুন!
en-flagEN
Read this story in the original language, English!
es-flagES
Lee esta historia en Español!
zh-flagZH
用繁體中文閱讀這個故事!
ja-flagJA
この物語を日本語で読んでください!
ro-flagRO
Citiți această poveste în limba română!
cs-flagCS
Přečtěte si tento příběh v češtině!
he-flagHE
קרא את הסיפור הזה בעברית!
so-flagSO
Sheekadan Af-Soomaali ku akhri!
rw-flagRW
Soma iyi nkuru muri Kinyarwanda!
si-flagSI
මේ කතාව සිංහලෙන් කියවන්න!
lo-flagLO
ອ່ານເລື່ອງນີ້ເປັນພາສາລາວ!
bg-flagBG
Прочетете тази история на български!
BN

অতিদীর্ঘ; পড়তে

গবেষকরা কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের জন্য ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং সুপ্ত পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করার জন্য একটি নতুন পদ্ধতি তৈরি করেছেন।
featured image - গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন
Procrustes Technologies HackerNoon profile picture
Procrustes Technologies

Procrustes Technologies

@procrustes

Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) সের্গেই কুচেরিয়াভস্কি, রসায়ন ও জীববিজ্ঞান বিভাগ, আলবার্গ বিশ্ববিদ্যালয় এবং একজন সংশ্লিষ্ট লেখক (svk@bio.aau.dk);

(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, বার্নাউল, 656023, রাশিয়া এবং অবদানকারী লেখক0 (szhilin@gmail.com)।

সম্পাদকের দ্রষ্টব্য: এটি একটি অধ্যয়নের 4 এর অংশ 1 যা সংখ্যাসূচক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির বিশদ বিবরণ দেয়৷ নীচে বাকি পড়ুন.

লিঙ্কের টেবিল

  • বিমূর্ত এবং 1 ভূমিকা
  • 2 পদ্ধতি
    • 2.1 একক মান পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
    • 2.2 PLS পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
  • 3 ফলাফল
    • 3.1 ডেটাসেট
    • 3.2 টেকেটর ডেটার ANN রিগ্রেশন
    • 3.3 হার্ট ডেটার ANN শ্রেণীবিভাগ
  • 4 আলোচনা
    • 5 উপসংহার এবং রেফারেন্স

বিমূর্ত

এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির প্রস্তাব করি। পদ্ধতিটি ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং প্রচ্ছন্ন পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করে। এটি মাঝারি থেকে উচ্চ ডিগ্রী সমনক্ষত্রতার সাথে ডেটাসেটের জন্য বিশেষভাবে কার্যকর, কারণ এটি প্রজন্মের জন্য এই সম্পত্তিটি সরাসরি ব্যবহার করে। পদ্ধতিটি সহজ, দ্রুত, এবং খুব কম প্যারামিটার রয়েছে, যা কাগজে দেখানো হয়েছে, নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। এটি বেশ কয়েকটি বাস্তব ডেটাসেটে পরীক্ষা করা হয়েছে; এখানে, আমরা দুটি ক্ষেত্রে বিশদ ফলাফলের প্রতিবেদন করি, কাছাকাছি ইনফ্রারেড স্পেকট্রার উপর ভিত্তি করে কিমা করা মাংসে প্রোটিনের পূর্বাভাস (সম্পূর্ণ সংখ্যাসূচক ডেটা সহ উচ্চ মাত্রার সমকোনতা) এবং করোনারি এনজিওগ্রাফির জন্য উল্লেখ করা রোগীদের বৈষম্য (মিশ্র ডেটা, উভয় সংখ্যাসূচক এবং শ্রেণীগত ভেরিয়েবল সহ, এবং মাঝারি সমসংখ্যা)। উভয় ক্ষেত্রেই, রিগ্রেশন এবং বৈষম্যের মডেলগুলি বিকাশের জন্য কৃত্রিম নিউরাল নেটওয়ার্কগুলি নিযুক্ত করা হয়েছিল। ফলাফল মডেলের কর্মক্ষমতা একটি স্পষ্ট উন্নতি দেখায়; এইভাবে মাংস প্রোটিনের ভবিষ্যদ্বাণীর জন্য, মডেলটিকে বর্ধিত ডেটার সাথে ফিট করার ফলে 1.5 থেকে 3 বার সেট করা স্বাধীন পরীক্ষার জন্য গণনা করা রুট গড় বর্গক্ষেত্র ত্রুটি হ্রাস পায়।


কীওয়ার্ড : ডেটা অগমেন্টেশন, কৃত্রিম নিউরাল নেটওয়ার্ক, প্রক্রস্টেস ক্রস-ভ্যালিডেশন, প্রচ্ছন্ন ভেরিয়েবল, সমকোনতা

1 ভূমিকা

আধুনিক মেশিন লার্নিং পদ্ধতি যা উচ্চ জটিলতার মডেলের উপর নির্ভর করে, যেমন কৃত্রিম নিউরাল নেটওয়ার্ক (ANN), মডেলগুলিকে প্রশিক্ষণ এবং অপ্টিমাইজ করার জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন। অপর্যাপ্ত প্রশিক্ষণের ডেটা প্রায়শই ওভারফিটিং সমস্যার দিকে পরিচালিত করে, কারণ টিউন করার জন্য মডেল হাইপারপ্যারামিটারের সংখ্যা ডেটাসেটে স্বাধীনতার ডিগ্রির সংখ্যার চেয়ে অনেক বেশি।


এই ক্ষেত্রে আরেকটি সাধারণ সমস্যা হল প্রজননযোগ্যতার অভাব কারণ প্রাথমিক মডেলের পরামিতিগুলির এলোমেলো নির্বাচন এবং তাদের অপ্টিমাইজেশনের স্টোকাস্টিক প্রকৃতির প্রেক্ষিতে ANN প্রশিক্ষণ পদ্ধতিটি নির্ধারক নয়। ফলস্বরূপ, এটি কখনই একই পরামিতি এবং কর্মক্ষমতা সহ একটি মডেলের দিকে পরিচালিত করে না, কারণ বিভিন্ন প্রশিক্ষণ পরীক্ষার ফলে বিভিন্ন মডেল হতে পারে। প্রশিক্ষণ সেট খুব ছোট হলে এই পরিবর্তনশীলতা বড় হয়ে যায়।


পরীক্ষামূলক ডেটা ফিট করার ক্ষেত্রে এই সমস্যাটি বিশেষভাবে জরুরী, কারণ অনেক পরীক্ষামূলক ট্রায়াল চালানো প্রায়ই ব্যয়বহুল এবং সময়সাপেক্ষ, সঠিক প্রশিক্ষণ এবং অপ্টিমাইজেশনের জন্য প্রয়োজনীয় হাজার হাজার পরিমাপ সংগ্রহ করা সহজভাবে অসম্ভব। চিকিৎসা গবেষণায় অনুমতি সংক্রান্ত কাগজপত্রের মতো অন্যান্য বাধাও থাকতে পারে।


অপর্যাপ্ত প্রশিক্ষণ ডেটার সমস্যা কাটিয়ে ওঠার একটি উপায় হল নতুন ডেটা পয়েন্ট অনুকরণ করে বা বিদ্যমানগুলিকে ছোট পরিবর্তন করে এটিকে কৃত্রিমভাবে বৃদ্ধি করা। এই কৌশলটিকে প্রায়ই "ডেটা অগমেন্টেশন" হিসাবে উল্লেখ করা হয়। ডেটা অগমেন্টেশন ইমেজ বিশ্লেষণ এবং শ্রেণীবিভাগে বিশেষভাবে দক্ষ বলে প্রমাণিত হয়েছে, গবেষণার একটি বৃহৎ অংশ উভয় বহুমুখী বর্ধন পদ্ধতি [1] [2], [3] এবং নির্দিষ্ট ক্ষেত্রে বিশেষভাবে কার্যকরী পদ্ধতিগুলি রিপোর্ট করছে [4] [5] . টাইম সিরিজ ডেটার জন্য পরিবর্ধন পদ্ধতিগুলিও তুলনামূলকভাবে ভালভাবে বিকশিত হয়েছে [6]।


যাইহোক, এমন দক্ষ পদ্ধতির অভাব রয়েছে যা সাংখ্যিক ডেটাসেটের জন্য মাঝারি থেকে উচ্চ মাত্রার সমন্বিততার সাথে শালীন ডেটা বৃদ্ধি প্রদান করতে পারে। এই ধরনের ডেটাসেটগুলি পরীক্ষামূলক গবেষণায় বিস্তৃত, যার মধ্যে রয়েছে বিভিন্ন ধরনের স্পেকট্রোস্কোপিক ডেটা, জিনোম সিকোয়েন্সিংয়ের ফলাফল (যেমন, 16S RNA) এবং আরও অনেক কিছু। অনেক ট্যাবুলেড ডেটাসেট অভ্যন্তরীণ কাঠামোও প্রদর্শন করে যেখানে ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত। এই জাতীয় ডেটা বৃদ্ধির জন্য বর্তমানে উপলব্ধ পদ্ধতিগুলি বেশিরভাগই বিদ্যমান পরিমাপের সাথে বিভিন্ন ধরণের শব্দ [7] যোগ করার উপর নির্ভর করে, যা সর্বদা যথেষ্ট নয়। এছাড়াও প্রতিশ্রুতিশীল পদ্ধতি রয়েছে যেগুলি তাদের সুপ্ত পরিবর্তনশীল স্থান [8] থেকে র্যান্ডম নমুনা দ্বারা পরিবর্তনশীল অটোএনকোডারগুলিকে ব্যবহার করে, বা জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলির উপর ভিত্তি করে পদ্ধতিগুলি [4]। নেতিবাচক দিকগুলি হল যে উভয় পদ্ধতির জন্য ডেটা বৃদ্ধির জন্য একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক মডেল তৈরি এবং টিউন করা প্রয়োজন এবং তাই একটি পুঙ্খানুপুঙ্খ এবং সম্পদের চাহিদা অপ্টিমাইজেশন প্রক্রিয়া এবং একটি অপেক্ষাকৃত বড় প্রাথমিক প্রশিক্ষণ সেট প্রয়োজন।


এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র সমরেখার ডেটাসেটগুলিকে বৃদ্ধি করার জন্য একটি সহজ, দ্রুত, বহুমুখী, তবুও দক্ষ পদ্ধতির প্রস্তাব করি। পদ্ধতিটি এমন একটি পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে যা প্রাথমিকভাবে অন্য উদ্দেশ্যে তৈরি করা হয়েছিল, বিশেষ করে বৈধতা সেট তৈরি করার জন্য, এবং তাই এটি প্রক্রস্টেস ক্রস-ভ্যালিডেশন [৯] [১০] নামে পরিচিত। যাইহোক, এই কাগজে প্রদর্শিত হিসাবে, এটি কার্যকরভাবে ডেটা বৃদ্ধি সমস্যা সমাধান করে, যার ফলে উল্লেখযোগ্যভাবে উন্নত ভবিষ্যদ্বাণী বা শ্রেণীবিভাগ কর্মক্ষমতা সহ মডেলগুলি তৈরি হয়।


আমাদের পদ্ধতিটি প্রজন্মের পদ্ধতিতে সরাসরি সমন্বিততা লাভ করে। এটি প্রচ্ছন্ন ভেরিয়েবলের একটি সেটের সাথে প্রশিক্ষণের ডেটা ফিট করে এবং তারপরে ভেরিয়েবলের অভিযোজনে বৈচিত্রগুলি পরিমাপ করতে ক্রস-ভ্যালিডেশন রিস্যাম্পলিং নিযুক্ত করে। এই বৈচিত্রটি স্যাম্পলিং ত্রুটি হিসাবে প্রশিক্ষণ সেটে প্রবর্তিত হয়, ফলে ডেটা পয়েন্টগুলির একটি নতুন সেট তৈরি হয়।


দুটি ফিটিং মডেল নিযুক্ত করা যেতে পারে — একক মান পচন (SVD) এবং আংশিক সর্বনিম্ন বর্গক্ষেত্র (PLS) পচন। ফিটিং মডেলের পছন্দ ব্যবহারকারীকে কোভেরিয়েন্স স্ট্রাকচারের একটি অংশকে অগ্রাধিকার দিতে দেয়, যা নতুন ডেটা তৈরির জন্য ব্যবহার করা হবে।


উভয় ফিটিং মডেলের দুটি পরামিতি রয়েছে — সুপ্ত ভেরিয়েবলের সংখ্যা এবং ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এর জন্য ব্যবহৃত সেগমেন্টের সংখ্যা। পরীক্ষাগুলি দেখায় যে পরামিতিগুলির নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। প্রশিক্ষণ সেট মানগুলির পদ্ধতিগত পরিবর্তনগুলি ক্যাপচার করার জন্য যথেষ্ট পরিমাণে প্রচ্ছন্ন ভেরিয়েবলের সংখ্যা সমানভাবে ভালভাবে কাজ করে। পাশাপাশি তিনটি থেকে শুরু করে যেকোন সংখ্যক সেগমেন্ট।


প্রস্তাবিত পদ্ধতিটি বহুমুখী এবং সম্পূর্ণ সাংখ্যিক ডেটার পাশাপাশি সারণীকৃত ডেটাতে প্রয়োগ করা যেতে পারে যেখানে এক বা একাধিক ভেরিয়েবল গুণগত। এটি আরেকটি দৃষ্টিভঙ্গি খোলে, যথা ডেটা মকিং, যা উপযোগী হতে পারে, যেমন, উচ্চ লোড সফ্টওয়্যার সিস্টেমের পরীক্ষার জন্য, যদিও আমরা এখানে এই দিকটি বিবেচনা করি না।


কাগজটি পদ্ধতির তাত্ত্বিক ভিত্তি বর্ণনা করে এবং বিভিন্ন প্রকৃতির দুটি ডেটাসেটের উপর ভিত্তি করে এর ব্যবহারিক প্রয়োগ এবং কর্মক্ষমতা চিত্রিত করে। বাস্তব-বিশ্বের পরিস্থিতিতে বিভিন্ন ডেটাসেটে কীভাবে পদ্ধতিটি কার্যকরভাবে প্রয়োগ করা যেতে পারে তার বিস্তৃত বিবরণ প্রদান করে।


আমরা পাইথন, আর, ম্যাটল্যাব এবং জাভাস্ক্রিপ্ট সহ বেশ কয়েকটি প্রোগ্রামিং ভাষায় পদ্ধতিটি প্রয়োগ করেছি এবং সমস্ত বাস্তবায়ন গিটহাব সংগ্রহস্থলে (https://github.com/svkucheryavski/pcv) অবাধে উপলব্ধ। উপরন্তু, আমরা একটি অনলাইন সংস্করণ সরবরাহ করি যেখানে কেউ সরাসরি ব্রাউজারে (https://mda.tools/pcv) নতুন ডেটা পয়েন্ট তৈরি করতে পারে।


এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Procrustes Technologies HackerNoon profile picture
Procrustes Technologies@procrustes
Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD