लेखक:
(1) पी आदित्य श्रीकर, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected]};
(2) साहिल वर्म, अमेज़न और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया {[email protected];}
(3) वरुण माधवन, भारतीय प्रौद्योगिकी संस्थान, खड़गपुर। अमेज़न में इंटर्नशिप के दौरान किया गया कार्य {[email protected]};
(4) अभिषेक प्रसाद, अमेज़न {[email protected]}.
सारणीबद्ध डेटा के लिए मशीन लर्निंग में ट्री-आधारित एल्गोरिदम का व्यापक रूप से उपयोग किया जाता है। निर्णय वृक्ष अक्ष-संरेखित हाइपर-प्लेन (हैस्टी एट अल., 2009) के आधार पर डेटा को पुनरावर्ती रूप से कई भागों में विभाजित करते हैं। रैंडम फ़ॉरेस्ट (RF) (ब्रेमन, 2001) और ग्रेडिएंट बूस्टेड डिसीजन ट्री (GBDT) (फ़्रीडमैन, 2001) सबसे अधिक इस्तेमाल किए जाने वाले ट्री-आधारित समूह हैं। RF डेटा के यादृच्छिक उपसमूहों पर कई निर्णय वृक्षों को फ़िट करता है और निर्णय वृक्षों की ओवरफ़िटिंग विशेषता को कम करने के लिए पूर्वानुमानों का औसत/मतदान करता है। GBDT, XGBoost (चेन और गेस्ट्रिन, 2016), और कैटबूस्ट (प्रोखोरेंकोवा एट अल., 2018) बूस्टेड समूह मॉडल हैं जो पिछले वृक्षों द्वारा की गई त्रुटियों को ठीक करने के लिए क्रमिक रूप से निर्णय वृक्षों का निर्माण करते हैं, जिससे गैर-रैखिक संबंधों वाले जटिल डेटासेट पर बेहतर प्रदर्शन होता है।
हाल ही में, सारणीबद्ध डेटा के लिए डीप लर्निंग मॉडल में बहुत रुचि रही है। कुछ विधियाँ निर्णय वृक्षों में उपयोग किए जाने वाले निर्णय कार्यों के विभेदनीय सन्निकटन प्रस्तुत करती हैं ताकि उन्हें विभेदनीय बनाया जा सके (हाज़िमेह एट अल., 2020; पोपोव एट अल., 2019)। ये विधियाँ कुछ समस्या कथनों के लिए शुद्ध वृक्ष आधारित समस्या से बेहतर प्रदर्शन करती हैं, हालाँकि, वे लगातार बेहतर नहीं होती हैं (गोरिश्नी एट अल., 2021)। अन्य विधियों ने सारणीबद्ध डेटा के लिए डीएल विधियों को अनुकूलित करने के लिए ध्यान तंत्र का उपयोग किया है (एरिक एट अल., 2019; हुआंग एट अल., 2020; गोरिश्नी एट अल., 2021; सोमेपल्ली एट अल., 2021; चेन एट अल., 2022)। टैबनेट (एरिक एट अल., 2019) एक विरल ध्यान तंत्र का प्रस्ताव करता है जिसे निर्णय वृक्षों के पुनरावर्ती विभाजन की नकल करने के लिए कई परतों में स्टैक किया जाता है। कई डोमेन (डेवलिन एट अल., 2019; डोसोवित्स्की एट अल., 2021; गोंग एट अल., 2021) में सेल्फ-अटेंशन ट्रांसफॉर्मर (वासवानी एट अल., 2017) की सफलता से प्रेरित होकर टैबट्रांसफॉर्मर (हुआंग एट अल., 2020), एफटी-ट्रांसफॉर्मर (गोरिश्नी एट अल., 2021) और सैंट (सोमपल्ली एट अल., 2021) जैसे तरीके प्रस्तावित किए गए। टैबट्रांसफॉर्मर सभी श्रेणीबद्ध चर को एक एकीकृत एम्बेडिंग स्पेस में एम्बेड करता है, और श्रेणीबद्ध एम्बेडिंग का एक वाक्य सेल्फ-अटेंशन ट्रांसफॉर्मर परतों के माध्यम से पारित किया जाता है। एफटी-ट्रांसफॉर्मर निरंतर एम्बेडिंग का उपयोग करके संख्यात्मक विशेषताओं पर ध्यान देकर इसे आगे बढ़ाता है। सैंट एक नए प्रकार के ध्यान का प्रस्ताव देकर एफटी-ट्रांसफॉर्मर पर निर्माण करता है जो एक बैच के नमूनों के बीच बातचीत को कैप्चर करता है। हालाँकि, SAINT हमारे समस्या कथन के लिए FT-ट्रांसफॉर्मर पर कोई लाभ प्रदान नहीं करता है, क्योंकि इंटरसैंपल ध्यान केवल तभी प्रभावी होता है जब नमूनों की संख्या की तुलना में आयामों की संख्या अधिक होती है, इस प्रकार हम RCT की तुलना SAINT से नहीं करते हैं (सोमेपल्ली एट अल., 2021)।