नमस्ते 👋  आज, आइए 7 एमएल रिपोज़ के बारे में जानें जिनका   (और जिनके बारे में आपने संभवतः कभी नहीं सुना होगा)! उपयोग शीर्ष 1% डेवलपर्स करते हैं    शीर्ष 1% को क्या परिभाषित करता है?  डेवलपर्स को रैंकिंग देना एक   समस्या है और हर कार्यप्रणाली में कुछ समस्याएं होती हैं। कठिन  उदाहरण के लिए, यदि आप डेवलपर्स को उनके द्वारा पायथन में लिखे गए कोड की पंक्तियों की संख्या के आधार पर रैंक करते हैं, तो आपको संभवतः शीर्ष पर कुछ बहुत अच्छे पायथन डेवलपर्स मिलेंगे।  हालाँकि, आपको ऐसे लोग मिल सकते हैं जिन्होंने अपने रिपॉजिटरी में बहुत सारे पायथन कोड कॉपी-पेस्ट किए हैं और वे उतने अच्छे नहीं हैं। 🙁  क्विन में, हमने   , लेकिन फिर भी 100% सही नहीं है! एक ऐसी कार्यप्रणाली विकसित की है जो हमें लगता है कि ज्यादातर मामलों में मजबूत है  इसे डेवरैंक कहा जाता है (हम इसकी गणना कैसे करते हैं, इसके बारे में आप   अधिक पढ़ सकते हैं)। यहां  इस आलेख में मेरे द्वारा उपयोग की गई शीर्ष 1% की धारणा DevRank पर आधारित है।  और हाँ, हम इसे हर दिन बेहतर बनाने के लिए इस पर काम करना जारी रखते हैं!  हमें कैसे पता चलेगा कि शीर्ष 1% किस रेपो का उपयोग करते हैं?  हम रिपोज़ को देखते हैं कि 99वें प्रतिशतक ने तारांकित किया है।  फिर हम रेपो को स्टार करने के लिए शीर्ष 1% डेवलपर्स बनाम निचले 50% डेवलपर्स की प्रवृत्ति की तुलना करते हैं, और स्वचालित रूप से सूची तैयार करते हैं।  दूसरे शब्दों में, ये  रिपॉजिटरी शीर्ष 1% डेवलपर्स द्वारा उपयोग किए जाने वाले छिपे हुए रत्न हैं और व्यापक डेवलपर समुदाय द्वारा अभी तक खोजे नहीं गए हैं।  चतुरCSV   मैं आपके अव्यवस्थित सीएसवी को संभालता हूं      हमारे कुछ दोस्तों द्वारा एक पैकेज विकसित किया गया है। कई एमएल पाइपलाइनों की शुरुआत में एक छोटी लेकिन आम समस्या, अच्छी तरह से हल हो गई। 🔮 सीएसवी फ़ाइलों को लोड करने की सामान्य समस्याओं से निपटने के लिए  क्लेवरसीएसवी अपने तर्कों में कुछ भी बताए बिना, विभिन्न सीएसवी बोलियों का पता लगाने और लोड करने में सक्षम है। सीएसवी फ़ाइलें इसे मूल रूप से निष्पादित करने के लिए आवश्यक जानकारी प्रदान नहीं करती हैं, इसलिए लाइब्रेरी को कुछ चतुर अनुमान की आवश्यकता होती है।  क्लीवरसीएसवी उन गन्दी सीएसवी फाइलों को भी संभाल सकता है, जिनकी फॉर्मेटिंग में गलतियाँ होती हैं।  पायथन लाइब्रेरी के अलावा, क्लीवरसीएसवी में कोड निर्माण, अन्वेषण और मानकीकरण के लिए एक कमांड लाइन इंटरफ़ेस भी शामिल है।   https://github.com/alan-turing-institute/CleverCSV  skll   सीएलआई के माध्यम से स्किकिट-लर्न के साथ एमएल वर्कफ़्लो को सुव्यवस्थित करें      ? अधिक स्वच्छ कोडिंग अनुभव के लिए इसके बजाय   का इंटरफ़ेस आज़माएँ। ⚡️ क्या आप एकाधिक एल्गोरिदम के साथ क्रॉस-मान्य परिणाम प्राप्त करने के लिए स्केलेरन में अंतहीन बॉयलरप्लेट लिख रहे हैं skll  Skll को व्यापक कोडिंग की आवश्यकता को कम करते हुए, स्किकिट-लर्न के साथ मशीन लर्निंग प्रयोगों को अधिक कुशलता से चलाने में सक्षम बनाने के लिए डिज़ाइन किया गया है।  प्रदान की गई प्रमुख उपयोगिता को   कहा जाता है, और यह कॉन्फ़िगरेशन फ़ाइल में निर्दिष्ट डेटासेट पर शिक्षार्थियों की एक श्रृंखला चलाता है। run_experiment  यह मौजूदा कोड के साथ सीधे एकीकरण के लिए एक पायथन एपीआई भी प्रदान करता है, जिसमें प्रारूप रूपांतरण और फीचर फ़ाइल संचालन के लिए उपकरण शामिल हैं।   https://github.com/EducationalTestingService/skll  बैंडिटपीएएम   लगभग रैखिक-समय में के-मेडोइड्स क्लस्टरिंग    यहां मौलिक एल्गोस पर वापस जाएं -   जो लगभग रैखिक समय में चल सकता है। 🎉 बैंडिटपीएएम एक नया के-मेडोइड्स (एक मजबूत "के-मीन्स") एल्गोरिदम है  पिछले एल्गोरिदम के अनुसार, O(n^2) समय के बजाय O(nlogn) समय में चलता है।  क्लस्टर केंद्र डेटा बिंदु हैं, और इसलिए सार्थक टिप्पणियों के अनुरूप हैं। के-मीन्स क्लस्टर का केंद्र अमान्य डेटा के अनुरूप हो सकता है; के-मेडोइड्स के साथ यह संभव नहीं है।  मनमानी दूरी मेट्रिक्स का उपयोग किया जा सकता है (उदाहरण के लिए एल 1, या हैमिंग दूरी के बारे में सोचें), कुशल के-मीन्स एल्गो आमतौर पर एल 2 दूरी तक सीमित होते हैं।  इस  से कार्यान्वित, BanditPAM उन डेटा वैज्ञानिकों के लिए आदर्श है जो समूह कार्य के लिए एक शक्तिशाली, स्केलेबल समाधान की तलाश में हैं, विशेष रूप से बड़े या जटिल डेटा से निपटने वाले लोगों के लिए। पेपर   https://github.com/motivari/BanditPAM  रिकॉर्डलिंकेज   रिकॉर्ड मिलानकर्ता और डुप्लिकेट डिटेक्टर की हर किसी को आवश्यकता होती है    क्या आपने कभी   , या जिनके गुण थोड़े अलग हैं?   से प्रेरित इस महान लाइब्रेरी का उपयोग करें, जिसे आधुनिक पायथन टूलींग के लिए फिर से बनाया गया है। 🛠️ अलग-अलग डेटासेट में उन उपयोगकर्ताओं का मिलान करने में संघर्ष किया है जिन्होंने अपना नाम गलत लिखा है फ्रीली एक्स्टेंसिबल बायोमेडिकल रिकॉर्ड लिंकेज (एफईबीआरएल)  numpy और पांडा का उपयोग करते हुए, शक्तिशाली FEBRL लाइब्रेरी का पायथन मूल कार्यान्वयन प्रदान करता है।  इसमें पर्यवेक्षित और पर्यवेक्षित दोनों दृष्टिकोण शामिल हैं।  पर्यवेक्षित एमएल दृष्टिकोण को सक्षम करने के लिए मिलान जोड़े उत्पन्न करने के लिए उपकरण शामिल हैं।  रिकॉर्ड लिंकेज उन डेटा वैज्ञानिकों के लिए आदर्श है जो रिकॉर्ड लिंकेज और डेटा डिडुप्लीकेशन कार्यों को करने के लिए लचीले, पायथन-आधारित समाधान की तलाश में हैं।   https://github.com/J535D165/recordlinkage  महाजाल   वेब पेज सामग्री निष्कर्षण पर एकमात्र ध्यान      . ड्रग्नेट एक पृष्ठ पर सामग्री और उपयोगकर्ता टिप्पणियों पर ध्यान केंद्रित करता है, और बाकी को अनदेखा कर देता है। यह हमारे खुरचनी-मित्रों के लिए उपयोगी है। 🕷️ वेबपेजों से सामग्री निकालना  ड्रगनेट का लक्ष्य विज्ञापन या नेविगेशन उपकरण जैसी अवांछित सामग्री को हटाकर वेब पेजों से कीवर्ड और वाक्यांश निकालना है।  HTML स्ट्रिंग्स से सामग्री निकालने के लिए टिप्पणियों को शामिल करने या बाहर करने के विकल्प के साथ सरल पायथन फ़ंक्शंस (   और   ) प्रदान करता है। extract_content extract_content_and_comments  अधिक उन्नत उपयोग के लिए एक   एक्सट्रैक्टर वर्ग मौजूद है, जो एक्सट्रैक्टर्स के अनुकूलन और प्रशिक्षण की अनुमति देता है। sklearn-style   https://github.com/dragnet-org/dragnet  रिक्त-छंद   नवीनतम स्टैनफोर्डएनएलपी अनुसंधान मॉडल सीधे स्पासी में    मानक एनएलपी कार्यों जैसे कि पार्ट-ऑफ-स्पीच टैगिंग, निर्भरता पार्सिंग और नामित इकाई पहचान में रुचि रखते हैं? 🤔  SpaCy-Stanza, SpaCy पाइपलाइनों में उपयोग किए जाने वाले Stanza (पूर्व में स्टैनफोर्डएनएलपी) लाइब्रेरी को लपेटता है।  पैकेज में चयनित भाषाओं के लिए नामित इकाई पहचान क्षमताएं शामिल हैं, जो प्राकृतिक भाषा प्रसंस्करण कार्यों में इसकी उपयोगिता का विस्तार करती हैं।  यह 68 भाषाओं का समर्थन करता है, जो इसे विभिन्न भाषाई अनुप्रयोगों के लिए बहुमुखी बनाता है।  पैकेज आपकी पाइपलाइन को अतिरिक्त स्पासी घटकों के साथ अनुकूलित करने की अनुमति देता है।   https://github.com/explosion/spacy-stanza  फर की छोटी गेंद   "ग्राफ नमूनाकरण कार्यों के लिए स्विस सेना चाकू"    क्या आपने कभी इतने बड़े डेटासेट के साथ काम किया है कि आपको उसका एक नमूना लेने की आवश्यकता पड़ी हो? सरल डेटा के लिए, यादृच्छिक नमूनाकरण एक छोटे नमूने में वितरण बनाए रखता है। हालाँकि, जटिल नेटवर्क में, स्नोबॉल नमूनाकरण -   - नेटवर्क संरचना को बेहतर ढंग से पकड़ते हैं। जहाँ आप प्रारंभिक उपयोगकर्ताओं का चयन करते हैं और उनके कनेक्शन शामिल करते हैं  इससे विश्लेषण में पूर्वाग्रह से बचने में मदद मिलती है. 🔦  अब, क्या आपके पास   (या तो एल्गोरिथम या कम्प्यूटेशनल कारणों से)? 👩‍💻 ग्राफ़-संरचित डेटा है और इसके नमूनों पर काम करने की ज़रूरत है  लिटिलबॉलोफ़र ग्राफ़ और नेटवर्क से नमूना लेने के लिए कई तरीकों की पेशकश करता है, जिसमें नोड-, एज- और अन्वेषण-नमूना शामिल है।  एकीकृत एप्लिकेशन सार्वजनिक इंटरफ़ेस के साथ डिज़ाइन किया गया है, जिससे उपयोगकर्ताओं के लिए गहन तकनीकी जानकारी के बिना जटिल नमूना एल्गोरिदम लागू करना आसान हो जाता है।   https://github.com/benedecrozemberczki/littleballoffur  मुझे आशा है कि ये खोजें आपके लिए मूल्यवान होंगी और अधिक मजबूत एमएल टूलकिट बनाने में मदद करेंगी! ⚒️  यदि आप ओपन सोर्स में प्रभावशाली प्रोजेक्ट बनाने के लिए इन उपकरणों का लाभ उठाने में रुचि रखते हैं, तो आपको पहले यह पता लगाना चाहिए कि   पर आपका वर्तमान देवरैंक क्या है और देखें कि यह आने वाले महीनों में कैसे विकसित होता है! क्वीन  अंत में, कृपया  इन परियोजनाओं को अभिनीत करके उनका समर्थन करने पर विचार करें। ⭐️  पुनश्च: हम उनसे संबद्ध नहीं हैं। हम बस यही सोचते हैं कि महान परियोजनाएँ महान मान्यता की हकदार हैं।    आपसे अगले हफ्ते मिलते हैं,  आपका हैकरनून दोस्त 💚  बपतिस्मा  यदि आप ओपन सोर्स में स्व-घोषित "सबसे अच्छे" सर्वर से जुड़ना चाहते हैं, तो आपको हमारे   जुड़ना चाहिए। हम ओपन सोर्स में आपकी यात्रा में आपकी सहायता के लिए यहां हैं। 🫶 डिसॉर्डर सर्वर से    भी प्रकाशित किया गया है. यहाँ

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Read My Stories

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

7 मशीन लर्निंग रिपोज़ जिनका शीर्ष 1% उपयोग करते हैं और नहीं चाहते कि आप उनके बारे में जानें

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

He/Him/Master of Discovery

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

He/Him/Master of Discovery

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps