नमस्ते 👋 आज, आइए 7 एमएल रिपोज़ के बारे में जानें जिनका (और जिनके बारे में आपने संभवतः कभी नहीं सुना होगा)! उपयोग शीर्ष 1% डेवलपर्स करते हैं शीर्ष 1% को क्या परिभाषित करता है? डेवलपर्स को रैंकिंग देना एक समस्या है और हर कार्यप्रणाली में कुछ समस्याएं होती हैं। कठिन उदाहरण के लिए, यदि आप डेवलपर्स को उनके द्वारा पायथन में लिखे गए कोड की पंक्तियों की संख्या के आधार पर रैंक करते हैं, तो आपको संभवतः शीर्ष पर कुछ बहुत अच्छे पायथन डेवलपर्स मिलेंगे। हालाँकि, आपको ऐसे लोग मिल सकते हैं जिन्होंने अपने रिपॉजिटरी में बहुत सारे पायथन कोड कॉपी-पेस्ट किए हैं और वे उतने अच्छे नहीं हैं। 🙁 क्विन में, हमने , लेकिन फिर भी 100% सही नहीं है! एक ऐसी कार्यप्रणाली विकसित की है जो हमें लगता है कि ज्यादातर मामलों में मजबूत है इसे डेवरैंक कहा जाता है (हम इसकी गणना कैसे करते हैं, इसके बारे में आप अधिक पढ़ सकते हैं)। यहां इस आलेख में मेरे द्वारा उपयोग की गई शीर्ष 1% की धारणा DevRank पर आधारित है। और हाँ, हम इसे हर दिन बेहतर बनाने के लिए इस पर काम करना जारी रखते हैं! हमें कैसे पता चलेगा कि शीर्ष 1% किस रेपो का उपयोग करते हैं? हम रिपोज़ को देखते हैं कि 99वें प्रतिशतक ने तारांकित किया है। फिर हम रेपो को स्टार करने के लिए शीर्ष 1% डेवलपर्स बनाम निचले 50% डेवलपर्स की प्रवृत्ति की तुलना करते हैं, और स्वचालित रूप से सूची तैयार करते हैं। दूसरे शब्दों में, ये रिपॉजिटरी शीर्ष 1% डेवलपर्स द्वारा उपयोग किए जाने वाले छिपे हुए रत्न हैं और व्यापक डेवलपर समुदाय द्वारा अभी तक खोजे नहीं गए हैं। चतुरCSV मैं आपके अव्यवस्थित सीएसवी को संभालता हूं हमारे कुछ दोस्तों द्वारा एक पैकेज विकसित किया गया है। कई एमएल पाइपलाइनों की शुरुआत में एक छोटी लेकिन आम समस्या, अच्छी तरह से हल हो गई। 🔮 सीएसवी फ़ाइलों को लोड करने की सामान्य समस्याओं से निपटने के लिए क्लेवरसीएसवी अपने तर्कों में कुछ भी बताए बिना, विभिन्न सीएसवी बोलियों का पता लगाने और लोड करने में सक्षम है। सीएसवी फ़ाइलें इसे मूल रूप से निष्पादित करने के लिए आवश्यक जानकारी प्रदान नहीं करती हैं, इसलिए लाइब्रेरी को कुछ चतुर अनुमान की आवश्यकता होती है। क्लीवरसीएसवी उन गन्दी सीएसवी फाइलों को भी संभाल सकता है, जिनकी फॉर्मेटिंग में गलतियाँ होती हैं। पायथन लाइब्रेरी के अलावा, क्लीवरसीएसवी में कोड निर्माण, अन्वेषण और मानकीकरण के लिए एक कमांड लाइन इंटरफ़ेस भी शामिल है। https://github.com/alan-turing-institute/CleverCSV skll सीएलआई के माध्यम से स्किकिट-लर्न के साथ एमएल वर्कफ़्लो को सुव्यवस्थित करें ? अधिक स्वच्छ कोडिंग अनुभव के लिए इसके बजाय का इंटरफ़ेस आज़माएँ। ⚡️ क्या आप एकाधिक एल्गोरिदम के साथ क्रॉस-मान्य परिणाम प्राप्त करने के लिए स्केलेरन में अंतहीन बॉयलरप्लेट लिख रहे हैं skll Skll को व्यापक कोडिंग की आवश्यकता को कम करते हुए, स्किकिट-लर्न के साथ मशीन लर्निंग प्रयोगों को अधिक कुशलता से चलाने में सक्षम बनाने के लिए डिज़ाइन किया गया है। प्रदान की गई प्रमुख उपयोगिता को कहा जाता है, और यह कॉन्फ़िगरेशन फ़ाइल में निर्दिष्ट डेटासेट पर शिक्षार्थियों की एक श्रृंखला चलाता है। run_experiment यह मौजूदा कोड के साथ सीधे एकीकरण के लिए एक पायथन एपीआई भी प्रदान करता है, जिसमें प्रारूप रूपांतरण और फीचर फ़ाइल संचालन के लिए उपकरण शामिल हैं। https://github.com/EducationalTestingService/skll बैंडिटपीएएम लगभग रैखिक-समय में के-मेडोइड्स क्लस्टरिंग यहां मौलिक एल्गोस पर वापस जाएं - जो लगभग रैखिक समय में चल सकता है। 🎉 बैंडिटपीएएम एक नया के-मेडोइड्स (एक मजबूत "के-मीन्स") एल्गोरिदम है पिछले एल्गोरिदम के अनुसार, O(n^2) समय के बजाय O(nlogn) समय में चलता है। क्लस्टर केंद्र डेटा बिंदु हैं, और इसलिए सार्थक टिप्पणियों के अनुरूप हैं। के-मीन्स क्लस्टर का केंद्र अमान्य डेटा के अनुरूप हो सकता है; के-मेडोइड्स के साथ यह संभव नहीं है। मनमानी दूरी मेट्रिक्स का उपयोग किया जा सकता है (उदाहरण के लिए एल 1, या हैमिंग दूरी के बारे में सोचें), कुशल के-मीन्स एल्गो आमतौर पर एल 2 दूरी तक सीमित होते हैं। इस से कार्यान्वित, BanditPAM उन डेटा वैज्ञानिकों के लिए आदर्श है जो समूह कार्य के लिए एक शक्तिशाली, स्केलेबल समाधान की तलाश में हैं, विशेष रूप से बड़े या जटिल डेटा से निपटने वाले लोगों के लिए। पेपर https://github.com/motivari/BanditPAM रिकॉर्डलिंकेज रिकॉर्ड मिलानकर्ता और डुप्लिकेट डिटेक्टर की हर किसी को आवश्यकता होती है क्या आपने कभी , या जिनके गुण थोड़े अलग हैं? से प्रेरित इस महान लाइब्रेरी का उपयोग करें, जिसे आधुनिक पायथन टूलींग के लिए फिर से बनाया गया है। 🛠️ अलग-अलग डेटासेट में उन उपयोगकर्ताओं का मिलान करने में संघर्ष किया है जिन्होंने अपना नाम गलत लिखा है फ्रीली एक्स्टेंसिबल बायोमेडिकल रिकॉर्ड लिंकेज (एफईबीआरएल) numpy और पांडा का उपयोग करते हुए, शक्तिशाली FEBRL लाइब्रेरी का पायथन मूल कार्यान्वयन प्रदान करता है। इसमें पर्यवेक्षित और पर्यवेक्षित दोनों दृष्टिकोण शामिल हैं। पर्यवेक्षित एमएल दृष्टिकोण को सक्षम करने के लिए मिलान जोड़े उत्पन्न करने के लिए उपकरण शामिल हैं। रिकॉर्ड लिंकेज उन डेटा वैज्ञानिकों के लिए आदर्श है जो रिकॉर्ड लिंकेज और डेटा डिडुप्लीकेशन कार्यों को करने के लिए लचीले, पायथन-आधारित समाधान की तलाश में हैं। https://github.com/J535D165/recordlinkage महाजाल वेब पेज सामग्री निष्कर्षण पर एकमात्र ध्यान . ड्रग्नेट एक पृष्ठ पर सामग्री और उपयोगकर्ता टिप्पणियों पर ध्यान केंद्रित करता है, और बाकी को अनदेखा कर देता है। यह हमारे खुरचनी-मित्रों के लिए उपयोगी है। 🕷️ वेबपेजों से सामग्री निकालना ड्रगनेट का लक्ष्य विज्ञापन या नेविगेशन उपकरण जैसी अवांछित सामग्री को हटाकर वेब पेजों से कीवर्ड और वाक्यांश निकालना है। HTML स्ट्रिंग्स से सामग्री निकालने के लिए टिप्पणियों को शामिल करने या बाहर करने के विकल्प के साथ सरल पायथन फ़ंक्शंस ( और ) प्रदान करता है। extract_content extract_content_and_comments अधिक उन्नत उपयोग के लिए एक एक्सट्रैक्टर वर्ग मौजूद है, जो एक्सट्रैक्टर्स के अनुकूलन और प्रशिक्षण की अनुमति देता है। sklearn-style https://github.com/dragnet-org/dragnet रिक्त-छंद नवीनतम स्टैनफोर्डएनएलपी अनुसंधान मॉडल सीधे स्पासी में मानक एनएलपी कार्यों जैसे कि पार्ट-ऑफ-स्पीच टैगिंग, निर्भरता पार्सिंग और नामित इकाई पहचान में रुचि रखते हैं? 🤔 SpaCy-Stanza, SpaCy पाइपलाइनों में उपयोग किए जाने वाले Stanza (पूर्व में स्टैनफोर्डएनएलपी) लाइब्रेरी को लपेटता है। पैकेज में चयनित भाषाओं के लिए नामित इकाई पहचान क्षमताएं शामिल हैं, जो प्राकृतिक भाषा प्रसंस्करण कार्यों में इसकी उपयोगिता का विस्तार करती हैं। यह 68 भाषाओं का समर्थन करता है, जो इसे विभिन्न भाषाई अनुप्रयोगों के लिए बहुमुखी बनाता है। पैकेज आपकी पाइपलाइन को अतिरिक्त स्पासी घटकों के साथ अनुकूलित करने की अनुमति देता है। https://github.com/explosion/spacy-stanza फर की छोटी गेंद "ग्राफ नमूनाकरण कार्यों के लिए स्विस सेना चाकू" क्या आपने कभी इतने बड़े डेटासेट के साथ काम किया है कि आपको उसका एक नमूना लेने की आवश्यकता पड़ी हो? सरल डेटा के लिए, यादृच्छिक नमूनाकरण एक छोटे नमूने में वितरण बनाए रखता है। हालाँकि, जटिल नेटवर्क में, स्नोबॉल नमूनाकरण - - नेटवर्क संरचना को बेहतर ढंग से पकड़ते हैं। जहाँ आप प्रारंभिक उपयोगकर्ताओं का चयन करते हैं और उनके कनेक्शन शामिल करते हैं इससे विश्लेषण में पूर्वाग्रह से बचने में मदद मिलती है. 🔦 अब, क्या आपके पास (या तो एल्गोरिथम या कम्प्यूटेशनल कारणों से)? 👩💻 ग्राफ़-संरचित डेटा है और इसके नमूनों पर काम करने की ज़रूरत है लिटिलबॉलोफ़र ग्राफ़ और नेटवर्क से नमूना लेने के लिए कई तरीकों की पेशकश करता है, जिसमें नोड-, एज- और अन्वेषण-नमूना शामिल है। एकीकृत एप्लिकेशन सार्वजनिक इंटरफ़ेस के साथ डिज़ाइन किया गया है, जिससे उपयोगकर्ताओं के लिए गहन तकनीकी जानकारी के बिना जटिल नमूना एल्गोरिदम लागू करना आसान हो जाता है। https://github.com/benedecrozemberczki/littleballoffur मुझे आशा है कि ये खोजें आपके लिए मूल्यवान होंगी और अधिक मजबूत एमएल टूलकिट बनाने में मदद करेंगी! ⚒️ यदि आप ओपन सोर्स में प्रभावशाली प्रोजेक्ट बनाने के लिए इन उपकरणों का लाभ उठाने में रुचि रखते हैं, तो आपको पहले यह पता लगाना चाहिए कि पर आपका वर्तमान देवरैंक क्या है और देखें कि यह आने वाले महीनों में कैसे विकसित होता है! क्वीन अंत में, कृपया इन परियोजनाओं को अभिनीत करके उनका समर्थन करने पर विचार करें। ⭐️ पुनश्च: हम उनसे संबद्ध नहीं हैं। हम बस यही सोचते हैं कि महान परियोजनाएँ महान मान्यता की हकदार हैं। आपसे अगले हफ्ते मिलते हैं, आपका हैकरनून दोस्त 💚 बपतिस्मा यदि आप ओपन सोर्स में स्व-घोषित "सबसे अच्छे" सर्वर से जुड़ना चाहते हैं, तो आपको हमारे जुड़ना चाहिए। हम ओपन सोर्स में आपकी यात्रा में आपकी सहायता के लिए यहां हैं। 🫶 डिसॉर्डर सर्वर से भी प्रकाशित किया गया है. यहाँ