Merhaba 👋 Bugün, (ve muhtemelen adını hiç duymadığınız) 7 ML deposuna dalalım! geliştiricilerin ilk %1'inin kullandığı En üstteki %1'i ne tanımlar? Geliştiricileri sıralamak bir sorundur ve her metodolojinin kendine özgü sorunları vardır. zor Örneğin, geliştiricileri Python'da yazdıkları kod satırı sayısına göre sıralarsanız muhtemelen oldukça iyi Python geliştiricilerinin en üst sıralarda yer aldığını görürsünüz. Ancak, depolarına çok sayıda Python kodunu kopyalayıp yapıştıran kişileri alabilirsiniz ve bunlar o kadar da iyi değildir. 🙁 Quine olarak ! çoğu durumda sağlam olduğunu düşündüğümüz ancak yine de %100 mükemmel olmayan bir metodoloji geliştirdik Buna DevRank denir (bunu nasıl hesapladığımız hakkında daha fazla bilgiyi bulabilirsiniz). burada Bu makalede kullandığım İlk %1 kavramı DevRank'a dayanmaktadır. Ve evet, her geçen gün daha iyi hale getirmek için bunun üzerinde çalışmaya devam ediyoruz! İlk %1'in hangi repoları kullandığını nasıl bileceğiz? 99. yüzdelik dilimin yıldız aldığı repolara bakıyoruz. Daha sonra, geliştiricilerin en üst %1'lik kesimi ile en alttaki %50'lik geliştiricilerin bir repoya yıldız ekleme eğilimlerini karşılaştırırız ve listeyi otomatik olarak oluştururuz. Başka bir deyişle, bu . depolar, geliştiricilerin en üst %1'lik kesimi tarafından kullanılan ve henüz daha geniş geliştirici topluluğu tarafından keşfedilmemiş gizli mücevherlerdir Akıllı CSV Dağınık CSV'lerinizle ben ilgileniyorum Bazı arkadaşlarımız tarafından geliştirilen bir paket. Birçok ML işlem hattının başlangıcındaki küçük ama yaygın bir sorun iyi bir şekilde çözüldü. 🔮 CSV dosyalarının yüklenmesinde sık karşılaşılan sıkıntı noktalarını gidermek için CleverCSV, argümanlarında herhangi bir şey söylenmesine gerek kalmadan çeşitli farklı CSV lehçelerini tespit edip yükleyebilir. CSV dosyaları, bunu yerel olarak gerçekleştirmek için gerekli bilgileri sağlamadığından, kitaplığın bazı akıllı çıkarımlara ihtiyacı vardır. CleverCSV, biçimlendirmesinde hatalar olan karmaşık CSV dosyalarını bile işleyebilir. CleverCSV, Python kütüphanesine ek olarak kod oluşturma, keşfetme ve standardizasyon için bir komut satırı arayüzü de içerir. https://github.com/alan-turing-institute/CleverCSV beceri CLI aracılığıyla scikit-learn ile makine öğrenimi iş akışlarını kolaylaştırın Birden fazla algoritmayla çapraz doğrulanmış sonuçlar elde etmek için ? Daha temiz bir kodlama deneyimi için arayüzünü deneyin. ⚡️ sklearn'de sonsuz standart metin mi yazıyorsunuz skll Skll, scikit-learn ile makine öğrenimi deneylerinin daha verimli bir şekilde yürütülmesini sağlamak ve kapsamlı kodlama ihtiyacını azaltmak için tasarlanmıştır. Sağlanan önde gelen yardımcı program olarak adlandırılır ve bir yapılandırma dosyasında belirtilen veri kümeleri üzerinde bir dizi öğrenciyi çalıştırır. run_experiment Ayrıca, format dönüştürme ve özellik dosyası işlemlerine yönelik araçlar da dahil olmak üzere mevcut kodla doğrudan entegrasyon için bir Python API'si sunar. https://github.com/EducationalTestingService/skll HaydutPAM Neredeyse Doğrusal Zamanda k-Medoids Kümelenmesi Burada temel algoritmalara dönelim - . 🎉 BanditPAM neredeyse doğrusal zamanda çalışabilen yeni bir k-medoids (sağlam bir "k-araçlar") algoritmasıdır Önceki algoritmalara göre O(n^2) zamanı yerine O(nlogn) zamanında çalışır. Küme merkezleri veri noktalarıdır ve dolayısıyla anlamlı gözlemlere karşılık gelir. Bir k-ortalama kümesinin merkezi geçersiz verilere karşılık gelebilir; k-medoids ile bu mümkün değildir. Keyfi mesafe ölçümleri kullanılabilir (örneğin L1 veya Hamming mesafesini düşünün), verimli k-ortalama algoritmaları genellikle L2 mesafesiyle sınırlıdır. Bu yola çıkılarak uygulanan BanditPAM, özellikle büyük veya karmaşık verilerle uğraşanlar olmak üzere grup çalışması için güçlü, ölçeklenebilir bir çözüm arayan veri bilimcileri için idealdir. belgeden https://github.com/motiwari/BanditPAM kayıt bağlantısı Herkesin ihtiyaç duyduğu kayıt eşleştirici ve kopya dedektörü mı? Modern Python araçları için yeniden oluşturulan ilham alan bu harika kitaplığı kullanın. 🛠️ Farklı veri kümelerinde adlarını yanlış yazan veya biraz farklı özelliklere sahip kullanıcıları eşleştirmede hiç zorlandınız Serbestçe Genişletilebilir Biyomedikal Kayıt Bağlantısından (FEBRL) Numpy ve pandalardan yararlanarak güçlü FEBRL kütüphanesinin Python yerel uygulamasını sağlar. Denetimli ve denetimsiz yaklaşımları içerir. Denetlenen makine öğrenimi yaklaşımlarını etkinleştirmek için eşleşen çiftler oluşturmaya yönelik araçlar içerir. RecordLinkage, kayıt bağlantısı ve veri tekilleştirme görevlerini gerçekleştirmek için esnek, Python tabanlı bir çözüm arayan veri bilimcileri için idealdir. https://github.com/J535D165/recordlinkage ağ Web sayfası içeriğinin çıkarılmasına odaklanılması . Dragnet bir sayfadaki içeriğe ve kullanıcı yorumlarına odaklanır ve gerisini göz ardı eder. Dışarıdaki kazıyıcı arkadaşlarımız için kullanışlı. 🕷️ Web sayfalarından içerik çıkarma Dragnet, reklam veya navigasyon ekipmanı gibi istenmeyen içerikleri kaldırarak web sayfalarından anahtar sözcükleri ve cümleleri çıkarmayı amaçlamaktadır. HTML dizelerinden içerik çıkarmak için yorumları dahil etme veya hariç tutma seçeneğiyle birlikte basit Python işlevleri ( ve ) sağlar. extract_content extract_content_and_comments Çıkarıcıların özelleştirilmesine ve eğitilmesine olanak tanıyan, daha gelişmiş kullanım için bir çıkarıcı sınıfı mevcuttur. sklearn-style https://github.com/dragnet-org/dragnet geniş kıta En yeni StanfordNLP araştırma modelleri doğrudan spaCy'de Konuşmanın bir kısmını etiketleme, bağımlılık ayrıştırma ve adlandırılmış varlık tanıma gibi standart NLP görevleriyle ilgileniyor musunuz? 🤔 SpaCy-Stanza, spaCy işlem hatlarında kullanılacak Stanza (eski adıyla StanfordNLP) kitaplığını sarar. Paket, seçilen diller için adlandırılmış varlık tanıma yeteneklerini içerir ve doğal dil işleme görevlerindeki faydasını genişletir. 68 dili desteklediği için çeşitli dil uygulamaları için çok yönlüdür. Paket, boru hattınızın ek spaCy bileşenleriyle özelleştirilmesine olanak tanır. https://github.com/explosion/spacy-stanza Küçük tüy yumağı "Grafik örnekleme görevleri için İsviçre Çakısı" Hiç örneğini almanız gereken kadar büyük bir veri kümesiyle çalıştınız mı? Basit veriler için rastgele örnekleme, daha küçük bir örneklemdeki dağılımı korur. Ancak karmaşık ağlarda, kartopu örneklemesi ağ yapısını daha iyi yakalar. ilk kullanıcıları seçip bağlantılarını dahil ettiğiniz Bu, analizde önyargının önlenmesine yardımcı olur. 🔦 Şimdi, (algoritmik veya hesaplamalı nedenlerden dolayı)? 👩💻 grafik yapılı verileriniz var mı ve bunların örnekleri üzerinde çalışmanız mı gerekiyor Littleballoffur, düğüm, kenar ve keşif örneklemesi de dahil olmak üzere grafiklerden ve ağlardan örnekleme için çeşitli yöntemler sunar. Birleşik bir uygulama genel arayüzü ile tasarlanmış olup, kullanıcıların karmaşık örnekleme algoritmalarını derin teknik bilgi birikimi olmadan uygulamasını kolaylaştırır. https://github.com/benedekrozemberczki/littleballoffur Bu keşiflerin sizin için değerli olduğunu ve daha sağlam bir makine öğrenimi araç seti oluşturmanıza yardımcı olacağını umuyorum! ⚒️ Açık kaynakta etkili projeler oluşturmak için bu araçlardan yararlanmak istiyorsanız öncelikle mevcut DevRank'ınızın ne olduğunu öğrenmeli ve önümüzdeki aylarda nasıl gelişeceğini görmelisiniz! Quine'daki Son olarak lütfen bu projelere rol vererek destek olmayı düşünün. ⭐️ Not: Bizim onlarla hiçbir bağlantımız yok. Biz sadece harika projelerin büyük tanınmayı hak ettiğini düşünüyoruz. Haftaya görüşürüz, Hackernoon arkadaşınız 💚 Bap Açık kaynakta kendini "en havalı" olarak ilan eden sunucuya 😝 katılmak istiyorsanız katılmalısınız. Açık kaynak yolculuğunuzda size yardımcı olmak için buradayız. 🫶 discord sunucumuza da yayınlandı. Burada