Merhaba 👋
Bugün, geliştiricilerin ilk %1'inin kullandığı (ve muhtemelen adını hiç duymadığınız) 7 ML deposuna dalalım!
Geliştiricileri sıralamak zor bir sorundur ve her metodolojinin kendine özgü sorunları vardır.
Örneğin, geliştiricileri Python'da yazdıkları kod satırı sayısına göre sıralarsanız muhtemelen oldukça iyi Python geliştiricilerinin en üst sıralarda yer aldığını görürsünüz.
Ancak, depolarına çok sayıda Python kodunu kopyalayıp yapıştıran kişileri alabilirsiniz ve bunlar o kadar da iyi değildir. 🙁
Quine olarak çoğu durumda sağlam olduğunu düşündüğümüz ancak yine de %100 mükemmel olmayan bir metodoloji geliştirdik !
Buna DevRank denir (bunu nasıl hesapladığımız hakkında daha fazla bilgiyi burada bulabilirsiniz).
Bu makalede kullandığım İlk %1 kavramı DevRank'a dayanmaktadır.
Ve evet, her geçen gün daha iyi hale getirmek için bunun üzerinde çalışmaya devam ediyoruz!
99. yüzdelik dilimin yıldız aldığı repolara bakıyoruz.
Daha sonra, geliştiricilerin en üst %1'lik kesimi ile en alttaki %50'lik geliştiricilerin bir repoya yıldız ekleme eğilimlerini karşılaştırırız ve listeyi otomatik olarak oluştururuz.
Başka bir deyişle, bu depolar, geliştiricilerin en üst %1'lik kesimi tarafından kullanılan ve henüz daha geniş geliştirici topluluğu tarafından keşfedilmemiş gizli mücevherlerdir .
Dağınık CSV'lerinizle ben ilgileniyorum
Bazı arkadaşlarımız tarafından CSV dosyalarının yüklenmesinde sık karşılaşılan sıkıntı noktalarını gidermek için geliştirilen bir paket. Birçok ML işlem hattının başlangıcındaki küçük ama yaygın bir sorun iyi bir şekilde çözüldü. 🔮
CleverCSV, argümanlarında herhangi bir şey söylenmesine gerek kalmadan çeşitli farklı CSV lehçelerini tespit edip yükleyebilir. CSV dosyaları, bunu yerel olarak gerçekleştirmek için gerekli bilgileri sağlamadığından, kitaplığın bazı akıllı çıkarımlara ihtiyacı vardır.
CleverCSV, biçimlendirmesinde hatalar olan karmaşık CSV dosyalarını bile işleyebilir.
CleverCSV, Python kütüphanesine ek olarak kod oluşturma, keşfetme ve standardizasyon için bir komut satırı arayüzü de içerir.
https://github.com/alan-turing-institute/CleverCSV
CLI aracılığıyla scikit-learn ile makine öğrenimi iş akışlarını kolaylaştırın
Birden fazla algoritmayla çapraz doğrulanmış sonuçlar elde etmek için sklearn'de sonsuz standart metin mi yazıyorsunuz ? Daha temiz bir kodlama deneyimi için skll
arayüzünü deneyin. ⚡️
Skll, scikit-learn ile makine öğrenimi deneylerinin daha verimli bir şekilde yürütülmesini sağlamak ve kapsamlı kodlama ihtiyacını azaltmak için tasarlanmıştır.
Sağlanan önde gelen yardımcı program run_experiment
olarak adlandırılır ve bir yapılandırma dosyasında belirtilen veri kümeleri üzerinde bir dizi öğrenciyi çalıştırır.
Ayrıca, format dönüştürme ve özellik dosyası işlemlerine yönelik araçlar da dahil olmak üzere mevcut kodla doğrudan entegrasyon için bir Python API'si sunar.
https://github.com/EducationalTestingService/skll
Neredeyse Doğrusal Zamanda k-Medoids Kümelenmesi
Burada temel algoritmalara dönelim - BanditPAM neredeyse doğrusal zamanda çalışabilen yeni bir k-medoids (sağlam bir "k-araçlar") algoritmasıdır . 🎉
Önceki algoritmalara göre O(n^2) zamanı yerine O(nlogn) zamanında çalışır.
Küme merkezleri veri noktalarıdır ve dolayısıyla anlamlı gözlemlere karşılık gelir. Bir k-ortalama kümesinin merkezi geçersiz verilere karşılık gelebilir; k-medoids ile bu mümkün değildir.
Keyfi mesafe ölçümleri kullanılabilir (örneğin L1 veya Hamming mesafesini düşünün), verimli k-ortalama algoritmaları genellikle L2 mesafesiyle sınırlıdır.
Bubelgeden yola çıkılarak uygulanan BanditPAM, özellikle büyük veya karmaşık verilerle uğraşanlar olmak üzere grup çalışması için güçlü, ölçeklenebilir bir çözüm arayan veri bilimcileri için idealdir.
https://github.com/motiwari/BanditPAM
Herkesin ihtiyaç duyduğu kayıt eşleştirici ve kopya dedektörü
Farklı veri kümelerinde adlarını yanlış yazan veya biraz farklı özelliklere sahip kullanıcıları eşleştirmede hiç zorlandınız mı? Modern Python araçları için yeniden oluşturulan Serbestçe Genişletilebilir Biyomedikal Kayıt Bağlantısından (FEBRL) ilham alan bu harika kitaplığı kullanın. 🛠️
Numpy ve pandalardan yararlanarak güçlü FEBRL kütüphanesinin Python yerel uygulamasını sağlar.
Denetimli ve denetimsiz yaklaşımları içerir.
Denetlenen makine öğrenimi yaklaşımlarını etkinleştirmek için eşleşen çiftler oluşturmaya yönelik araçlar içerir.
RecordLinkage, kayıt bağlantısı ve veri tekilleştirme görevlerini gerçekleştirmek için esnek, Python tabanlı bir çözüm arayan veri bilimcileri için idealdir.
https://github.com/J535D165/recordlinkage
Web sayfası içeriğinin çıkarılmasına odaklanılması
Web sayfalarından içerik çıkarma . Dragnet bir sayfadaki içeriğe ve kullanıcı yorumlarına odaklanır ve gerisini göz ardı eder. Dışarıdaki kazıyıcı arkadaşlarımız için kullanışlı. 🕷️
Dragnet, reklam veya navigasyon ekipmanı gibi istenmeyen içerikleri kaldırarak web sayfalarından anahtar sözcükleri ve cümleleri çıkarmayı amaçlamaktadır.
HTML dizelerinden içerik çıkarmak için yorumları dahil etme veya hariç tutma seçeneğiyle birlikte basit Python işlevleri ( extract_content
ve extract_content_and_comments
) sağlar.
Çıkarıcıların özelleştirilmesine ve eğitilmesine olanak tanıyan, daha gelişmiş kullanım için sklearn-style
bir çıkarıcı sınıfı mevcuttur.
https://github.com/dragnet-org/dragnet
En yeni StanfordNLP araştırma modelleri doğrudan spaCy'de
Konuşmanın bir kısmını etiketleme, bağımlılık ayrıştırma ve adlandırılmış varlık tanıma gibi standart NLP görevleriyle ilgileniyor musunuz? 🤔
SpaCy-Stanza, spaCy işlem hatlarında kullanılacak Stanza (eski adıyla StanfordNLP) kitaplığını sarar.
https://github.com/explosion/spacy-stanza
"Grafik örnekleme görevleri için İsviçre Çakısı"
Hiç örneğini almanız gereken kadar büyük bir veri kümesiyle çalıştınız mı? Basit veriler için rastgele örnekleme, daha küçük bir örneklemdeki dağılımı korur. Ancak karmaşık ağlarda, ilk kullanıcıları seçip bağlantılarını dahil ettiğiniz kartopu örneklemesi ağ yapısını daha iyi yakalar.
Bu, analizde önyargının önlenmesine yardımcı olur. 🔦
Şimdi, grafik yapılı verileriniz var mı ve bunların örnekleri üzerinde çalışmanız mı gerekiyor (algoritmik veya hesaplamalı nedenlerden dolayı)? 👩💻
Littleballoffur, düğüm, kenar ve keşif örneklemesi de dahil olmak üzere grafiklerden ve ağlardan örnekleme için çeşitli yöntemler sunar.
Birleşik bir uygulama genel arayüzü ile tasarlanmış olup, kullanıcıların karmaşık örnekleme algoritmalarını derin teknik bilgi birikimi olmadan uygulamasını kolaylaştırır.
https://github.com/benedekrozemberczki/littleballoffur
Bu keşiflerin sizin için değerli olduğunu ve daha sağlam bir makine öğrenimi araç seti oluşturmanıza yardımcı olacağını umuyorum! ⚒️
Açık kaynakta etkili projeler oluşturmak için bu araçlardan yararlanmak istiyorsanız öncelikle Quine'daki mevcut DevRank'ınızın ne olduğunu öğrenmeli ve önümüzdeki aylarda nasıl gelişeceğini görmelisiniz!
Son olarak lütfen bu projelere rol vererek destek olmayı düşünün. ⭐️
Not: Bizim onlarla hiçbir bağlantımız yok. Biz sadece harika projelerin büyük tanınmayı hak ettiğini düşünüyoruz.
Haftaya görüşürüz,
Hackernoon arkadaşınız 💚
Bap
Açık kaynakta kendini "en havalı" olarak ilan eden sunucuya 😝 katılmak istiyorsanız discord sunucumuza katılmalısınız. Açık kaynak yolculuğunuzda size yardımcı olmak için buradayız. 🫶
Burada da yayınlandı.