Merhaba 👋  Bugün,   (ve muhtemelen adını hiç duymadığınız) 7 ML deposuna dalalım! geliştiricilerin ilk %1'inin kullandığı    En üstteki %1'i ne tanımlar?  Geliştiricileri sıralamak   bir sorundur ve her metodolojinin kendine özgü sorunları vardır. zor  Örneğin, geliştiricileri Python'da yazdıkları kod satırı sayısına göre sıralarsanız muhtemelen oldukça iyi Python geliştiricilerinin en üst sıralarda yer aldığını görürsünüz.  Ancak, depolarına çok sayıda Python kodunu kopyalayıp yapıştıran kişileri alabilirsiniz ve bunlar o kadar da iyi değildir. 🙁  Quine olarak   ! çoğu durumda sağlam olduğunu düşündüğümüz ancak yine de %100 mükemmel olmayan bir metodoloji geliştirdik  Buna DevRank denir (bunu nasıl hesapladığımız hakkında daha fazla bilgiyi   bulabilirsiniz). burada  Bu makalede kullandığım İlk %1 kavramı DevRank'a dayanmaktadır.  Ve evet, her geçen gün daha iyi hale getirmek için bunun üzerinde çalışmaya devam ediyoruz!  İlk %1'in hangi repoları kullandığını nasıl bileceğiz?  99. yüzdelik dilimin yıldız aldığı repolara bakıyoruz.  Daha sonra, geliştiricilerin en üst %1'lik kesimi ile en alttaki %50'lik geliştiricilerin bir repoya yıldız ekleme eğilimlerini karşılaştırırız ve listeyi otomatik olarak oluştururuz.  Başka bir deyişle, bu   . depolar, geliştiricilerin en üst %1'lik kesimi tarafından kullanılan ve henüz daha geniş geliştirici topluluğu tarafından keşfedilmemiş gizli mücevherlerdir  Akıllı CSV   Dağınık CSV'lerinizle ben ilgileniyorum    Bazı arkadaşlarımız tarafından   geliştirilen bir paket. Birçok ML işlem hattının başlangıcındaki küçük ama yaygın bir sorun iyi bir şekilde çözüldü. 🔮 CSV dosyalarının yüklenmesinde sık karşılaşılan sıkıntı noktalarını gidermek için  CleverCSV, argümanlarında herhangi bir şey söylenmesine gerek kalmadan çeşitli farklı CSV lehçelerini tespit edip yükleyebilir. CSV dosyaları, bunu yerel olarak gerçekleştirmek için gerekli bilgileri sağlamadığından, kitaplığın bazı akıllı çıkarımlara ihtiyacı vardır.  CleverCSV, biçimlendirmesinde hatalar olan karmaşık CSV dosyalarını bile işleyebilir.  CleverCSV, Python kütüphanesine ek olarak kod oluşturma, keşfetme ve standardizasyon için bir komut satırı arayüzü de içerir.   https://github.com/alan-turing-institute/CleverCSV  beceri   CLI aracılığıyla scikit-learn ile makine öğrenimi iş akışlarını kolaylaştırın    Birden fazla algoritmayla çapraz doğrulanmış sonuçlar elde etmek için   ? Daha temiz bir kodlama deneyimi için   arayüzünü deneyin. ⚡️ sklearn'de sonsuz standart metin mi yazıyorsunuz skll  Skll, scikit-learn ile makine öğrenimi deneylerinin daha verimli bir şekilde yürütülmesini sağlamak ve kapsamlı kodlama ihtiyacını azaltmak için tasarlanmıştır.  Sağlanan önde gelen yardımcı program   olarak adlandırılır ve bir yapılandırma dosyasında belirtilen veri kümeleri üzerinde bir dizi öğrenciyi çalıştırır. run_experiment  Ayrıca, format dönüştürme ve özellik dosyası işlemlerine yönelik araçlar da dahil olmak üzere mevcut kodla doğrudan entegrasyon için bir Python API'si sunar.   https://github.com/EducationalTestingService/skll  HaydutPAM   Neredeyse Doğrusal Zamanda k-Medoids Kümelenmesi    Burada temel algoritmalara dönelim -   . 🎉 BanditPAM neredeyse doğrusal zamanda çalışabilen yeni bir k-medoids (sağlam bir "k-araçlar") algoritmasıdır  Önceki algoritmalara göre O(n^2) zamanı yerine O(nlogn) zamanında çalışır.  Küme merkezleri veri noktalarıdır ve dolayısıyla anlamlı gözlemlere karşılık gelir. Bir k-ortalama kümesinin merkezi geçersiz verilere karşılık gelebilir; k-medoids ile bu mümkün değildir.  Keyfi mesafe ölçümleri kullanılabilir (örneğin L1 veya Hamming mesafesini düşünün), verimli k-ortalama algoritmaları genellikle L2 mesafesiyle sınırlıdır.  Bu  yola çıkılarak uygulanan BanditPAM, özellikle büyük veya karmaşık verilerle uğraşanlar olmak üzere grup çalışması için güçlü, ölçeklenebilir bir çözüm arayan veri bilimcileri için idealdir. belgeden   https://github.com/motiwari/BanditPAM  kayıt bağlantısı   Herkesin ihtiyaç duyduğu kayıt eşleştirici ve kopya dedektörü      mı? Modern Python araçları için yeniden oluşturulan   ilham alan bu harika kitaplığı kullanın. 🛠️ Farklı veri kümelerinde adlarını yanlış yazan veya biraz farklı özelliklere sahip kullanıcıları eşleştirmede hiç zorlandınız Serbestçe Genişletilebilir Biyomedikal Kayıt Bağlantısından (FEBRL)  Numpy ve pandalardan yararlanarak güçlü FEBRL kütüphanesinin Python yerel uygulamasını sağlar.  Denetimli ve denetimsiz yaklaşımları içerir.  Denetlenen makine öğrenimi yaklaşımlarını etkinleştirmek için eşleşen çiftler oluşturmaya yönelik araçlar içerir.  RecordLinkage, kayıt bağlantısı ve veri tekilleştirme görevlerini gerçekleştirmek için esnek, Python tabanlı bir çözüm arayan veri bilimcileri için idealdir.   https://github.com/J535D165/recordlinkage  ağ   Web sayfası içeriğinin çıkarılmasına odaklanılması      . Dragnet bir sayfadaki içeriğe ve kullanıcı yorumlarına odaklanır ve gerisini göz ardı eder. Dışarıdaki kazıyıcı arkadaşlarımız için kullanışlı. 🕷️ Web sayfalarından içerik çıkarma  Dragnet, reklam veya navigasyon ekipmanı gibi istenmeyen içerikleri kaldırarak web sayfalarından anahtar sözcükleri ve cümleleri çıkarmayı amaçlamaktadır.  HTML dizelerinden içerik çıkarmak için yorumları dahil etme veya hariç tutma seçeneğiyle birlikte basit Python işlevleri (   ve   ) sağlar. extract_content extract_content_and_comments  Çıkarıcıların özelleştirilmesine ve eğitilmesine olanak tanıyan, daha gelişmiş kullanım için   bir çıkarıcı sınıfı mevcuttur. sklearn-style   https://github.com/dragnet-org/dragnet  geniş kıta   En yeni StanfordNLP araştırma modelleri doğrudan spaCy'de    Konuşmanın bir kısmını etiketleme, bağımlılık ayrıştırma ve adlandırılmış varlık tanıma gibi standart NLP görevleriyle ilgileniyor musunuz? 🤔  SpaCy-Stanza, spaCy işlem hatlarında kullanılacak Stanza (eski adıyla StanfordNLP) kitaplığını sarar.  Paket, seçilen diller için adlandırılmış varlık tanıma yeteneklerini içerir ve doğal dil işleme görevlerindeki faydasını genişletir.  68 dili desteklediği için çeşitli dil uygulamaları için çok yönlüdür.  Paket, boru hattınızın ek spaCy bileşenleriyle özelleştirilmesine olanak tanır.   https://github.com/explosion/spacy-stanza  Küçük tüy yumağı   "Grafik örnekleme görevleri için İsviçre Çakısı"    Hiç örneğini almanız gereken kadar büyük bir veri kümesiyle çalıştınız mı? Basit veriler için rastgele örnekleme, daha küçük bir örneklemdeki dağılımı korur. Ancak karmaşık ağlarda,   kartopu örneklemesi ağ yapısını daha iyi yakalar. ilk kullanıcıları seçip bağlantılarını dahil ettiğiniz  Bu, analizde önyargının önlenmesine yardımcı olur. 🔦  Şimdi,   (algoritmik veya hesaplamalı nedenlerden dolayı)? 👩‍💻 grafik yapılı verileriniz var mı ve bunların örnekleri üzerinde çalışmanız mı gerekiyor  Littleballoffur, düğüm, kenar ve keşif örneklemesi de dahil olmak üzere grafiklerden ve ağlardan örnekleme için çeşitli yöntemler sunar.  Birleşik bir uygulama genel arayüzü ile tasarlanmış olup, kullanıcıların karmaşık örnekleme algoritmalarını derin teknik bilgi birikimi olmadan uygulamasını kolaylaştırır.   https://github.com/benedekrozemberczki/littleballoffur  Bu keşiflerin sizin için değerli olduğunu ve daha sağlam bir makine öğrenimi araç seti oluşturmanıza yardımcı olacağını umuyorum! ⚒️  Açık kaynakta etkili projeler oluşturmak için bu araçlardan yararlanmak istiyorsanız öncelikle   mevcut DevRank'ınızın ne olduğunu öğrenmeli ve önümüzdeki aylarda nasıl gelişeceğini görmelisiniz! Quine'daki  Son olarak lütfen  bu projelere rol vererek destek olmayı düşünün. ⭐️  Not: Bizim onlarla hiçbir bağlantımız yok. Biz sadece harika projelerin büyük tanınmayı hak ettiğini düşünüyoruz.    Haftaya görüşürüz,  Hackernoon arkadaşınız 💚  Bap  Açık kaynakta kendini "en havalı" olarak ilan eden sunucuya 😝 katılmak istiyorsanız   katılmalısınız. Açık kaynak yolculuğunuzda size yardımcı olmak için buradayız. 🫶 discord sunucumuza    da yayınlandı. Burada

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Read My Stories

Bu ses hikayenin orijinal dilinde üretilmiştir!

En Çok Kullanılan %1'in Kullandığı ve Bilmenizi İstemediği 7 Makine Öğrenimi Reposu

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

AI/ML Datalake için Referans Mimarisi Oluşturmaya Yönelik Mimar Kılavuzu

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

Benzersiz Bir Ekosistemi Güçlendiren Bitcoin UTXO Modeli

AI/ML Datalake için Referans Mimarisi Oluşturmaya Yönelik Mimar Kılavuzu

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps