paint-brush
En Çok Kullanılan %1'in Kullandığı ve Bilmenizi İstemediği 7 Makine Öğrenimi Reposuile@bap
980 okumalar
980 okumalar

En Çok Kullanılan %1'in Kullandığı ve Bilmenizi İstemediği 7 Makine Öğrenimi Reposu

ile Baptiste Fernandez5m2023/11/30
Read on Terminal Reader

Çok uzun; Okumak

Bu depolar, geliştiricilerin ilk %1'lik kesimi tarafından kullanılan gizli mücevherlerdir ve henüz daha geniş geliştirici topluluğu tarafından keşfedilmemiştir.
featured image - En Çok Kullanılan %1'in Kullandığı ve Bilmenizi İstemediği 7 Makine Öğrenimi Reposu
Baptiste Fernandez HackerNoon profile picture
0-item

Merhaba 👋


Bugün, geliştiricilerin ilk %1'inin kullandığı (ve muhtemelen adını hiç duymadığınız) 7 ML deposuna dalalım!


Boston Robotik


En üstteki %1'i ne tanımlar?

Geliştiricileri sıralamak zor bir sorundur ve her metodolojinin kendine özgü sorunları vardır.


Örneğin, geliştiricileri Python'da yazdıkları kod satırı sayısına göre sıralarsanız muhtemelen oldukça iyi Python geliştiricilerinin en üst sıralarda yer aldığını görürsünüz.


Ancak, depolarına çok sayıda Python kodunu kopyalayıp yapıştıran kişileri alabilirsiniz ve bunlar o kadar da iyi değildir. 🙁


Quine olarak çoğu durumda sağlam olduğunu düşündüğümüz ancak yine de %100 mükemmel olmayan bir metodoloji geliştirdik !


Buna DevRank denir (bunu nasıl hesapladığımız hakkında daha fazla bilgiyi burada bulabilirsiniz).


Bu makalede kullandığım İlk %1 kavramı DevRank'a dayanmaktadır.


Ve evet, her geçen gün daha iyi hale getirmek için bunun üzerinde çalışmaya devam ediyoruz!

İlk %1'in hangi repoları kullandığını nasıl bileceğiz?

99. yüzdelik dilimin yıldız aldığı repolara bakıyoruz.


Daha sonra, geliştiricilerin en üst %1'lik kesimi ile en alttaki %50'lik geliştiricilerin bir repoya yıldız ekleme eğilimlerini karşılaştırırız ve listeyi otomatik olarak oluştururuz.


Başka bir deyişle, bu depolar, geliştiricilerin en üst %1'lik kesimi tarafından kullanılan ve henüz daha geniş geliştirici topluluğu tarafından keşfedilmemiş gizli mücevherlerdir .


Akıllı CSV

Dağınık CSV'lerinizle ben ilgileniyorum

Akıllı CSV

Bazı arkadaşlarımız tarafından CSV dosyalarının yüklenmesinde sık karşılaşılan sıkıntı noktalarını gidermek için geliştirilen bir paket. Birçok ML işlem hattının başlangıcındaki küçük ama yaygın bir sorun iyi bir şekilde çözüldü. 🔮


  • CleverCSV, argümanlarında herhangi bir şey söylenmesine gerek kalmadan çeşitli farklı CSV lehçelerini tespit edip yükleyebilir. CSV dosyaları, bunu yerel olarak gerçekleştirmek için gerekli bilgileri sağlamadığından, kitaplığın bazı akıllı çıkarımlara ihtiyacı vardır.

  • CleverCSV, biçimlendirmesinde hatalar olan karmaşık CSV dosyalarını bile işleyebilir.

  • CleverCSV, Python kütüphanesine ek olarak kod oluşturma, keşfetme ve standardizasyon için bir komut satırı arayüzü de içerir.


https://github.com/alan-turing-institute/CleverCSV


beceri

CLI aracılığıyla scikit-learn ile makine öğrenimi iş akışlarını kolaylaştırın

Skll

Birden fazla algoritmayla çapraz doğrulanmış sonuçlar elde etmek için sklearn'de sonsuz standart metin mi yazıyorsunuz ? Daha temiz bir kodlama deneyimi için skll arayüzünü deneyin. ⚡️


  • Skll, scikit-learn ile makine öğrenimi deneylerinin daha verimli bir şekilde yürütülmesini sağlamak ve kapsamlı kodlama ihtiyacını azaltmak için tasarlanmıştır.

  • Sağlanan önde gelen yardımcı program run_experiment olarak adlandırılır ve bir yapılandırma dosyasında belirtilen veri kümeleri üzerinde bir dizi öğrenciyi çalıştırır.

  • Ayrıca, format dönüştürme ve özellik dosyası işlemlerine yönelik araçlar da dahil olmak üzere mevcut kodla doğrudan entegrasyon için bir Python API'si sunar.


https://github.com/EducationalTestingService/skll


HaydutPAM

Neredeyse Doğrusal Zamanda k-Medoids Kümelenmesi

HaydutPAM

Burada temel algoritmalara dönelim - BanditPAM neredeyse doğrusal zamanda çalışabilen yeni bir k-medoids (sağlam bir "k-araçlar") algoritmasıdır . 🎉


  • Önceki algoritmalara göre O(n^2) zamanı yerine O(nlogn) zamanında çalışır.

  • Küme merkezleri veri noktalarıdır ve dolayısıyla anlamlı gözlemlere karşılık gelir. Bir k-ortalama kümesinin merkezi geçersiz verilere karşılık gelebilir; k-medoids ile bu mümkün değildir.

  • Keyfi mesafe ölçümleri kullanılabilir (örneğin L1 veya Hamming mesafesini düşünün), verimli k-ortalama algoritmaları genellikle L2 mesafesiyle sınırlıdır.

  • Bubelgeden yola çıkılarak uygulanan BanditPAM, özellikle büyük veya karmaşık verilerle uğraşanlar olmak üzere grup çalışması için güçlü, ölçeklenebilir bir çözüm arayan veri bilimcileri için idealdir.


https://github.com/motiwari/BanditPAM


kayıt bağlantısı

Herkesin ihtiyaç duyduğu kayıt eşleştirici ve kopya dedektörü

Kayıt Bağlantısı

Farklı veri kümelerinde adlarını yanlış yazan veya biraz farklı özelliklere sahip kullanıcıları eşleştirmede hiç zorlandınız mı? Modern Python araçları için yeniden oluşturulan Serbestçe Genişletilebilir Biyomedikal Kayıt Bağlantısından (FEBRL) ilham alan bu harika kitaplığı kullanın. 🛠️


  • Numpy ve pandalardan yararlanarak güçlü FEBRL kütüphanesinin Python yerel uygulamasını sağlar.

  • Denetimli ve denetimsiz yaklaşımları içerir.

  • Denetlenen makine öğrenimi yaklaşımlarını etkinleştirmek için eşleşen çiftler oluşturmaya yönelik araçlar içerir.

  • RecordLinkage, kayıt bağlantısı ve veri tekilleştirme görevlerini gerçekleştirmek için esnek, Python tabanlı bir çözüm arayan veri bilimcileri için idealdir.


https://github.com/J535D165/recordlinkage


Web sayfası içeriğinin çıkarılmasına odaklanılması

Dragnet

Web sayfalarından içerik çıkarma . Dragnet bir sayfadaki içeriğe ve kullanıcı yorumlarına odaklanır ve gerisini göz ardı eder. Dışarıdaki kazıyıcı arkadaşlarımız için kullanışlı. 🕷️


  • Dragnet, reklam veya navigasyon ekipmanı gibi istenmeyen içerikleri kaldırarak web sayfalarından anahtar sözcükleri ve cümleleri çıkarmayı amaçlamaktadır.

  • HTML dizelerinden içerik çıkarmak için yorumları dahil etme veya hariç tutma seçeneğiyle birlikte basit Python işlevleri ( extract_content ve extract_content_and_comments ) sağlar.

  • Çıkarıcıların özelleştirilmesine ve eğitilmesine olanak tanıyan, daha gelişmiş kullanım için sklearn-style bir çıkarıcı sınıfı mevcuttur.


https://github.com/dragnet-org/dragnet


geniş kıta

En yeni StanfordNLP araştırma modelleri doğrudan spaCy'de

Spacy-Stanzaa

Konuşmanın bir kısmını etiketleme, bağımlılık ayrıştırma ve adlandırılmış varlık tanıma gibi standart NLP görevleriyle ilgileniyor musunuz? 🤔


SpaCy-Stanza, spaCy işlem hatlarında kullanılacak Stanza (eski adıyla StanfordNLP) kitaplığını sarar.


  • Paket, seçilen diller için adlandırılmış varlık tanıma yeteneklerini içerir ve doğal dil işleme görevlerindeki faydasını genişletir.
  • 68 dili desteklediği için çeşitli dil uygulamaları için çok yönlüdür.
  • Paket, boru hattınızın ek spaCy bileşenleriyle özelleştirilmesine olanak tanır.


https://github.com/explosion/spacy-stanza



Küçük tüy yumağı

"Grafik örnekleme görevleri için İsviçre Çakısı"

Küçük tüy yumağı

Hiç örneğini almanız gereken kadar büyük bir veri kümesiyle çalıştınız mı? Basit veriler için rastgele örnekleme, daha küçük bir örneklemdeki dağılımı korur. Ancak karmaşık ağlarda, ilk kullanıcıları seçip bağlantılarını dahil ettiğiniz kartopu örneklemesi ağ yapısını daha iyi yakalar.


Bu, analizde önyargının önlenmesine yardımcı olur. 🔦


Şimdi, grafik yapılı verileriniz var mı ve bunların örnekleri üzerinde çalışmanız mı gerekiyor (algoritmik veya hesaplamalı nedenlerden dolayı)? 👩‍💻


  • Littleballoffur, düğüm, kenar ve keşif örneklemesi de dahil olmak üzere grafiklerden ve ağlardan örnekleme için çeşitli yöntemler sunar.

  • Birleşik bir uygulama genel arayüzü ile tasarlanmış olup, kullanıcıların karmaşık örnekleme algoritmalarını derin teknik bilgi birikimi olmadan uygulamasını kolaylaştırır.


https://github.com/benedekrozemberczki/littleballoffur




Bu keşiflerin sizin için değerli olduğunu ve daha sağlam bir makine öğrenimi araç seti oluşturmanıza yardımcı olacağını umuyorum! ⚒️


Açık kaynakta etkili projeler oluşturmak için bu araçlardan yararlanmak istiyorsanız öncelikle Quine'daki mevcut DevRank'ınızın ne olduğunu öğrenmeli ve önümüzdeki aylarda nasıl gelişeceğini görmelisiniz!


Son olarak lütfen bu projelere rol vererek destek olmayı düşünün. ⭐️


Not: Bizim onlarla hiçbir bağlantımız yok. Biz sadece harika projelerin büyük tanınmayı hak ettiğini düşünüyoruz.


Boom

Haftaya görüşürüz,

Hackernoon arkadaşınız 💚

Bap



Açık kaynakta kendini "en havalı" olarak ilan eden sunucuya 😝 katılmak istiyorsanız discord sunucumuza katılmalısınız. Açık kaynak yolculuğunuzda size yardımcı olmak için buradayız. 🫶


Burada da yayınlandı.