Hallo 👋  Lassen Sie uns heute in die 7 ML-Repos eintauchen, die   (und von denen Sie wahrscheinlich noch nie gehört haben)! das oberste 1 % der Entwickler verwenden    Was macht die oberen 1 % aus?  Das Ranking von Entwicklern ist ein   Problem, und jede Methodik hat ihre Probleme. schwieriges  Wenn Sie beispielsweise die Entwickler nach der Anzahl der Codezeilen ordnen, die sie in Python geschrieben haben, werden Sie wahrscheinlich einige ziemlich gute Python-Entwickler an der Spitze finden.  Es kann jedoch sein, dass es Leute gibt, die gerade jede Menge Python-Code in ihre Repos kopiert haben und dieser nicht so gut ist. 🙁  Bei Quine   , aber wiederum nicht 100 % perfekt ist! haben wir eine Methodik entwickelt, die unserer Meinung nach in den meisten Fällen robust  Es heißt DevRank (mehr darüber, wie wir es berechnen, können Sie   lesen). hier  Die Vorstellung der Top 1 %, die ich in diesem Artikel verwende, basiert auf DevRank.  Und ja, wir arbeiten weiter daran, es jeden Tag besser zu machen!  Woher wissen wir, welche Repos das oberste 1 % nutzt?  Wir schauen uns die Repos an, bei denen das 99. Perzentil die Hauptrolle gespielt hat.  Anschließend vergleichen wir die Neigung des oberen 1 % der Entwickler mit der der unteren 50 % der Entwickler, ein Repo zu starten, und erstellen automatisch die Liste.  Mit anderen Worten: Diese   . Repositories sind die verborgenen Schätze, die von den besten 1 % der Entwickler genutzt werden und von der breiteren Entwicklergemeinschaft erst noch entdeckt werden müssen  CleverCSV   Ich kümmere mich um Ihre chaotischen CSVs    Ein Paket, das von einigen Freunden von uns entwickelt wurde   . Ein kleines, aber häufiges Problem am Anfang vieler ML-Pipelines, gut gelöst. 🔮 , um häufige Probleme beim Laden von CSV-Dateien zu beheben  CleverCSV ist in der Lage, verschiedene CSV-Dialekte zu erkennen und zu laden, ohne dass in seinen Argumenten etwas gesagt werden muss. CSV-Dateien stellen nicht die notwendigen Informationen bereit, um dies nativ durchzuführen, daher sind von der Bibliothek einige clevere Schlussfolgerungen erforderlich.  CleverCSV kann sogar unordentliche CSV-Dateien verarbeiten, die Fehler in der Formatierung aufweisen.  Neben der Python-Bibliothek enthält CleverCSV auch eine Befehlszeilenschnittstelle zur Codegenerierung, -exploration und -standardisierung.   https://github.com/alan-turing-institute/CleverCSV  Geschicklichkeit   Optimieren Sie ML-Workflows mit scikit-learn über CLI      , um mit mehreren Algorithmen kreuzvalidierte Ergebnisse zu erhalten? Probieren Sie stattdessen die Benutzeroberfläche von   aus, um ein viel saubereres Codierungserlebnis zu erzielen. ⚡️ Schreiben Sie endlose Boilerplates in sklearn skll  Skll wurde entwickelt, um maschinelle Lernexperimente mit scikit-learn effizienter durchzuführen und den Bedarf an umfangreicher Codierung zu reduzieren.  Das führende bereitgestellte Dienstprogramm heißt   und führt eine Reihe von Lernenden mit Datensätzen aus, die in einer Konfigurationsdatei angegeben sind. run_experiment  Es bietet außerdem eine Python-API für die einfache Integration in vorhandenen Code, einschließlich Tools für die Formatkonvertierung und Feature-File-Operationen.   https://github.com/EducationalTestingService/skll  BanditPAM   k-Medoids-Clusterbildung in nahezu linearer Zeit    Zurück zu den grundlegenden Algorithmen:   der in nahezu linearer Zeit ausgeführt werden kann. 🎉 BanditPAM ist ein neuer k-medoids-Algorithmus (denken Sie an einen robusten „k-means“),  Läuft in O(nlogn)-Zeit statt in O(n^2)-Zeit, wie bei früheren Algorithmen.  Clusterzentren sind Datenpunkte und entsprechen daher aussagekräftigen Beobachtungen. Das Zentrum eines k-means-Clusters entspricht möglicherweise ungültigen Daten. Dies ist bei k-Medoiden nicht möglich.  Es können beliebige Distanzmetriken verwendet werden (denken Sie zum Beispiel an L1 oder Hamming-Distanz), effiziente K-Mittelwert-Algorithmen sind typischerweise auf die L2-Distanz beschränkt.  BanditPAM wurde anhand dieses  implementiert und ist ideal für Datenwissenschaftler, die eine leistungsstarke, skalierbare Lösung für Gruppenarbeit suchen, insbesondere für diejenigen, die mit großen oder komplexen Daten arbeiten. Artikels   https://github.com/motiwari/BanditPAM  Datensatzverknüpfung   Der Datensatz-Matcher und Duplikat-Detektor, den jeder braucht    Hatten Sie jemals   oder die leicht unterschiedliche Attribute haben? Nutzen Sie diese großartige Bibliothek, die von der   inspiriert und für moderne Python-Tools neu erstellt wurde. 🛠️ Schwierigkeiten, Benutzer in verschiedenen Datensätzen zuzuordnen, die ihren Namen falsch geschrieben haben Freely Extensible Biomedical Record Linkage (FEBRL)  Bietet eine native Python-Implementierung der leistungsstarken FEBRL-Bibliothek unter Verwendung von Numpy und Pandas.  Beinhaltet sowohl überwachte als auch unbeaufsichtigte Ansätze.  Enthält Tools zum Generieren passender Paare, um überwachte ML-Ansätze zu ermöglichen.  RecordLinkage ist ideal für Datenwissenschaftler, die eine flexible, Python-basierte Lösung zur Durchführung von Datensatzverknüpfungs- und Datendeduplizierungsaufgaben suchen.   https://github.com/J535D165/recordlinkage  Schleppnetz   Ein einziger Fokus liegt auf der Extraktion von Webseiteninhalten      . Dragnet konzentriert sich auf den Inhalt und die Benutzerkommentare auf einer Seite und ignoriert den Rest. Es ist praktisch für unsere Scraper-Freunde da draußen. 🕷️ Inhaltsextraktion aus Webseiten  Ziel von Dragnet ist es, Schlüsselwörter und Phrasen aus Webseiten zu extrahieren, indem unerwünschte Inhalte wie Werbung oder Navigationsgeräte entfernt werden.  Bietet einfache Python-Funktionen (   und   ) mit der Option, Kommentare zum Extrahieren von Inhalten aus HTML-Strings einzuschließen oder auszuschließen. extract_content extract_content_and_comments  Für eine fortgeschrittenere Verwendung gibt es eine Extraktorklasse   , die eine individuelle Anpassung und Schulung von Extraktoren ermöglicht. sklearn-style   https://github.com/dragnet-org/dragnet  spacy-strophe   Die neuesten StanfordNLP-Forschungsmodelle direkt in spaCy    Interessiert an Standard-NLP-Aufgaben wie Wortart-Tagging, Abhängigkeitsanalyse und Erkennung benannter Entitäten? 🤔  SpaCy-Stanza umschließt die Stanza-Bibliothek (ehemals StanfordNLP) zur Verwendung in spaCy-Pipelines.  Das Paket umfasst Funktionen zur Erkennung benannter Entitäten für ausgewählte Sprachen und erweitert so seinen Nutzen bei der Verarbeitung natürlicher Sprache.  Es unterstützt 68 Sprachen und ist somit vielseitig für verschiedene sprachliche Anwendungen geeignet.  Das Paket ermöglicht die individuelle Anpassung Ihrer Pipeline mit zusätzlichen spaCy-Komponenten.   https://github.com/explosion/spacy-stanza  Kleiner Fellball   „Schweizer Taschenmesser für Grafik-Sampling-Aufgaben“    Haben Sie jemals mit einem Datensatz gearbeitet, der so groß ist, dass Sie eine Probe davon entnehmen müssen? Bei einfachen Daten behält die Zufallsstichprobe die Verteilung in einer kleineren Stichprobe bei. In komplexen Netzwerken lässt sich die Netzwerkstruktur jedoch besser mit der Schneeballstichprobe erfassen,   . bei der Sie die ersten Benutzer auswählen und deren Verbindungen einbeziehen  Dies trägt dazu bei, Verzerrungen in der Analyse zu vermeiden. 🔦  Verfügen Sie nun über   (entweder aus algorithmischen oder rechnerischen Gründen)? 👩‍💻 grafisch strukturierte Daten und müssen Stichproben davon bearbeiten  Littleballoffur bietet eine Reihe von Methoden zum Sampling aus Diagrammen und Netzwerken, einschließlich Knoten-, Kanten- und Explorations-Sampling.  Entwickelt mit einer einheitlichen öffentlichen Anwendungsschnittstelle, die es Benutzern erleichtert, komplexe Stichprobenalgorithmen ohne umfassende technische Kenntnisse anzuwenden.   https://github.com/benedekrozemberczki/littleballoffur  Ich hoffe, dass diese Entdeckungen für Sie wertvoll sind und Ihnen beim Aufbau eines robusteren ML-Toolkits helfen werden! ⚒️  Wenn Sie daran interessiert sind, diese Tools zu nutzen, um wirkungsvolle Open-Source-Projekte zu erstellen, sollten Sie zunächst herausfinden, wie hoch Ihr aktueller DevRank bei   ist, und sehen, wie er sich in den kommenden Monaten entwickelt! Quine  Bitte  denken Sie schließlich darüber nach, diese Projekte zu unterstützen, indem Sie sie in den Mittelpunkt stellen. ⭐️  PS: Wir sind nicht mit ihnen verbunden. Wir sind einfach der Meinung, dass großartige Projekte große Anerkennung verdienen.    Bis nächste Woche,  Dein Hackernoon-Kumpel 💚  Bap  Wenn Sie dem selbsternannten „coolsten“ Open-Source-Server beitreten möchten 😝, sollten Sie unserem   beitreten. Wir sind hier, um Sie auf Ihrer Reise in Open Source zu unterstützen. 🫶 Discord-Server  Auch   veröffentlicht. hier

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Read My Stories

Dieses Audio ist in der Originalsprache der Geschichte produziert!

7 Repositorys für maschinelles Lernen, die die Top 1 % nutzen und von denen Sie nichts erfahren möchten

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

Meet Deepgram: HackerNoon Company of the Week

Welcome to HackerNoon Decoded: The Best of 2024 Tech Blogging

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

Meet Deepgram: HackerNoon Company of the Week

Welcome to HackerNoon Decoded: The Best of 2024 Tech Blogging

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps