안녕하세요 👋 오늘은 (아마도 들어본 적도 없는) 7가지 ML 저장소에 대해 자세히 알아보겠습니다! 상위 1% 개발자가 사용하는 상위 1%를 정의하는 것은 무엇입니까? 개발자 순위를 매기는 것은 문제이며 모든 방법론에는 문제가 있습니다. 어려운 예를 들어, Python으로 작성한 코드 줄 수를 기준으로 개발자 순위를 매긴다면 아마도 꽤 훌륭한 Python 개발자가 최상위에 올 것입니다. 그러나 많은 Python 코드를 자신의 저장소에 복사하여 붙여넣은 사람들은 그다지 좋지 않습니다. 🙁 Quine에서는 ! 대부분의 경우에 강력하다고 생각하지만 100% 완벽하지는 않은 방법론을 개발했습니다 이를 DevRank라고 합니다( 계산 방법에 대해 자세히 알아볼 수 있습니다). 여기에서 이 기사에서 내가 사용하는 상위 1%라는 개념은 DevRank를 기반으로 합니다. 그리고 그렇습니다. 우리는 매일 더 나은 서비스를 만들기 위해 계속 노력하고 있습니다! 상위 1%가 어떤 저장소를 사용하는지 어떻게 알 수 있나요? 99번째 백분위수가 별표 표시된 저장소를 살펴봅니다. 그런 다음 상위 1% 개발자와 하위 50% 개발자의 리포지토리 별표 성향을 비교하고 자동으로 목록을 생성합니다. 즉, 이러한 . 저장소는 상위 1% 개발자가 사용하는 숨겨진 보석이지만 더 넓은 개발자 커뮤니티에서는 아직 발견되지 않았습니다 영리한CSV 지저분한 CSV를 처리해 드립니다 몇몇 친구들이 개발한 패키지입니다. 많은 ML 파이프라인 시작 시 발생하는 작지만 일반적인 문제가 잘 해결되었습니다. 🔮 CSV 파일을 로드할 때 흔히 발생하는 문제점을 처리하기 위해 CleverCSV는 인수에서 아무 것도 설명할 필요 없이 다양한 CSV 방언을 감지하고 로드할 수 있습니다. CSV 파일은 이 작업을 기본적으로 수행하는 데 필요한 정보를 제공하지 않으므로 라이브러리에서는 일부 영리한 추론이 필요합니다. CleverCSV는 형식에 실수가 있는 지저분한 CSV 파일도 처리할 수 있습니다. CleverCSV에는 Python 라이브러리 외에도 코드 생성, 탐색 및 표준화를 위한 명령줄 인터페이스도 포함되어 있습니다. https://github.com/alan-turing-institute/CleverCSV skll CLI를 통해 scikit-learn으로 ML 워크플로 간소화 여러 알고리즘으로 교차 검증된 결과를 얻기 위해 ? 훨씬 깔끔한 코딩 경험을 위해 대신 의 인터페이스를 사용해 보세요. ⚡️ sklearn에 끝없는 상용구를 작성하고 있습니까 skll Skll은 scikit-learn을 사용하여 기계 학습 실험을 보다 효율적으로 실행하여 광범위한 코딩의 필요성을 줄이도록 설계되었습니다. 제공되는 주요 유틸리티는 라고 하며 구성 파일에 지정된 데이터세트에서 일련의 학습자를 실행합니다. run_experiment 또한 형식 변환 및 기능 파일 작업을 위한 도구를 포함하여 기존 코드와의 직접적인 통합을 위한 Python API를 제공합니다. https://github.com/EducationalTestingService/skll BanditPAM 거의 선형 시간에 k-메도이드 클러스터링 여기서 기본적인 알고리즘으로 돌아가서 — . 🎉 BanditPAM은 거의 선형 시간에 실행될 수 있는 새로운 k-medoids(강력한 "k-평균"을 생각해 보세요) 알고리즘입니다 이전 알고리즘에 따라 O(n^2) 시간이 아닌 O(nlogn) 시간에 실행됩니다. 클러스터 중심은 데이터 포인트이므로 의미 있는 관측값에 해당합니다. k-평균 클러스터의 중심은 유효하지 않은 데이터에 해당할 수 있습니다. 이것은 k-medoids에서는 불가능합니다. 임의의 거리 측정법을 사용할 수 있으며(예: L1 또는 해밍 거리 생각) 효율적인 k-평균 알고리즘은 일반적으로 L2 거리로 제한됩니다. 이 에서 구현된 BanditPAM은 그룹 작업을 위한 강력하고 확장 가능한 솔루션, 특히 크거나 복잡한 데이터를 다루는 데이터 과학자에게 이상적입니다. 백서 https://github.com/motiwari/BanditPAM 기록연계 모두에게 필요한 레코드 일치기 및 중복 감지기 적이 있습니까? 에서 영감을 받아 최신 Python 도구용으로 재구축된 이 훌륭한 라이브러리를 사용하세요. 🛠️ 이름을 잘못 입력했거나 속성이 약간 다른 여러 데이터세트 내 사용자를 연결하는 데 어려움을 겪은 FEBRL(Freely Extensible Biomedical Record Linkage) numpy 및 pandas를 사용하여 강력한 FEBRL 라이브러리의 Python 기본 구현을 제공합니다. 지도 방식과 비지도 방식이 모두 포함됩니다. 감독된 ML 접근 방식을 활성화하기 위해 일치하는 쌍을 생성하는 도구가 포함되어 있습니다. RecordLinkage는 레코드 연결 및 데이터 중복 제거 작업을 수행하기 위해 유연한 Python 기반 솔루션을 찾는 데이터 과학자에게 이상적입니다. https://github.com/J535D165/recordlinkage 저인망 웹 페이지 콘텐츠 추출에만 중점을 둡니다. . Dragnet은 페이지의 콘텐츠와 사용자 댓글에만 초점을 맞추고 나머지는 무시합니다. 우리 스크레이퍼 친구들에게 편리합니다. 🕷️ 웹페이지에서 콘텐츠 추출 Dragnet은 광고나 네비게이션 장비 등 원치 않는 콘텐츠를 제거하여 웹페이지에서 키워드와 문구를 추출하는 것을 목표로 합니다. HTML 문자열에서 콘텐츠를 추출하기 위한 주석을 포함하거나 제외하는 옵션과 함께 간단한 Python 함수( 및 )를 제공합니다. extract_content extract_content_and_comments 고급 사용을 위한 추출기 클래스가 있어 추출기의 사용자 정의 및 교육이 가능합니다. sklearn-style https://github.com/dragnet-org/dragnet spacy-연 spaCy에서 직접 최신 StanfordNLP 연구 모델 품사 태깅, 종속성 구문 분석, 명명된 엔터티 인식과 같은 표준 NLP 작업에 관심이 있으십니까? 🤔 SpaCy-Stanza는 spaCy 파이프라인에서 사용하기 위해 Stanza(이전 StanfordNLP) 라이브러리를 래핑합니다. 패키지에는 선택한 언어에 대한 명명된 엔터티 인식 기능이 포함되어 있어 자연어 처리 작업에서 유용성을 확장합니다. 68개 언어를 지원하므로 다양한 언어 응용 프로그램에 다용도로 사용할 수 있습니다. 이 패키지를 사용하면 추가 spaCy 구성 요소를 사용하여 파이프라인을 사용자 정의할 수 있습니다. https://github.com/explosion/spacy-stanza 리틀볼로퍼 "그래프 샘플링 작업을 위한 스위스 군용 칼" 너무 큰 데이터 세트로 작업하여 샘플을 가져와야 한 적이 있습니까? 단순 데이터의 경우 무작위 샘플링은 더 작은 표본에서 분포를 유지합니다. 그러나 복잡한 네트워크에서는 눈덩이 샘플링이 네트워크 구조를 더 잘 포착합니다. 초기 사용자를 선택하고 해당 연결을 포함하는 이는 분석의 편향을 방지하는 데 도움이 됩니다. 🔦 이제 (알고리즘 또는 계산상의 이유로)? 👩💻 그래프 구조의 데이터가 있고 그 샘플을 작업해야 합니까 Littleballoffur는 노드 샘플링, 에지 샘플링, 탐색 샘플링을 포함하여 그래프와 네트워크에서 샘플링하기 위한 다양한 방법을 제공합니다. 통합된 애플리케이션 공개 인터페이스로 설계되어 사용자가 깊은 기술적 노하우 없이도 복잡한 샘플링 알고리즘을 쉽게 적용할 수 있습니다. https://github.com/benedekrozemberczki/littleballoffur 이러한 발견이 여러분에게 가치가 있고 더욱 강력한 ML 툴킷을 구축하는 데 도움이 되기를 바랍니다. ⚒️ 이러한 도구를 활용하여 오픈 소스에서 영향력 있는 프로젝트를 만드는 데 관심이 있다면 먼저 현재 DevRank가 에서 무엇인지 확인하고 앞으로 몇 달 동안 어떻게 발전하는지 확인해야 합니다! Quine 마지막으로, 이러한 프로젝트에 출연하여 지원해 보시기 바랍니다. ⭐️ 추신: 우리는 그들과 제휴하지 않습니다. 우리는 훌륭한 프로젝트가 큰 인정을 받을 자격이 있다고 생각합니다. 다음주에 보자, 당신의 해커눈 친구 💚 부드러운 롤빵 오픈 소스에서 자칭 "가장 멋진" 서버에 참여하고 싶다면 😝 참여해야 합니다. 우리는 귀하의 오픈 소스 여정을 돕기 위해 왔습니다. 🫶 Discord 서버에 게시되었습니다. 여기에도