paint-brush
7টি মেশিন লার্নিং রেপো যা শীর্ষ 1% ব্যবহার করে এবং সেগুলি সম্পর্কে আপনি জানতে চান না৷দ্বারা@bap
1,008 পড়া
1,008 পড়া

7টি মেশিন লার্নিং রেপো যা শীর্ষ 1% ব্যবহার করে এবং সেগুলি সম্পর্কে আপনি জানতে চান না৷

দ্বারা Baptiste Fernandez5m2023/11/30
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই সংগ্রহস্থলগুলি হল লুকানো রত্ন যা শীর্ষ 1% বিকাশকারীদের দ্বারা ব্যবহৃত হয় এবং এখনও বিস্তৃত বিকাশকারী সম্প্রদায়ের দ্বারা আবিষ্কৃত হয়নি৷
featured image - 7টি মেশিন লার্নিং রেপো যা শীর্ষ 1% ব্যবহার করে এবং সেগুলি সম্পর্কে আপনি জানতে চান না৷
Baptiste Fernandez HackerNoon profile picture
0-item

হাই 👋


আজ, আসুন 7 ML রেপোতে ডুব দেওয়া যাক যা শীর্ষ 1% বিকাশকারীরা ব্যবহার করে (এবং যাদের সম্পর্কে আপনি সম্ভবত কখনও শুনেননি)!


বোস্টন রোবোটিক্স


শীর্ষ 1% কি সংজ্ঞায়িত করে?

বিকাশকারীদের র‌্যাঙ্কিং একটি কঠিন সমস্যা, এবং প্রতিটি পদ্ধতির নিজস্ব সমস্যা রয়েছে।


উদাহরণস্বরূপ, আপনি যদি ডেভেলপারদের পাইথনে লেখা কোডের লাইনের সংখ্যা অনুসারে র‌্যাঙ্ক করেন তাহলে আপনি সম্ভবত শীর্ষে কিছু সুন্দর পাইথন বিকাশকারী পাবেন।


যাইহোক, আপনি এমন লোকদের পেতে পারেন যারা তাদের রেপোতে প্রচুর পাইথন কোড কপি-পেস্ট করেছেন এবং তারা তেমন ভাল নয়। 🙁


কুইনে, আমরা একটি পদ্ধতি তৈরি করেছি যা আমরা মনে করি বেশিরভাগ ক্ষেত্রেই শক্তিশালী , কিন্তু আবার 100% নিখুঁত নয়!


এটিকে বলা হয় DevRank (আমরা কীভাবে এটি এখানে গণনা করি সে সম্পর্কে আপনি আরও পড়তে পারেন)।


শীর্ষ 1% এর ধারণা যা আমি এই নিবন্ধে ব্যবহার করি তা DevRank-এর উপর ভিত্তি করে।


এবং হ্যাঁ, আমরা প্রতিদিন এটিকে আরও ভাল করার জন্য এটিতে কাজ চালিয়ে যাচ্ছি!

আমরা কিভাবে জানি যে কোন রিপোজ শীর্ষ 1% ব্যবহার করে?

আমরা 99 তম পার্সেন্টাইল তারকাচিহ্নিত repos দেখুন.


তারপরে আমরা উপরের 1% devs বনাম নীচের 50% devs-এর প্রবণতা একটি রেপো স্টার করার জন্য তুলনা করি এবং স্বয়ংক্রিয়ভাবে তালিকা তৈরি করি।


অন্য কথায়, এই সংগ্রহস্থলগুলি হল শীর্ষ 1% ডেভেলপারদের দ্বারা ব্যবহৃত লুকানো রত্ন এবং বৃহত্তর বিকাশকারী সম্প্রদায়ের দ্বারা এখনও আবিষ্কার করা হয়নি৷


চতুরসিএসভি

আমি আপনার অগোছালো CSV পরিচালনা করি

চতুরসিএসভি

CSV ফাইল লোড করার সাধারণ ব্যথার পয়েন্টগুলি পরিচালনা করার জন্য আমাদের কিছু বন্ধু দ্বারা তৈরি একটি প্যাকেজ৷ অনেক ML পাইপলাইনের শুরুতে একটি ছোট কিন্তু সাধারণ সমস্যা, ভালভাবে সমাধান করা হয়েছে। 🔮


  • CleverCSV এর আর্গুমেন্টে কিছু বলার প্রয়োজন ছাড়াই বিভিন্ন CSV উপভাষা সনাক্ত করতে এবং লোড করতে সক্ষম। CSV ফাইলগুলি নেটিভভাবে এটি সম্পাদন করার জন্য প্রয়োজনীয় তথ্য প্রদান করে না, তাই লাইব্রেরির দ্বারা কিছু চতুর অনুমান প্রয়োজন৷

  • CleverCSV এমনকি অগোছালো CSV ফাইলগুলি পরিচালনা করতে পারে, যেগুলির ফর্ম্যাটিংয়ে ভুল রয়েছে৷

  • পাইথন লাইব্রেরি ছাড়াও, CleverCSV-এ কোড জেনারেশন, এক্সপ্লোরেশন এবং স্ট্যান্ডার্ডাইজেশনের জন্য একটি কমান্ড লাইন ইন্টারফেসও রয়েছে।


https://github.com/alan-turing-institute/CleverCSV


skll

স্ট্রীমলাইন এমএল ওয়ার্কফ্লো সিকিট-লার্নের মাধ্যমে সিএলআই

Skll

আপনি কি একাধিক অ্যালগরিদম সহ ক্রস-ভ্যালিডেটেড ফলাফল পেতে স্কলারনে অন্তহীন বয়লারপ্লেট লিখছেন ? অনেক পরিষ্কার কোডিং অভিজ্ঞতার জন্য পরিবর্তে skll এর ইন্টারফেস ব্যবহার করে দেখুন। ⚡️


  • Skll কে ডিজাইন করা হয়েছে স্কিট-লার্নের সাথে মেশিন লার্নিং এক্সপেরিমেন্টগুলিকে আরও দক্ষতার সাথে চালানোর জন্য, বিস্তৃত কোডিংয়ের প্রয়োজনীয়তা হ্রাস করে।

  • প্রদত্ত নেতৃস্থানীয় ইউটিলিটি বলা হয় run_experiment , এবং এটি একটি কনফিগারেশন ফাইলে নির্দিষ্ট করা ডেটাসেটে শিক্ষার্থীদের একটি সিরিজ চালায়।

  • এটি বিদ্যমান কোডের সাথে সহজবোধ্য একীকরণের জন্য একটি পাইথন এপিআইও অফার করে, যার মধ্যে ফর্ম্যাট রূপান্তর এবং বৈশিষ্ট্য ফাইল অপারেশনের জন্য সরঞ্জাম রয়েছে।


https://github.com/EducationalTestingService/skll


দস্যুপিএএম

প্রায় লিনিয়ার-টাইমে k-Medoids ক্লাস্টারিং

দস্যুপিএএম

এখানে মৌলিক অ্যালগোসে ফিরে যান — BanditPAM হল একটি নতুন k-medoids (একটি শক্তিশালী "k-means" মনে করুন) অ্যালগরিদম যা প্রায় লিনিয়ার সময়ে চলতে পারে। 🎉


  • আগের অ্যালগরিদম অনুযায়ী O(n^2) সময়ের পরিবর্তে O(nlogn) সময়ে চলে।

  • ক্লাস্টার কেন্দ্রগুলি ডেটা পয়েন্ট, এবং তাই অর্থপূর্ণ পর্যবেক্ষণের সাথে সঙ্গতিপূর্ণ। একটি k- মানে ক্লাস্টারের কেন্দ্রটি অবৈধ ডেটার সাথে মিলিত হতে পারে; এটি k-medoids দিয়ে সম্ভব নয়।

  • নির্বিচারে দূরত্বের মেট্রিক্স ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ L1, বা হ্যামিং দূরত্ব মনে করুন), দক্ষ k- মানে অ্যালগোগুলি সাধারণত L2 দূরত্বের মধ্যে সীমাবদ্ধ থাকে।

  • এইকাগজ থেকে বাস্তবায়িত, BanditPAM ডেটা বিজ্ঞানীদের জন্য আদর্শ যারা গ্রুপ কাজের জন্য একটি শক্তিশালী, মাপযোগ্য সমাধান খুঁজছেন, বিশেষ করে যারা বড় বা জটিল ডেটা নিয়ে কাজ করে।


https://github.com/motiwari/BanditPAM


রেকর্ড লিঙ্ক

রেকর্ড ম্যাচার এবং ডুপ্লিকেট ডিটেক্টর সবার প্রয়োজন

রেকর্ড লিঙ্ক

আপনি কি কখনও বিভিন্ন ডেটাসেটের মধ্যে ব্যবহারকারীদের সাথে মেলাতে লড়াই করেছেন যারা তাদের নামের বানান ভুল করেছেন , বা যাদের বৈশিষ্ট্যগুলি কিছুটা আলাদা? ফ্রিলি এক্সটেনসিবল বায়োমেডিকাল রেকর্ড লিঙ্কেজ (FEBRL) দ্বারা অনুপ্রাণিত এই দুর্দান্ত লাইব্রেরিটি ব্যবহার করুন, আধুনিক পাইথন টুলিংয়ের জন্য পুনর্নির্মিত। 🛠️


  • numpy এবং pandas ব্যবহার করে শক্তিশালী FEBRL লাইব্রেরির একটি পাইথন নেটিভ ইমপ্লিমেন্টেশন প্রদান করে।

  • তত্ত্বাবধান করা এবং তত্ত্বাবধানহীন উভয় পদ্ধতিই অন্তর্ভুক্ত।

  • তত্ত্বাবধানে থাকা ML পন্থাগুলিকে সক্ষম করতে মিলিত জোড়া তৈরি করার জন্য সরঞ্জামগুলি অন্তর্ভুক্ত করে৷

  • রেকর্ড লিঙ্কেজ এবং ডেটা ডিডপ্লিকেশন কাজগুলি সম্পাদন করার জন্য নমনীয়, পাইথন-ভিত্তিক সমাধান খুঁজছেন ডেটা বিজ্ঞানীদের জন্য রেকর্ডলিঙ্কেজ আদর্শ।


https://github.com/J535D165/recordlinkage


dragnet

ওয়েব পৃষ্ঠা বিষয়বস্তু নিষ্কাশন উপর একটি একমাত্র ফোকাস

ড্রাগনেট

ওয়েবপেজ থেকে বিষয়বস্তু নিষ্কাশন . Dragnet একটি পৃষ্ঠার বিষয়বস্তু এবং ব্যবহারকারীর মন্তব্যগুলিতে ফোকাস করে এবং বাকিগুলি উপেক্ষা করে৷ এটা আমাদের স্ক্র্যাপার-বন্ধুদের জন্য সুবিধাজনক। 🕷️


  • ড্রাগনেটের লক্ষ্য হল বিজ্ঞাপন বা নেভিগেশন সরঞ্জামের মতো অবাঞ্ছিত বিষয়বস্তু সরিয়ে ওয়েব পৃষ্ঠাগুলি থেকে কীওয়ার্ড এবং বাক্যাংশ বের করা।

  • HTML স্ট্রিং থেকে বিষয়বস্তু বের করার জন্য মন্তব্য অন্তর্ভুক্ত বা বাদ দেওয়ার বিকল্প সহ সাধারণ পাইথন ফাংশন ( extract_content এবং extract_content_and_comments ) প্রদান করে।

  • একটি sklearn-style এক্সট্র্যাক্টর ক্লাস রয়েছে আরও উন্নত ব্যবহারের জন্য, যা কাস্টমাইজেশন এবং এক্সট্রাক্টরদের প্রশিক্ষণের অনুমতি দেয়।


https://github.com/dragnet-org/dragnet


spacy-স্তবক

সর্বশেষ StanfordNLP গবেষণা মডেল সরাসরি spaCy

স্পেসি-স্ট্যাঞ্জা

পার্ট-অফ-স্পীচ ট্যাগিং, নির্ভরতা পার্সিং এবং নামযুক্ত সত্তা স্বীকৃতির মতো স্ট্যান্ডার্ড NLP কাজগুলিতে আগ্রহী? 🤔


SpaCy-Stanza স্পেসাই পাইপলাইনে ব্যবহার করার জন্য স্তানজা (পূর্বে স্ট্যানফোর্ডএনএলপি) লাইব্রেরি মোড়ানো।


  • প্যাকেজটিতে নির্বাচিত ভাষার জন্য নামযুক্ত সত্তা শনাক্তকরণ ক্ষমতা রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজে এর উপযোগিতা প্রসারিত করা হয়েছে।
  • এটি 68টি ভাষা সমর্থন করে, এটি বিভিন্ন ভাষাগত অ্যাপ্লিকেশনের জন্য বহুমুখী করে তোলে।
  • প্যাকেজটি আপনার পাইপলাইনকে অতিরিক্ত spaCy উপাদানের সাথে কাস্টমাইজ করার অনুমতি দেয়।


https://github.com/explosion/spacy-stanza



লিটলবলফর

"গ্রাফ স্যাম্পলিং কাজের জন্য সুইস আর্মি ছুরি"

লিটলবলফর

আপনি কি কখনও এত বড় ডেটাসেট নিয়ে কাজ করেছেন যে আপনাকে এটির একটি নমুনা নিতে হবে? সাধারণ ডেটার জন্য, এলোমেলো নমুনা একটি ছোট নমুনায় বিতরণ বজায় রাখে। যাইহোক, জটিল নেটওয়ার্কগুলিতে, স্নোবল স্যাম্পলিং - যেখানে আপনি প্রাথমিক ব্যবহারকারীদের নির্বাচন করেন এবং তাদের সংযোগগুলি অন্তর্ভুক্ত করেন - নেটওয়ার্ক গঠন আরও ভাল ক্যাপচার করে।


এটি বিশ্লেষণে পক্ষপাত এড়াতে সাহায্য করে। 🔦


এখন, আপনার কাছে কি গ্রাফ-গঠিত ডেটা আছে এবং এটির নমুনাগুলিতে কাজ করতে হবে (হয় অ্যালগরিদমিক বা গণনাগত কারণে)? 👩‍💻


  • Littleballoffur নোড-, এজ- এবং অন্বেষণ-নমুনা সহ গ্রাফ এবং নেটওয়ার্ক থেকে নমুনা নেওয়ার জন্য বিভিন্ন পদ্ধতির প্রস্তাব দেয়।

  • একটি ইউনিফাইড অ্যাপ্লিকেশান পাবলিক ইন্টারফেস দিয়ে ডিজাইন করা হয়েছে, ব্যবহারকারীদের জন্য গভীর প্রযুক্তিগত জ্ঞান ছাড়াই জটিল নমুনা অ্যালগরিদম প্রয়োগ করা সহজ করে তোলে৷


https://github.com/benedekrozemberczki/littleballoffur




আমি আশা করি এই আবিষ্কারগুলি আপনার কাছে মূল্যবান এবং আরও শক্তিশালী ML টুলকিট তৈরি করতে সাহায্য করবে! ⚒️


আপনি যদি ওপেন সোর্সে কার্যকরী প্রজেক্ট তৈরি করতে এই টুলগুলিকে কাজে লাগাতে আগ্রহী হন, তাহলে আপনাকে প্রথমে খুঁজে বের করতে হবে যে আপনার বর্তমান DevRank Quine- এ কী আছে এবং আগামী মাসগুলিতে এটি কীভাবে বিকশিত হয় তা দেখতে হবে!


সবশেষে, অনুগ্রহ করে এই প্রকল্পগুলিকে তারকাচিহ্নিত করে সমর্থন করার কথা বিবেচনা করুন৷ ⭐️


PS: আমরা তাদের সাথে যুক্ত নই। আমরা শুধু মনে করি যে মহান প্রকল্প মহান স্বীকৃতি প্রাপ্য.


বুম

পরের সপ্তাহে দেখা হবে,

আপনার হ্যাকারনুন বন্ধু 💚

বাপ



আপনি যদি ওপেন সোর্সে স্ব-ঘোষিত "কুলেস্ট" সার্ভারে যোগ দিতে চান 😝, তাহলে আপনাকে আমাদের ডিসকর্ড সার্ভারে যোগ দিতে হবে। ওপেন সোর্সে আপনার যাত্রায় আপনাকে সাহায্য করতে আমরা এখানে আছি। 🫶


এছাড়াও এখানে প্রকাশিত.