হাই 👋
আজ, আসুন 7 ML রেপোতে ডুব দেওয়া যাক যা শীর্ষ 1% বিকাশকারীরা ব্যবহার করে (এবং যাদের সম্পর্কে আপনি সম্ভবত কখনও শুনেননি)!
বিকাশকারীদের র্যাঙ্কিং একটি কঠিন সমস্যা, এবং প্রতিটি পদ্ধতির নিজস্ব সমস্যা রয়েছে।
উদাহরণস্বরূপ, আপনি যদি ডেভেলপারদের পাইথনে লেখা কোডের লাইনের সংখ্যা অনুসারে র্যাঙ্ক করেন তাহলে আপনি সম্ভবত শীর্ষে কিছু সুন্দর পাইথন বিকাশকারী পাবেন।
যাইহোক, আপনি এমন লোকদের পেতে পারেন যারা তাদের রেপোতে প্রচুর পাইথন কোড কপি-পেস্ট করেছেন এবং তারা তেমন ভাল নয়। 🙁
কুইনে, আমরা একটি পদ্ধতি তৈরি করেছি যা আমরা মনে করি বেশিরভাগ ক্ষেত্রেই শক্তিশালী , কিন্তু আবার 100% নিখুঁত নয়!
এটিকে বলা হয় DevRank (আমরা কীভাবে এটি এখানে গণনা করি সে সম্পর্কে আপনি আরও পড়তে পারেন)।
শীর্ষ 1% এর ধারণা যা আমি এই নিবন্ধে ব্যবহার করি তা DevRank-এর উপর ভিত্তি করে।
এবং হ্যাঁ, আমরা প্রতিদিন এটিকে আরও ভাল করার জন্য এটিতে কাজ চালিয়ে যাচ্ছি!
আমরা 99 তম পার্সেন্টাইল তারকাচিহ্নিত repos দেখুন.
তারপরে আমরা উপরের 1% devs বনাম নীচের 50% devs-এর প্রবণতা একটি রেপো স্টার করার জন্য তুলনা করি এবং স্বয়ংক্রিয়ভাবে তালিকা তৈরি করি।
অন্য কথায়, এই সংগ্রহস্থলগুলি হল শীর্ষ 1% ডেভেলপারদের দ্বারা ব্যবহৃত লুকানো রত্ন এবং বৃহত্তর বিকাশকারী সম্প্রদায়ের দ্বারা এখনও আবিষ্কার করা হয়নি৷
আমি আপনার অগোছালো CSV পরিচালনা করি
CSV ফাইল লোড করার সাধারণ ব্যথার পয়েন্টগুলি পরিচালনা করার জন্য আমাদের কিছু বন্ধু দ্বারা তৈরি একটি প্যাকেজ৷ অনেক ML পাইপলাইনের শুরুতে একটি ছোট কিন্তু সাধারণ সমস্যা, ভালভাবে সমাধান করা হয়েছে। 🔮
CleverCSV এর আর্গুমেন্টে কিছু বলার প্রয়োজন ছাড়াই বিভিন্ন CSV উপভাষা সনাক্ত করতে এবং লোড করতে সক্ষম। CSV ফাইলগুলি নেটিভভাবে এটি সম্পাদন করার জন্য প্রয়োজনীয় তথ্য প্রদান করে না, তাই লাইব্রেরির দ্বারা কিছু চতুর অনুমান প্রয়োজন৷
CleverCSV এমনকি অগোছালো CSV ফাইলগুলি পরিচালনা করতে পারে, যেগুলির ফর্ম্যাটিংয়ে ভুল রয়েছে৷
পাইথন লাইব্রেরি ছাড়াও, CleverCSV-এ কোড জেনারেশন, এক্সপ্লোরেশন এবং স্ট্যান্ডার্ডাইজেশনের জন্য একটি কমান্ড লাইন ইন্টারফেসও রয়েছে।
https://github.com/alan-turing-institute/CleverCSV
স্ট্রীমলাইন এমএল ওয়ার্কফ্লো সিকিট-লার্নের মাধ্যমে সিএলআই
আপনি কি একাধিক অ্যালগরিদম সহ ক্রস-ভ্যালিডেটেড ফলাফল পেতে স্কলারনে অন্তহীন বয়লারপ্লেট লিখছেন ? অনেক পরিষ্কার কোডিং অভিজ্ঞতার জন্য পরিবর্তে skll
এর ইন্টারফেস ব্যবহার করে দেখুন। ⚡️
Skll কে ডিজাইন করা হয়েছে স্কিট-লার্নের সাথে মেশিন লার্নিং এক্সপেরিমেন্টগুলিকে আরও দক্ষতার সাথে চালানোর জন্য, বিস্তৃত কোডিংয়ের প্রয়োজনীয়তা হ্রাস করে।
প্রদত্ত নেতৃস্থানীয় ইউটিলিটি বলা হয় run_experiment
, এবং এটি একটি কনফিগারেশন ফাইলে নির্দিষ্ট করা ডেটাসেটে শিক্ষার্থীদের একটি সিরিজ চালায়।
এটি বিদ্যমান কোডের সাথে সহজবোধ্য একীকরণের জন্য একটি পাইথন এপিআইও অফার করে, যার মধ্যে ফর্ম্যাট রূপান্তর এবং বৈশিষ্ট্য ফাইল অপারেশনের জন্য সরঞ্জাম রয়েছে।
https://github.com/EducationalTestingService/skll
প্রায় লিনিয়ার-টাইমে k-Medoids ক্লাস্টারিং
এখানে মৌলিক অ্যালগোসে ফিরে যান — BanditPAM হল একটি নতুন k-medoids (একটি শক্তিশালী "k-means" মনে করুন) অ্যালগরিদম যা প্রায় লিনিয়ার সময়ে চলতে পারে। 🎉
আগের অ্যালগরিদম অনুযায়ী O(n^2) সময়ের পরিবর্তে O(nlogn) সময়ে চলে।
ক্লাস্টার কেন্দ্রগুলি ডেটা পয়েন্ট, এবং তাই অর্থপূর্ণ পর্যবেক্ষণের সাথে সঙ্গতিপূর্ণ। একটি k- মানে ক্লাস্টারের কেন্দ্রটি অবৈধ ডেটার সাথে মিলিত হতে পারে; এটি k-medoids দিয়ে সম্ভব নয়।
নির্বিচারে দূরত্বের মেট্রিক্স ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ L1, বা হ্যামিং দূরত্ব মনে করুন), দক্ষ k- মানে অ্যালগোগুলি সাধারণত L2 দূরত্বের মধ্যে সীমাবদ্ধ থাকে।
এইকাগজ থেকে বাস্তবায়িত, BanditPAM ডেটা বিজ্ঞানীদের জন্য আদর্শ যারা গ্রুপ কাজের জন্য একটি শক্তিশালী, মাপযোগ্য সমাধান খুঁজছেন, বিশেষ করে যারা বড় বা জটিল ডেটা নিয়ে কাজ করে।
https://github.com/motiwari/BanditPAM
রেকর্ড ম্যাচার এবং ডুপ্লিকেট ডিটেক্টর সবার প্রয়োজন
আপনি কি কখনও বিভিন্ন ডেটাসেটের মধ্যে ব্যবহারকারীদের সাথে মেলাতে লড়াই করেছেন যারা তাদের নামের বানান ভুল করেছেন , বা যাদের বৈশিষ্ট্যগুলি কিছুটা আলাদা? ফ্রিলি এক্সটেনসিবল বায়োমেডিকাল রেকর্ড লিঙ্কেজ (FEBRL) দ্বারা অনুপ্রাণিত এই দুর্দান্ত লাইব্রেরিটি ব্যবহার করুন, আধুনিক পাইথন টুলিংয়ের জন্য পুনর্নির্মিত। 🛠️
numpy এবং pandas ব্যবহার করে শক্তিশালী FEBRL লাইব্রেরির একটি পাইথন নেটিভ ইমপ্লিমেন্টেশন প্রদান করে।
তত্ত্বাবধান করা এবং তত্ত্বাবধানহীন উভয় পদ্ধতিই অন্তর্ভুক্ত।
তত্ত্বাবধানে থাকা ML পন্থাগুলিকে সক্ষম করতে মিলিত জোড়া তৈরি করার জন্য সরঞ্জামগুলি অন্তর্ভুক্ত করে৷
রেকর্ড লিঙ্কেজ এবং ডেটা ডিডপ্লিকেশন কাজগুলি সম্পাদন করার জন্য নমনীয়, পাইথন-ভিত্তিক সমাধান খুঁজছেন ডেটা বিজ্ঞানীদের জন্য রেকর্ডলিঙ্কেজ আদর্শ।
https://github.com/J535D165/recordlinkage
ওয়েব পৃষ্ঠা বিষয়বস্তু নিষ্কাশন উপর একটি একমাত্র ফোকাস
ওয়েবপেজ থেকে বিষয়বস্তু নিষ্কাশন . Dragnet একটি পৃষ্ঠার বিষয়বস্তু এবং ব্যবহারকারীর মন্তব্যগুলিতে ফোকাস করে এবং বাকিগুলি উপেক্ষা করে৷ এটা আমাদের স্ক্র্যাপার-বন্ধুদের জন্য সুবিধাজনক। 🕷️
ড্রাগনেটের লক্ষ্য হল বিজ্ঞাপন বা নেভিগেশন সরঞ্জামের মতো অবাঞ্ছিত বিষয়বস্তু সরিয়ে ওয়েব পৃষ্ঠাগুলি থেকে কীওয়ার্ড এবং বাক্যাংশ বের করা।
HTML স্ট্রিং থেকে বিষয়বস্তু বের করার জন্য মন্তব্য অন্তর্ভুক্ত বা বাদ দেওয়ার বিকল্প সহ সাধারণ পাইথন ফাংশন ( extract_content
এবং extract_content_and_comments
) প্রদান করে।
একটি sklearn-style
এক্সট্র্যাক্টর ক্লাস রয়েছে আরও উন্নত ব্যবহারের জন্য, যা কাস্টমাইজেশন এবং এক্সট্রাক্টরদের প্রশিক্ষণের অনুমতি দেয়।
https://github.com/dragnet-org/dragnet
সর্বশেষ StanfordNLP গবেষণা মডেল সরাসরি spaCy
পার্ট-অফ-স্পীচ ট্যাগিং, নির্ভরতা পার্সিং এবং নামযুক্ত সত্তা স্বীকৃতির মতো স্ট্যান্ডার্ড NLP কাজগুলিতে আগ্রহী? 🤔
SpaCy-Stanza স্পেসাই পাইপলাইনে ব্যবহার করার জন্য স্তানজা (পূর্বে স্ট্যানফোর্ডএনএলপি) লাইব্রেরি মোড়ানো।
https://github.com/explosion/spacy-stanza
"গ্রাফ স্যাম্পলিং কাজের জন্য সুইস আর্মি ছুরি"
আপনি কি কখনও এত বড় ডেটাসেট নিয়ে কাজ করেছেন যে আপনাকে এটির একটি নমুনা নিতে হবে? সাধারণ ডেটার জন্য, এলোমেলো নমুনা একটি ছোট নমুনায় বিতরণ বজায় রাখে। যাইহোক, জটিল নেটওয়ার্কগুলিতে, স্নোবল স্যাম্পলিং - যেখানে আপনি প্রাথমিক ব্যবহারকারীদের নির্বাচন করেন এবং তাদের সংযোগগুলি অন্তর্ভুক্ত করেন - নেটওয়ার্ক গঠন আরও ভাল ক্যাপচার করে।
এটি বিশ্লেষণে পক্ষপাত এড়াতে সাহায্য করে। 🔦
এখন, আপনার কাছে কি গ্রাফ-গঠিত ডেটা আছে এবং এটির নমুনাগুলিতে কাজ করতে হবে (হয় অ্যালগরিদমিক বা গণনাগত কারণে)? 👩💻
Littleballoffur নোড-, এজ- এবং অন্বেষণ-নমুনা সহ গ্রাফ এবং নেটওয়ার্ক থেকে নমুনা নেওয়ার জন্য বিভিন্ন পদ্ধতির প্রস্তাব দেয়।
একটি ইউনিফাইড অ্যাপ্লিকেশান পাবলিক ইন্টারফেস দিয়ে ডিজাইন করা হয়েছে, ব্যবহারকারীদের জন্য গভীর প্রযুক্তিগত জ্ঞান ছাড়াই জটিল নমুনা অ্যালগরিদম প্রয়োগ করা সহজ করে তোলে৷
https://github.com/benedekrozemberczki/littleballoffur
আমি আশা করি এই আবিষ্কারগুলি আপনার কাছে মূল্যবান এবং আরও শক্তিশালী ML টুলকিট তৈরি করতে সাহায্য করবে! ⚒️
আপনি যদি ওপেন সোর্সে কার্যকরী প্রজেক্ট তৈরি করতে এই টুলগুলিকে কাজে লাগাতে আগ্রহী হন, তাহলে আপনাকে প্রথমে খুঁজে বের করতে হবে যে আপনার বর্তমান DevRank Quine- এ কী আছে এবং আগামী মাসগুলিতে এটি কীভাবে বিকশিত হয় তা দেখতে হবে!
সবশেষে, অনুগ্রহ করে এই প্রকল্পগুলিকে তারকাচিহ্নিত করে সমর্থন করার কথা বিবেচনা করুন৷ ⭐️
PS: আমরা তাদের সাথে যুক্ত নই। আমরা শুধু মনে করি যে মহান প্রকল্প মহান স্বীকৃতি প্রাপ্য.
পরের সপ্তাহে দেখা হবে,
আপনার হ্যাকারনুন বন্ধু 💚
বাপ
আপনি যদি ওপেন সোর্সে স্ব-ঘোষিত "কুলেস্ট" সার্ভারে যোগ দিতে চান 😝, তাহলে আপনাকে আমাদের ডিসকর্ড সার্ভারে যোগ দিতে হবে। ওপেন সোর্সে আপনার যাত্রায় আপনাকে সাহায্য করতে আমরা এখানে আছি। 🫶
এছাড়াও এখানে প্রকাশিত.