হাই 👋 আজ, আসুন 7 ML রেপোতে ডুব দেওয়া যাক যা (এবং যাদের সম্পর্কে আপনি সম্ভবত কখনও শুনেননি)! শীর্ষ 1% বিকাশকারীরা ব্যবহার করে শীর্ষ 1% কি সংজ্ঞায়িত করে? বিকাশকারীদের র্যাঙ্কিং একটি সমস্যা, এবং প্রতিটি পদ্ধতির নিজস্ব সমস্যা রয়েছে। কঠিন উদাহরণস্বরূপ, আপনি যদি ডেভেলপারদের পাইথনে লেখা কোডের লাইনের সংখ্যা অনুসারে র্যাঙ্ক করেন তাহলে আপনি সম্ভবত শীর্ষে কিছু সুন্দর পাইথন বিকাশকারী পাবেন। যাইহোক, আপনি এমন লোকদের পেতে পারেন যারা তাদের রেপোতে প্রচুর পাইথন কোড কপি-পেস্ট করেছেন এবং তারা তেমন ভাল নয়। 🙁 কুইনে, আমরা , কিন্তু আবার 100% নিখুঁত নয়! একটি পদ্ধতি তৈরি করেছি যা আমরা মনে করি বেশিরভাগ ক্ষেত্রেই শক্তিশালী এটিকে বলা হয় DevRank (আমরা কীভাবে এটি গণনা করি সে সম্পর্কে আপনি আরও পড়তে পারেন)। এখানে শীর্ষ 1% এর ধারণা যা আমি এই নিবন্ধে ব্যবহার করি তা DevRank-এর উপর ভিত্তি করে। এবং হ্যাঁ, আমরা প্রতিদিন এটিকে আরও ভাল করার জন্য এটিতে কাজ চালিয়ে যাচ্ছি! আমরা কিভাবে জানি যে কোন রিপোজ শীর্ষ 1% ব্যবহার করে? আমরা 99 তম পার্সেন্টাইল তারকাচিহ্নিত repos দেখুন. তারপরে আমরা উপরের 1% devs বনাম নীচের 50% devs-এর প্রবণতা একটি রেপো স্টার করার জন্য তুলনা করি এবং স্বয়ংক্রিয়ভাবে তালিকা তৈরি করি। অন্য কথায়, এই সংগ্রহস্থলগুলি হল শীর্ষ 1% ডেভেলপারদের দ্বারা ব্যবহৃত লুকানো রত্ন এবং বৃহত্তর বিকাশকারী সম্প্রদায়ের দ্বারা এখনও আবিষ্কার করা হয়নি৷ চতুরসিএসভি আমি আপনার অগোছালো CSV পরিচালনা করি আমাদের কিছু বন্ধু দ্বারা তৈরি একটি প্যাকেজ৷ অনেক ML পাইপলাইনের শুরুতে একটি ছোট কিন্তু সাধারণ সমস্যা, ভালভাবে সমাধান করা হয়েছে। 🔮 CSV ফাইল লোড করার সাধারণ ব্যথার পয়েন্টগুলি পরিচালনা করার জন্য CleverCSV এর আর্গুমেন্টে কিছু বলার প্রয়োজন ছাড়াই বিভিন্ন CSV উপভাষা সনাক্ত করতে এবং লোড করতে সক্ষম। CSV ফাইলগুলি নেটিভভাবে এটি সম্পাদন করার জন্য প্রয়োজনীয় তথ্য প্রদান করে না, তাই লাইব্রেরির দ্বারা কিছু চতুর অনুমান প্রয়োজন৷ CleverCSV এমনকি অগোছালো CSV ফাইলগুলি পরিচালনা করতে পারে, যেগুলির ফর্ম্যাটিংয়ে ভুল রয়েছে৷ পাইথন লাইব্রেরি ছাড়াও, CleverCSV-এ কোড জেনারেশন, এক্সপ্লোরেশন এবং স্ট্যান্ডার্ডাইজেশনের জন্য একটি কমান্ড লাইন ইন্টারফেসও রয়েছে। https://github.com/alan-turing-institute/CleverCSV skll স্ট্রীমলাইন এমএল ওয়ার্কফ্লো সিকিট-লার্নের মাধ্যমে সিএলআই ? অনেক পরিষ্কার কোডিং অভিজ্ঞতার জন্য পরিবর্তে এর ইন্টারফেস ব্যবহার করে দেখুন। ⚡️ আপনি কি একাধিক অ্যালগরিদম সহ ক্রস-ভ্যালিডেটেড ফলাফল পেতে স্কলারনে অন্তহীন বয়লারপ্লেট লিখছেন skll Skll কে ডিজাইন করা হয়েছে স্কিট-লার্নের সাথে মেশিন লার্নিং এক্সপেরিমেন্টগুলিকে আরও দক্ষতার সাথে চালানোর জন্য, বিস্তৃত কোডিংয়ের প্রয়োজনীয়তা হ্রাস করে। প্রদত্ত নেতৃস্থানীয় ইউটিলিটি বলা হয় , এবং এটি একটি কনফিগারেশন ফাইলে নির্দিষ্ট করা ডেটাসেটে শিক্ষার্থীদের একটি সিরিজ চালায়। run_experiment এটি বিদ্যমান কোডের সাথে সহজবোধ্য একীকরণের জন্য একটি পাইথন এপিআইও অফার করে, যার মধ্যে ফর্ম্যাট রূপান্তর এবং বৈশিষ্ট্য ফাইল অপারেশনের জন্য সরঞ্জাম রয়েছে। https://github.com/EducationalTestingService/skll দস্যুপিএএম প্রায় লিনিয়ার-টাইমে k-Medoids ক্লাস্টারিং এখানে মৌলিক অ্যালগোসে ফিরে যান — যা প্রায় লিনিয়ার সময়ে চলতে পারে। 🎉 BanditPAM হল একটি নতুন k-medoids (একটি শক্তিশালী "k-means" মনে করুন) অ্যালগরিদম আগের অ্যালগরিদম অনুযায়ী O(n^2) সময়ের পরিবর্তে O(nlogn) সময়ে চলে। ক্লাস্টার কেন্দ্রগুলি ডেটা পয়েন্ট, এবং তাই অর্থপূর্ণ পর্যবেক্ষণের সাথে সঙ্গতিপূর্ণ। একটি k- মানে ক্লাস্টারের কেন্দ্রটি অবৈধ ডেটার সাথে মিলিত হতে পারে; এটি k-medoids দিয়ে সম্ভব নয়। নির্বিচারে দূরত্বের মেট্রিক্স ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ L1, বা হ্যামিং দূরত্ব মনে করুন), দক্ষ k- মানে অ্যালগোগুলি সাধারণত L2 দূরত্বের মধ্যে সীমাবদ্ধ থাকে। এই থেকে বাস্তবায়িত, BanditPAM ডেটা বিজ্ঞানীদের জন্য আদর্শ যারা গ্রুপ কাজের জন্য একটি শক্তিশালী, মাপযোগ্য সমাধান খুঁজছেন, বিশেষ করে যারা বড় বা জটিল ডেটা নিয়ে কাজ করে। কাগজ https://github.com/motiwari/BanditPAM রেকর্ড লিঙ্ক রেকর্ড ম্যাচার এবং ডুপ্লিকেট ডিটেক্টর সবার প্রয়োজন আপনি কি কখনও , বা যাদের বৈশিষ্ট্যগুলি কিছুটা আলাদা? দ্বারা অনুপ্রাণিত এই দুর্দান্ত লাইব্রেরিটি ব্যবহার করুন, আধুনিক পাইথন টুলিংয়ের জন্য পুনর্নির্মিত। 🛠️ বিভিন্ন ডেটাসেটের মধ্যে ব্যবহারকারীদের সাথে মেলাতে লড়াই করেছেন যারা তাদের নামের বানান ভুল করেছেন ফ্রিলি এক্সটেনসিবল বায়োমেডিকাল রেকর্ড লিঙ্কেজ (FEBRL) numpy এবং pandas ব্যবহার করে শক্তিশালী FEBRL লাইব্রেরির একটি পাইথন নেটিভ ইমপ্লিমেন্টেশন প্রদান করে। তত্ত্বাবধান করা এবং তত্ত্বাবধানহীন উভয় পদ্ধতিই অন্তর্ভুক্ত। তত্ত্বাবধানে থাকা ML পন্থাগুলিকে সক্ষম করতে মিলিত জোড়া তৈরি করার জন্য সরঞ্জামগুলি অন্তর্ভুক্ত করে৷ রেকর্ড লিঙ্কেজ এবং ডেটা ডিডপ্লিকেশন কাজগুলি সম্পাদন করার জন্য নমনীয়, পাইথন-ভিত্তিক সমাধান খুঁজছেন ডেটা বিজ্ঞানীদের জন্য রেকর্ডলিঙ্কেজ আদর্শ। https://github.com/J535D165/recordlinkage dragnet ওয়েব পৃষ্ঠা বিষয়বস্তু নিষ্কাশন উপর একটি একমাত্র ফোকাস . Dragnet একটি পৃষ্ঠার বিষয়বস্তু এবং ব্যবহারকারীর মন্তব্যগুলিতে ফোকাস করে এবং বাকিগুলি উপেক্ষা করে৷ এটা আমাদের স্ক্র্যাপার-বন্ধুদের জন্য সুবিধাজনক। 🕷️ ওয়েবপেজ থেকে বিষয়বস্তু নিষ্কাশন ড্রাগনেটের লক্ষ্য হল বিজ্ঞাপন বা নেভিগেশন সরঞ্জামের মতো অবাঞ্ছিত বিষয়বস্তু সরিয়ে ওয়েব পৃষ্ঠাগুলি থেকে কীওয়ার্ড এবং বাক্যাংশ বের করা। HTML স্ট্রিং থেকে বিষয়বস্তু বের করার জন্য মন্তব্য অন্তর্ভুক্ত বা বাদ দেওয়ার বিকল্প সহ সাধারণ পাইথন ফাংশন ( এবং ) প্রদান করে। extract_content extract_content_and_comments একটি এক্সট্র্যাক্টর ক্লাস রয়েছে আরও উন্নত ব্যবহারের জন্য, যা কাস্টমাইজেশন এবং এক্সট্রাক্টরদের প্রশিক্ষণের অনুমতি দেয়। sklearn-style https://github.com/dragnet-org/dragnet spacy-স্তবক সর্বশেষ StanfordNLP গবেষণা মডেল সরাসরি spaCy পার্ট-অফ-স্পীচ ট্যাগিং, নির্ভরতা পার্সিং এবং নামযুক্ত সত্তা স্বীকৃতির মতো স্ট্যান্ডার্ড NLP কাজগুলিতে আগ্রহী? 🤔 SpaCy-Stanza স্পেসাই পাইপলাইনে ব্যবহার করার জন্য স্তানজা (পূর্বে স্ট্যানফোর্ডএনএলপি) লাইব্রেরি মোড়ানো। প্যাকেজটিতে নির্বাচিত ভাষার জন্য নামযুক্ত সত্তা শনাক্তকরণ ক্ষমতা রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজে এর উপযোগিতা প্রসারিত করা হয়েছে। এটি 68টি ভাষা সমর্থন করে, এটি বিভিন্ন ভাষাগত অ্যাপ্লিকেশনের জন্য বহুমুখী করে তোলে। প্যাকেজটি আপনার পাইপলাইনকে অতিরিক্ত spaCy উপাদানের সাথে কাস্টমাইজ করার অনুমতি দেয়। https://github.com/explosion/spacy-stanza লিটলবলফর "গ্রাফ স্যাম্পলিং কাজের জন্য সুইস আর্মি ছুরি" আপনি কি কখনও এত বড় ডেটাসেট নিয়ে কাজ করেছেন যে আপনাকে এটির একটি নমুনা নিতে হবে? সাধারণ ডেটার জন্য, এলোমেলো নমুনা একটি ছোট নমুনায় বিতরণ বজায় রাখে। যাইহোক, জটিল নেটওয়ার্কগুলিতে, স্নোবল স্যাম্পলিং - - নেটওয়ার্ক গঠন আরও ভাল ক্যাপচার করে। যেখানে আপনি প্রাথমিক ব্যবহারকারীদের নির্বাচন করেন এবং তাদের সংযোগগুলি অন্তর্ভুক্ত করেন এটি বিশ্লেষণে পক্ষপাত এড়াতে সাহায্য করে। 🔦 এখন, আপনার কাছে কি (হয় অ্যালগরিদমিক বা গণনাগত কারণে)? 👩💻 গ্রাফ-গঠিত ডেটা আছে এবং এটির নমুনাগুলিতে কাজ করতে হবে Littleballoffur নোড-, এজ- এবং অন্বেষণ-নমুনা সহ গ্রাফ এবং নেটওয়ার্ক থেকে নমুনা নেওয়ার জন্য বিভিন্ন পদ্ধতির প্রস্তাব দেয়। একটি ইউনিফাইড অ্যাপ্লিকেশান পাবলিক ইন্টারফেস দিয়ে ডিজাইন করা হয়েছে, ব্যবহারকারীদের জন্য গভীর প্রযুক্তিগত জ্ঞান ছাড়াই জটিল নমুনা অ্যালগরিদম প্রয়োগ করা সহজ করে তোলে৷ https://github.com/benedekrozemberczki/littleballoffur আমি আশা করি এই আবিষ্কারগুলি আপনার কাছে মূল্যবান এবং আরও শক্তিশালী ML টুলকিট তৈরি করতে সাহায্য করবে! ⚒️ আপনি যদি ওপেন সোর্সে কার্যকরী প্রজেক্ট তৈরি করতে এই টুলগুলিকে কাজে লাগাতে আগ্রহী হন, তাহলে আপনাকে প্রথমে খুঁজে বের করতে হবে যে আপনার বর্তমান DevRank এ কী আছে এবং আগামী মাসগুলিতে এটি কীভাবে বিকশিত হয় তা দেখতে হবে! Quine- সবশেষে, অনুগ্রহ করে এই প্রকল্পগুলিকে তারকাচিহ্নিত করে সমর্থন করার কথা বিবেচনা করুন৷ ⭐️ PS: আমরা তাদের সাথে যুক্ত নই। আমরা শুধু মনে করি যে মহান প্রকল্প মহান স্বীকৃতি প্রাপ্য. পরের সপ্তাহে দেখা হবে, আপনার হ্যাকারনুন বন্ধু 💚 বাপ আপনি যদি ওপেন সোর্সে স্ব-ঘোষিত "কুলেস্ট" সার্ভারে যোগ দিতে চান 😝, তাহলে আপনাকে আমাদের যোগ দিতে হবে। ওপেন সোর্সে আপনার যাত্রায় আপনাকে সাহায্য করতে আমরা এখানে আছি। 🫶 ডিসকর্ড সার্ভারে এছাড়াও প্রকাশিত. এখানে