আমরা যখন তথ্যের গভীরে হাঁটু গেড়ে থাকি, অন্তর্দৃষ্টির লুকানো রত্নগুলিকে উন্মোচন করতে খুঁজি, তখন আমরা প্রায়শই নিজেদেরকে একগুচ্ছ অনুমানকে জাগিয়ে দেখতে পাই। কল্পনা করুন আপনি এমন একটি পার্টিতে আছেন যেখানে প্রতিটি অতিথি একটি মুখোশ পরেন এবং আপনি প্রত্যেকের পিছনে কে আছে তা খুঁজে বের করার চেষ্টা করছেন। আপনি যত বেশি লোক অনুমান করবেন, আপনার ভুল করার সম্ভাবনা তত বেশি। এটি পরিসংখ্যানে একাধিক তুলনা সমস্যার অসুবিধা - আপনার পরীক্ষা করা প্রতিটি হাইপোথিসিসের জন্য, আরেকটি পপ আপ হয়, অন্তত একবার ভুল হওয়ার সম্ভাবনা বাড়িয়ে দেয়। আসুন কিছু পাইথন শৈলী এবং জিনিসগুলি হালকা রাখতে কিছুটা হাস্যরসের সাথে এই ধারণাটি ভেঙে দেওয়া যাক। একাধিক তুলনা সমস্যা: একটি সংক্ষিপ্ত এটি চিত্র: আপনি পরীক্ষা বা সমীক্ষা পরিচালনা করছেন এবং আপনার কাছে প্রশ্নের একটি সম্পূর্ণ তালিকা রয়েছে (অনুমান) আপনি উত্তর দেওয়ার চেষ্টা করছেন। ধরা হল যে আপনি যত বেশি প্রশ্ন করবেন, আপনার কিছু উত্তর ভুল হওয়ার সম্ভাবনা তত বেশি (হ্যালো, !)। এটি একটি পরিসংখ্যানগত দল ফাউল যা একাধিক তুলনা সমস্যা হিসাবে পরিচিত। টাইপ আই ত্রুটি পার্টির জন্য অপরিহার্য পরিভাষা নাল হাইপোথিসিস হল আপনার বেসলাইন অনুমান যে বিশেষ কিছু ঘটছে না। এটি আপনার পার্টিতে একজন অতিথির দিকে তাকিয়ে বলার মতো, "আপনি কেবল একজন নিয়মিত ব্যক্তি, মুখোশের মধ্যে একজন সেলিব্রিটি নন।" যখন আমরা একাধিক অনুমান পরীক্ষা করছি, তখন আমরা মূলত অতিথিদের একটি দল পরীক্ষা করছি যে তাদের মধ্যে কেউ সেলিব্রিটি কিনা। নাল হাইপোথিসিস (H0): একটি টাইপ I ত্রুটি হল যখন আপনি ভুল করে ভাবেন যে আপনি একজন সেলিব্রিটিকে দেখেছেন, কিন্তু এটি সত্যিই একজন ভাল পোশাক পরা কেউ। পরিসংখ্যানের জগতে, যখন আপনি ভুলভাবে শূন্য অনুমানকে প্রত্যাখ্যান করেন, মনে করেন যে আপনি একটি উল্লেখযোগ্য প্রভাব বা পার্থক্য খুঁজে পেয়েছেন যখন একটি নেই। টাইপ I ত্রুটি: FWER হল আপনার পার্টিতে একজন সেলিব্রিটি হিসেবে একজন নিয়মিত গেস্টকে ভুলভাবে চিহ্নিত করা নিয়ে খুব চিন্তিত হওয়ার মতো। আপনি যে সমস্ত পরীক্ষা চালাচ্ছেন তার মধ্যে এটি অন্তত একটি টাইপ I ত্রুটি করার সম্ভাবনা। আপনি যদি 20টি হাইপোথিসিস পরীক্ষা করছেন, FWER সমস্ত 20 টি পরীক্ষায় একটি ভুলও না করার বিষয়ে যত্নশীল। Bonferroni সমন্বয়ের মতো সংশোধনগুলি তাত্পর্যের মানদণ্ডকে আরও কঠোর করে FWER নিয়ন্ত্রণ করতে সাহায্য করে। ভুল "সেলিব্রিটি" বলে ডাকার মাধ্যমে আপনি নিজেকে বিব্রত করবেন না তা নিশ্চিত করে, তারা যেকোন প্রকার I ত্রুটি করার আপনার সম্ভাবনা কমিয়ে দেয়। ফ্যামিলি-ওয়াইজ এরর রেট (FWER): এফডিআর ব্যালেন্স সম্পর্কে আরও বেশি। এটা বলার মতো, "ঠিক আছে, আমি ভুল করে কয়েকজন নিয়মিত অতিথি সেলিব্রিটিকে কল করতে পারি, কিন্তু আমি নিশ্চিত করতে চাই যে আমি যতটা সম্ভব সত্যিকারের সেলিব্রিটিদের ধরতে পারি।" FDR আপনার করা সমস্ত আবিষ্কারের মধ্যে মিথ্যা আবিষ্কারের প্রত্যাশিত অনুপাত নিয়ন্ত্রণ করে। এটি FWER-এর তুলনায় একটু বেশি স্বস্তিদায়ক, যতক্ষণ আপনি বেশিরভাগ সময় সঠিক থাকেন ততক্ষণ পর্যন্ত কিছু অতিথি সেলিব্রিটি হওয়ার বিষয়ে আপনাকে ভুল হতে দেয়। এই পদ্ধতিটি সহায়ক যখন আপনি আরও সম্ভাব্য অন্তর্দৃষ্টি আবিষ্কার করার জন্য কিছু ঝুঁকি নেওয়ার ব্যাপারে ঠিক আছেন, স্বীকার করে যে কিছু মিথ্যা অ্যালার্ম প্রক্রিয়াটির একটি অংশ। ফলস ডিসকভারি রেট (FDR): FWER: Bonferroni সংশোধন বনফেরোনি সংশোধন হল একটি পার্টিতে আপনার অতি-সতর্ক বন্ধু, নিশ্চিত করে যে আপনি ভিড়ের মধ্যে সেলিব্রিটিদের সনাক্ত করতে কোনো ভুল করবেন না। যখন আপনি একবারে অনেক সম্ভাবনার দিকে তাকাচ্ছেন তখন এটি আপনাকে প্রতিটি আবিষ্কার সম্পর্কে অতিরিক্ত নিশ্চিত হওয়ার দাবি করে। কিভাবে এটা কাজ করে: আপনি একাধিক অনুমান পরীক্ষা করছেন, যেমন ভিড়ের মধ্যে সেলিব্রিটিদের চিহ্নিত করার চেষ্টা করা। দৃশ্যকল্প: প্রতিটি অনুসন্ধানকে সত্য বলে বিবেচনা করার জন্য, এটি অবশ্যই একটি আরও কঠোর মান পূরণ করতে হবে। আপনি যদি 10টি হাইপোথিসিস পরীক্ষা করে থাকেন এবং আপনার স্ট্যান্ডার্ড নিশ্চিততার মাত্রা 0.05 হয়, তাহলে Bonferroni প্রতিটি পরীক্ষার জন্য এটিকে 0.005 এ সামঞ্জস্য করে। বনফেরোনির নিয়ম: সূত্রটি: যেখানে হল আপনার প্রাথমিক স্তরের নিশ্চিততা (সাধারণত 0.05), এবং হল আপনার পরীক্ষা করা অনুমানের সংখ্যা। α n প্রভাব: এই পদ্ধতিটি একটি উল্লেখযোগ্য ফলাফল হিসাবে গণনা করার জন্য বারটি উচ্চতর সেট করে মিথ্যা আবিষ্কারের (প্রকার I ত্রুটি) সম্ভাবনাকে ব্যাপকভাবে হ্রাস করে। যাইহোক, এর কঠোরতা আপনাকে সত্য অনুসন্ধানগুলি সনাক্ত করতে বাধা দিতে পারে, যেমন আপনি কোনও সেলিব্রিটিকে চিনতে পারেন না কারণ আপনি ভুল না করার দিকে খুব বেশি মনোযোগী। মোটকথা, বনফেরোনি সংশোধন সত্য আবিষ্কারগুলি হারিয়ে যাওয়ার ঝুঁকিতে মিথ্যা ইতিবাচক এড়ানোকে অগ্রাধিকার দেয়, এটি হাইপোথিসিস পরীক্ষায় একটি রক্ষণশীল পছন্দ করে তোলে। উদ্ধারের জন্য পাইথন: তুলনা পরিচালনা করা আসুন আমাদের বিচক্ষণতা না হারিয়ে একাধিক অনুমানের এই গোলকধাঁধায় নেভিগেট করার জন্য কিছু পাইথন কোড দিয়ে আমাদের হাত নোংরা করি। প্রথম জিনিসগুলি প্রথমে, নিশ্চিত করুন যে আপনি কাজের জন্য সঠিক সরঞ্জামগুলি পেয়েছেন: pip install numpy statsmodels এবং এগিয়ে যান from statsmodels.stats.multitest import multipletests import numpy as np # Imagine these are your p-values from testing various hypotheses p_values = [0.005, 0.0335, 0.098543, 0.00123] # Let's say we did 4 tests # Applying Bonferroni correction bonf_rejected, bonf_corrected, _, _ = multipletests(p_values, alpha=0.05, method='bonferroni') print("Bonferroni Approach") print(f"Rejected: {bonf_rejected}") print(f"Adjusted p-values: {bonf_corrected}\n") আপনার p-মানগুলিতে Bonferroni সংশোধন প্রয়োগ করার পরে আমরা যা পেয়েছি তা ভেঙে দেওয়া যাক: : বনফেরনি সংশোধন আমাদের বলে যে কোন অনুমানগুলিকে সংশোধন করা প্রান্তিকের উপর ভিত্তি করে প্রত্যাখ্যান করা উচিত। এখানে, প্রথম ( ) এবং শেষ ( ) অনুমানগুলি প্রত্যাখ্যান করা হয়েছে, যার অর্থ তারা একাধিক তুলনার জন্য সামঞ্জস্য করার পরেও পরিসংখ্যানগতভাবে উল্লেখযোগ্য ফলাফল দেখায়৷ প্রত্যাখ্যান অনুমান True True : সামঞ্জস্য করা p-মানগুলি হল । সমন্বয় একাধিক পরীক্ষার সাথে আসা টাইপ I ত্রুটির (মিথ্যা ইতিবাচক) বর্ধিত ঝুঁকি নিয়ন্ত্রণের জন্য p-মানগুলিকে বৃদ্ধি করে। সামঞ্জস্য করা p-মান [0.02, 0.134, 0.394172, 0.00492] p-মানগুলির জন্য (মূল): সংশোধনের পরে, এগুলি হল । তারা 0.05 এর থ্রেশহোল্ডের নীচে থাকে, যা ইঙ্গিত করে যে ফলাফলগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ব্যাখ্যা: [0.005, 0.00123] [0.02, 0.00492] এফডিআর: বেঞ্জামিন-হচবার্গ সংশোধন বেঞ্জামিন-হচবার্গ সংশোধন একটি পার্টিতে ভারসাম্যপূর্ণ দারোয়ান হিসাবে কাজ করে, অতিরিক্ত কঠোর না হয়ে সেলিব্রিটিদের জন্য নিয়মিত অতিথিদের ভুল করার ঝুঁকি নিখুঁতভাবে পরিচালনা করে। এটি একটি মধ্যম স্থল খুঁজে পায়, যা আপনাকে একটি পরিচালনাযোগ্য স্তরের ঝুঁকি গ্রহণ করার সময় আত্মবিশ্বাসের সাথে সত্য আবিষ্কারগুলি সনাক্ত করতে দেয়। কিভাবে এটা কাজ করে: আপনি একাধিক ফলাফলের মূল্যায়ন করছেন, যেমন পার্টিগায়ার্সের মধ্যে সেলিব্রিটিদের দেখা। দৃশ্যকল্প: এই পদ্ধতিটি প্রতিটি পি-মানের র্যাঙ্কের উপর ভিত্তি করে তাত্পর্যের মাত্রাগুলিকে সামঞ্জস্য করে, যা অনমনীয় বনফেরনি সংশোধনের তুলনায় আরও নমনীয় পদ্ধতির জন্য অনুমতি দেয়। এটি মিথ্যা আবিষ্কারের হার (FDR) নিয়ন্ত্রণ করে, যা সমস্ত আবিষ্কারের মধ্যে মিথ্যা আবিষ্কারের প্রত্যাশিত অনুপাত। বেঞ্জামিন-হচবার্গের কৌশল: প্রক্রিয়া: ক্ষুদ্রতম থেকে বৃহত্তম। র্যাঙ্ক P-মান: প্রতিটি অনুমানের জন্য, এটি একটি ভিন্ন থ্রেশহোল্ড গণনা করে, যা ছোট পি-মান সহ অনুমানের জন্য আরও নম্র হয়ে ওঠে। এটি তাদের র্যাঙ্ক এবং পরীক্ষার মোট সংখ্যার উপর ভিত্তি করে। তাত্পর্যের স্তরগুলি সামঞ্জস্য করুন: প্রভাব: এফডিআর নিয়ন্ত্রণের উপর মনোযোগ কেন্দ্রীভূত করে, বেঞ্জামিন-হচবার্গ সংশোধন আরও আবিষ্কারকে তাৎপর্যপূর্ণ হিসাবে স্বীকৃত করার অনুমতি দেয়, স্বীকার করে যে কিছু মিথ্যা ইতিবাচক হতে পারে কিন্তু নিশ্চিত করে যে এই ত্রুটিগুলির সামগ্রিক হার নিয়ন্ত্রণে রাখা হয়েছে। এই পদ্ধতিটি বিশেষভাবে কার্যকর যখন আপনি অনেক অনুমান অন্বেষণ করছেন এবং গুরুত্বপূর্ণ ফলাফলগুলি মিস না করার জন্য একটি নির্দিষ্ট স্তরের মিথ্যা আবিষ্কার সহ্য করতে ইচ্ছুক। সংক্ষেপে, বেঞ্জামিন-হচবার্গ সংশোধন সত্য প্রভাব আবিষ্কার এবং মিথ্যা ইতিবাচক হার নিয়ন্ত্রণের মধ্যে একটি ব্যবহারিক ভারসাম্য প্রদান করে, এটি একাধিক তুলনা নিয়ে কাজ করা গবেষকদের জন্য একটি মূল্যবান হাতিয়ার করে তোলে। উদ্ধারের জন্য পাইথন: # Benjamini-Hochberg correction for the brave from statsmodels.stats.multitest import multipletests import numpy as np # Imagine these are your p-values from testing various hypotheses p_values = [0.005, 0.0335, 0.098543, 0.00123] # Let's say we did 4 tests # Applying BH correction bh_rejected, bh_corrected, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh') print("Benjamini-Hochberg Approach") print(f"Rejected: {bh_rejected}") print(f"Adjusted p-values: {bh_corrected}") : নির্দেশ করে কোন অনুমানগুলি সামঞ্জস্যপূর্ণ পি-মানগুলির উপর ভিত্তি করে প্রত্যাখ্যান করা হয়েছিল। এই ক্ষেত্রে, 1ম, 2য় এবং 4 র্থ অনুমানগুলি প্রত্যাখ্যান করা হয়েছিল, যা এই ক্ষেত্রে উল্লেখযোগ্য ফলাফলের পরামর্শ দেয়। প্রত্যাখ্যান অনুমান [True, True, False, True] : সংশোধনের পরে প্রতিটি অনুমানের সামঞ্জস্যপূর্ণ তাত্পর্য স্তরের সাথে মিলে যায়। কোন অনুমানগুলি প্রত্যাখ্যান করা হয়েছে তা নির্ধারণ করতে এই মানগুলিকে আলফা স্তরের সাথে তুলনা করা হয় (এই ক্ষেত্রে, 0.05)। সামঞ্জস্য করা p-মান [0.01, 0.04466667, 0.098543, 0.00492] p-মানগুলির জন্য (মূল): সংশোধনের পরে, এগুলি হল । তারা 0.05 এর থ্রেশহোল্ডের নীচে থাকে, যা ইঙ্গিত করে যে ফলাফলগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ব্যাখ্যা: [0.005, 0.0335, 0.00123] [0.01, 0.04466667, 0.00492] সেলিব্রিটি পদে ফলাফল ব্যাখ্যা করা: এগুলি এমন অস্পষ্ট সেলিব্রিটিদের মতো যাকে সবাই চিনতে পারে, আপনি যতই সতর্ক বা দুঃসাহসিক হন না কেন। উভয় পদ্ধতিই একমত যে এই ফলাফলগুলি তাৎপর্যপূর্ণ, যেমন একটি-তালিকা সেলিব্রিটিদের খুঁজে বের করা যারা মিস করা যাবে না। প্রথম এবং চতুর্থ হাইপোথিসিস (উভয় দ্বারা স্বীকৃত): এটি একটি আরও বিশেষ বা আপ-এন্ড-আমিং সেলিব্রিটির প্রতিনিধিত্ব করে যে BH পদ্ধতি, তার সতর্কতা এবং আশাবাদের মিশ্রণের সাথে, বাজি ধরতে ইচ্ছুক। যাইহোক, অতি রক্ষণশীল বনফেরোনি সতর্কতা অবলম্বন করতে পছন্দ করে, একটি মিথ্যা ইতিবাচক ফলাফলের ভয়ে সুযোগটি মিস করে। দ্বিতীয় হাইপোথিসিস (BH দ্বারা স্বীকৃত কিন্তু Bonferroni দ্বারা নয়): এই রূপকটি পরিসংখ্যানগত সংশোধনে সংবেদনশীলতা এবং নির্দিষ্টতার মধ্যে অন্তর্নিহিত ট্রেড-অফগুলিকে হাইলাইট করে এবং আপনার গবেষণার প্রেক্ষাপটের উপর ভিত্তি করে সঠিক পদ্ধতি বেছে নেওয়ার গুরুত্ব বা, আমাদের কৌতুকপূর্ণ সাদৃশ্যে, আপনি যে ধরনের পার্টিতে যোগ দিচ্ছেন। র্যাপিং ইট আপ: দ্য টেকওয়ে অনেক অনুমান বিবেচনা করা পরিসংখ্যানগত ত্রুটির একটি মাইনফিল্ড নেভিগেট করার মতো। কিন্তু সঠিক টুল (ধন্যবাদ, পাইথন!) এবং কৌশল (হ্যালো বনফেরোনি এবং বেঞ্জামিন-হচবার্গ) দিয়ে, আপনি আপনার বৈজ্ঞানিক সততা বজায় রেখে এটি পরিচালনা করতে পারেন। মনে রাখবেন, এটি সবই ঝুঁকি এবং পুরস্কারের ভারসাম্যের বিষয়ে। আপনি নিজেকে পুনঃবীমা করছেন বা সোনার পেছনে ছুটছেন তা নির্বিশেষে, একাধিক তুলনা বোঝা এবং সংশোধন করা আপনার সিদ্ধান্তগুলিকে আরও নির্ভরযোগ্য করে তুলবে। একটি ভাল তথ্য হান্ট আছে!