paint-brush
ডিপ নিউরাল নেটওয়ার্ক লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করতে: ফলাফলদ্বারা@reinforcement
128 পড়া

ডিপ নিউরাল নেটওয়ার্ক লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করতে: ফলাফল

দ্বারা Reinforcement Technology Advancements11m2024/06/12
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই গবেষণাটি পিইটি/সিটি ছবি থেকে লিম্ফোমা ক্ষত বিভাজনের জন্য চারটি নিউরাল নেটওয়ার্ক আর্কিটেকচারের ব্যাপক মূল্যায়ন করে।
featured image - ডিপ নিউরাল নেটওয়ার্ক লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করতে: ফলাফল
Reinforcement Technology Advancements HackerNoon profile picture
0-item

লেখক:

(1) শাদাব আহমেদ, ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা। তিনি মাইক্রোসফ্ট এআই ফর গুড ল্যাব, রেডমন্ড, ডাব্লুএ, ইউএসএ (ই-মেইল: [email protected]) এর সাথে মিটাক্স এক্সিলারেট ফেলো (মে 2022 - এপ্রিল 2023) ছিলেন;

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;

(3) ক্লেয়ার গাউডি, বিসি চিলড্রেন হাসপাতাল, ভ্যাঙ্কুভার, বিসি, কানাডা;

(4) জু এইচ.ও, সেন্ট মেরি হাসপাতাল, সিউল, কোরিয়া প্রজাতন্ত্র;

(5) ইনগ্রিড ব্লোইস, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(6) ডন উইলসন, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(7) প্যাট্রিক মার্টিনো, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(8) ফ্রাঙ্কোইস বেনার্ড, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(9) ফেরেশতেহ ইউসেফিরিজি, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা;

(10) রাহুল দোধিয়া, Microsoft AI for Good Lab, Redmond, WA, USA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;

(13) কার্লোস এফ. উরিবে, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা, এবং ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা;

(14) আরমান রহমিম, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা, এবং ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা।

লিঙ্কের টেবিল

IV ফলাফল

A. সেগমেন্টেশন কর্মক্ষমতা


চারটি নেটওয়ার্কের কর্মক্ষমতা মধ্যক DSC, FPV এবং FNV ব্যবহার করে মূল্যায়ন করা হয়েছিল এবং উভয় অভ্যন্তরীণ (বিভিন্ন অভ্যন্তরীণ কোহর্ট দ্বারা পৃথক করা পারফরম্যান্স সহ) এবং বাহ্যিক পরীক্ষা সেটে DSC ব্যবহার করা হয়েছিল, যেমনটি সারণি II এ দেখানো হয়েছে। নেটওয়ার্ক পারফরম্যান্সের কিছু ভিজ্যুয়ালাইজেশন চিত্র 2-এ চিত্রিত করা হয়েছে।


SegResNet-এর অভ্যন্তরীণ এবং বাহ্যিক উভয় পরীক্ষা সেটে সর্বোচ্চ মধ্যমা DSC ছিল যথাক্রমে 0.76 [0.27, 0.88] এবং 0.68 [0.40, 0.78] এর মধ্যকার। অভ্যন্তরীণ পরীক্ষার সেটের মধ্যে পৃথক সমগোত্রীয়দের জন্য, UNet-এর DLBCL-BCCV এবং PMBCL-BCCV উভয় ক্ষেত্রেই সেরা DSC ছিল যথাক্রমে 0.72 [0.24, 0.89] এবং 0.74 [0.02, 0.90], যেখানে SegResNet-এর সেরা DSC ছিল। DLBCLSMHS-এ 0.78 [0.62, 0.87]। SegResNet-এর 4.55 [1.35, 31.51] মিলি এবং 21.46 [6.30, 66.44] মিলি মান সহ অভ্যন্তরীণ এবং বাহ্যিক উভয় পরীক্ষা সেটেই সেরা FPV ছিল। ডিএলবিসিএল-বিসিসিভি এবং পিএমবিসিএল-বিসিসিভি সেটের জন্য ডিএসসিতে UNet জয়ী হওয়া সত্ত্বেও, SegResNet এই উভয় সেটে সেরা এফপিভি ছিল যার মধ্যম মান ছিল 5.78 [0.61, 19.97] মিলি এবং 2.15 [0.52, 7.18] মিলি, যেখানে ইউএন, যথাক্রমে ছিল DLBCLSMHS-এ 8.71 [1.19, 34.1] মিলি সেরা FPV। অবশেষে, SwinUNETR-এর অভ্যন্তরীণ পরীক্ষা সেটে 0.0 [0.0, 4.65] মিলি সেরা মধ্যম FNV ছিল, যেখানে UNet-এর বাহ্যিক পরীক্ষা সেটে 0.41 [0.0, 3.88] মিলি সেরা মধ্যম FNV ছিল। DLBCL-BCCV এবং DLBCL-SMHS-এ, SwinUNETR-এর সেরা মধ্যম FNV ছিল যথাক্রমে 0.09 [0.0, 3.39] মিলি এবং 0.0 [0.0, 8.83] মিলি, যখন PMBCL-BCCV, UNet, DynUNet, এবং SwinRET প্রতিটিতে ছিল 0.0 [0.0, 1.24] মিলি মাঝারি মান সহ।


প্রথমত, SegResNet এবং UNet উভয়ই অদেখা বাহ্যিক পরীক্ষার সেটে ভালভাবে সাধারণীকরণ করেছে, গড় এবং মধ্যম হ্রাস সহ


অভ্যন্তরীণ (ডেটা অরিজিন এবং লিম্ফোমা উপ-প্রকার দ্বারা একত্রিত এবং পৃথকীকৃত) এবং বাহ্যিক পরীক্ষার সেটগুলির মধ্যে চারটি নেটওয়ার্কের সারণী দ্বিতীয় তুলনা (আইএন এমএল)। সমস্ত মিডিয়ান মান তাদের IQRS সহ রিপোর্ট করা হয়েছে৷ পরীক্ষার সেটগুলিতে গড় রোগী-স্তরের DSC মানগুলিও সংশ্লিষ্ট স্ট্যান্ডার্ড বিচ্যুতিগুলির সাথে রিপোর্ট করা হয়েছে৷


অভ্যন্তরীণ পরীক্ষার সেটের তুলনায় যথাক্রমে 4% এবং 8% এবং 2% এবং 8% দ্বারা কর্মক্ষমতা। যদিও DynUNet এবং SwinUNETR-এর মাঝারি DSC অভ্যন্তরীণ পরীক্ষা সেটে SegResNet এবং UNet-এর তুলনায় যথেষ্ট কম (প্রায় 6-9%), এই নেটওয়ার্কগুলির মধ্যে আরও ভাল সাধারণীকরণ ছিল যথাক্রমে মাত্র 4% এবং 6% এর মধ্যবর্তী DSC হ্রাসের সাথে। , যখন অভ্যন্তরীণ থেকে বাহ্যিক পরীক্ষায় যাচ্ছে। এটিও লক্ষণীয় যে সমস্ত নেটওয়ার্কের জন্য ডিএসসি আইকিউআরগুলি বাহ্যিক পরীক্ষার সেটের তুলনায় অভ্যন্তরীণ পরীক্ষার সেটে বড় ছিল৷ এছাড়াও, সমস্ত নেটওয়ার্ক বাহ্যিক পরীক্ষার সেটের তুলনায় অভ্যন্তরীণ পরীক্ষা সেটে একটি উচ্চতর 75 তম কোয়ান্টাইল ডিএসসি পেয়েছে, যখন বাইরের পরীক্ষা সেটের তুলনায় অভ্যন্তরীণ পরীক্ষায় একটি কম 25 তম কোয়ান্টাইল ডিএসসি পেয়েছে (SwinUNETR বাদে যেখানে এই প্রবণতাটি বিপরীত হয়েছিল ) একইভাবে, অভ্যন্তরীণ পরীক্ষার সেটের মধ্যে বিভিন্ন সমগোত্রীয়দের জন্য, সমস্ত নেটওয়ার্কের DLBCL-SMHS সেটে সর্বোচ্চ মধ্যম এবং 25 তম কোয়ান্টাইল DSC ছিল। PMBCL-BCCV কোহর্টে সবথেকে খারাপ পারফরম্যান্স পাওয়া গেছে সব নেটওয়ার্ক জুড়ে সবচেয়ে বড় IQR সহ (বিভাগ IV-A.2 এবং চিত্র 6 দেখুন)। মজার ব্যাপার হল, অভ্যন্তরীণ এবং বাহ্যিক উভয় পরীক্ষা সেটে DSC-তে কম পারফরম্যান্স থাকা সত্ত্বেও (সর্বোত্তম পারফর্মিং মডেলের তুলনায়), SwinUNETR-এর অভ্যন্তরীণ পরীক্ষার সেটে সমদল জুড়ে সেরা মধ্যম FNV মান ছিল।




বাহ্যিক পরীক্ষার সেটে একই বিশ্লেষণ করা হয়েছিল, যেমনটি চিত্র 4-এ দেখানো হয়েছে। বাহ্যিক পরীক্ষার সেটের জন্য, একমাত্র ক্ষত পরিমাপ যা পুনরুত্পাদনযোগ্য ছিল তা হল SegResNet এবং SwinUNETR দ্বারা SUVmean, SegResNet দ্বারা ক্ষতের সংখ্যা এবং DynUNet দ্বারা TLG। এটি দেখায় যে DSC বা অন্যান্য ঐতিহ্যগত বিভাজন মেট্রিক্সের পরিপ্রেক্ষিতে নেটওয়ার্কগুলির কর্মক্ষমতা সর্বদা ক্ষত পরিমাপ অনুমান করার ক্ষেত্রে তাদের দক্ষতা প্রতিফলিত করে না। SUVmax, ক্ষতের সংখ্যা এবং Dmax এর মতো ক্ষত পরিমাপ সাধারণত নেটওয়ার্ক দ্বারা পুনরুত্পাদন করা কঠিন। SUVmax উচ্চ SUV গ্রহণের অঞ্চলে ভুল মিথ্যা ইতিবাচক ভবিষ্যদ্বাণীগুলির জন্য অত্যন্ত সংবেদনশীল ছিল। একইভাবে, ক্ষতগুলির সংখ্যা ভুলভাবে বিভক্ত সংযোগ বিচ্ছিন্ন উপাদানগুলির জন্য অত্যন্ত সংবেদনশীল ছিল, এবং Dmax স্থল সত্য বিভাজন থেকে অনেক দূরে একটি মিথ্যা ইতিবাচক ভবিষ্যদ্বাণীর উপস্থিতির জন্য অত্যন্ত সংবেদনশীল ছিল (যদিও এই ধরনের মিথ্যা ইতিবাচক ভবিষ্যদ্বাণীগুলির পরিমাণ খুব কম হতে পারে, যে ক্ষেত্রে এটি টিএমটিভি বা টিএলজিতে খুব কম অবদান রাখবে, যেমনটি অভ্যন্তরীণ পরীক্ষা সেটে দেখা যায়)।




চিত্র 5. সম্মিলিত অভ্যন্তরীণ এবং বাহ্যিক পরীক্ষা সেটে (Ncases = 233) চারটি নেটওয়ার্ক, UNet, SegResNet, DynUNet এবং SwinUNETR-এর জন্য গ্রাউন্ড ট্রুথ ক্ষত পরিমাপের ফাংশন হিসাবে MAPE (%)। ক্ষত পরিমাপের নেটওয়ার্ক ভবিষ্যদ্বাণীতে শতাংশ ত্রুটি, সাধারণভাবে, গ্রাউন্ড ট্রুথ ক্ষত পরিমাপের ক্রমবর্ধমান মানগুলির সাথে হ্রাস পায়। বিশেষ করে, SUVmax (b), ক্ষতের সংখ্যা (c), TMTV (d) এবং TLG (e) পরিমাপের জন্য, স্থল সত্য মানগুলির উচ্চ পরিসরের জন্য MAPE মালভূমি।


2) গ্রাউন্ড ট্রুথ ক্ষতের প্রভাব নেটওয়ার্ক পারফরম্যান্সের মান পরিমাপ করে: প্রথমে, আমরা অভ্যন্তরীণ এবং বাহ্যিক পরীক্ষার সেটগুলির জন্য গ্রাউন্ড ট্রুথ ক্ষত পরিমাপ গণনা করেছি, এবং এই প্রতিটি ব্যবস্থা এবং বিভিন্ন ডেটাসেটের জন্য UNet (DSC ভিত্তিক) এর কার্যকারিতা দেখেছি, চিত্র 6 হিসাবে উপস্থাপিত। কর্মক্ষমতা চারটি ভিন্ন বিভাগে বিভক্ত ছিল, যথা (i) সামগ্রিক পরীক্ষার সেট, (ii) DSC < 0.2 সহ কেস, (iii) 0.2 ≤ DSC ≤ 0.75 সহ কেস এবং (iv) কেস সহ পরীক্ষা সেটে DSC > 0.75। চিত্র 6 (a)-(b), থেকে এটা স্পষ্ট যে উচ্চতর DSC সহ বিভাগগুলির জন্য, (গড় এবং মধ্যমা) রোগীর স্তরের SUVmean এবং SUVmean-এর মানগুলি অভ্যন্তরীণ কোহর্টের পাশাপাশি বহিরাগত কোহর্ট পরীক্ষার সেটগুলির জন্যও বেশি ছিল। . PMBCL-BCCV সেটে নিম্ন সামগ্রিক কর্মক্ষমতা কম সামগ্রিক গড় এবং মধ্যম SUVmean এবং SUVmean এর জন্য দায়ী করা যেতে পারে। শুধুমাত্র বাহ্যিক পরীক্ষার সেটে ক্ষত সংখ্যার (ছবি 6 (c)) জন্য অনুরূপ প্রবণতা পরিলক্ষিত হয়েছে, কিন্তু অভ্যন্তরীণ পরীক্ষার দলগুলির মধ্যে নয়। উল্লেখ্য যে বাহ্যিক পরীক্ষার সেটে ক্ষতের গড় সংখ্যা অভ্যন্তরীণ পরীক্ষার সেটগুলির তুলনায় যথেষ্ট বেশি ছিল। TMTV এবং TLG-এর জন্য, উচ্চতর DSC সহ সমস্ত দলগুলির উচ্চতর গড় এবং মধ্যমা TMTV বা TLG ছিল, DLBCL-SMHS কোহর্ট ব্যতীত, যেখানে DSC <0.2 বিভাগে সর্বোচ্চ গড় এবং মধ্যমা TMTV এবং TLG ছিল৷ এই অসামঞ্জস্যতাকে দায়ী করা যেতে পারে যে বড় হওয়া সত্ত্বেও, এই গোষ্ঠীর জন্য এই বিভাগের ক্ষেত্রে ক্ষতগুলি ক্ষীণ ছিল, যেমন চিত্র 6 (a)-(b) এ দেখানো হয়েছে। অবশেষে, Dmax-এর জন্য, 0.2 ≤ DSC ≤ 0.75 ক্যাটাগরির সমস্ত সমগোত্রীয়দের মধ্যে সর্বোচ্চ মধ্যমা Dmax এবং DLBCL-SMHS ব্যতীত সমস্ত সমগোত্রে সর্বোচ্চ গড় Dmax ছিল। Dmax এর নিম্ন মান রোগের কম বিস্তারকে নির্দেশ করে, যা হয় শুধুমাত্র একটি ছোট ক্ষত বা কাছাকাছি অবস্থিত একাধিক (ছোট বা বড়) ক্ষতগুলির সাথে মিলিত হতে পারে।


দ্বিতীয়ত, আমরা পারফরম্যান্স (মাঝারি ডিএসসি) এর মূল্যায়ন করেছি


চিত্র 6. বিভিন্ন পরীক্ষার সেটে বিভিন্ন গ্রাউন্ড ট্রুথ ক্ষত পরিমাপের জন্য ইউনেট পারফরম্যান্স (ডিএসসি) বৈচিত্র। প্রতিটি পরীক্ষার সেটের জন্য, ক্ষত পরিমাপের বন্টনগুলি চারটি ভিন্ন বিভাগে বক্সপ্লট হিসাবে উপস্থাপিত হয়েছে, (i) সামগ্রিক পরীক্ষার সেটে, (ii) DSC < 0.2 সহ ক্ষেত্রে, (iii) 0.2 ≤ DSC ≤ 0.75, এবং (iv) ) DSC > 0.75। সমস্ত প্লটের জন্য y-অক্ষগুলি লগ স্কেলে রয়েছে এবং প্রতিটি বাক্সের গড় এবং মধ্যম মানগুলি যথাক্রমে সাদা বৃত্ত এবং কালো অনুভূমিক রেখা হিসাবে উপস্থাপন করা হয়েছে৷






B. সনাক্তকরণ কর্মক্ষমতা


আমরা বিভাগ III-D.2-এ সংজ্ঞায়িত হিসাবে তিন ধরণের সনাক্তকরণ মেট্রিক্সের উপর আমাদের নেটওয়ার্কগুলির কার্যকারিতা মূল্যায়ন করেছি। নির্ণায়ক 1, দুর্বলতম সনাক্তকরণের মানদণ্ড হওয়ায়, অভ্যন্তরীণ এবং বাহ্যিক উভয় পরীক্ষা সেটে সমস্ত নেটওয়ার্ক জুড়ে সমস্ত মানদণ্ডের সর্বোত্তম সামগ্রিক সনাক্তকরণ সংবেদনশীলতা ছিল, তারপরে মানদণ্ড 3 এবং তারপরে মানদণ্ড 2 (চিত্র 8)। মানদণ্ড 1 থেকে, UNet, SegResNet, DynUNet, এবং SwinUNETR 1.0 [0.57, 1.0], 1.0 [0.59, 1.0], 1.0 [0.63, 1.0], এবং 1.6 অভ্যন্তরীণ পরীক্ষায় [0] 0 এর মধ্যবর্তী সংবেদনশীলতা অর্জন করেছে। , বহিরাগত সেটে থাকাকালীন, তারা যথাক্রমে 0.67 [0.5, 1.0], 0.68 [0.51, 0.89], 0.70 [0.5, 1.0], এবং 0.67 [0.5, 0.86] পেয়েছে। স্বাভাবিকভাবেই, অভ্যন্তরীণ থেকে বাহ্যিক পরীক্ষায় যাওয়ার পরে কর্মক্ষমতা হ্রাস পেয়েছিল। উপরন্তু, FP মিডিয়ানে যথাক্রমে 4.0 [1.0, 6.0], 3.0 [2.0, 6.0], 5.0 [2.0, 10.0], এবং 7.0 [3.0, 11.25] প্রাপ্ত নেটওয়ার্কগুলির সাথে মানদণ্ড 1-এর FP মেট্রিক্সের সংখ্যার সেরা পারফরম্যান্স ছিল। অভ্যন্তরীণ পরীক্ষা সেট, এবং 16.0 [9.0, 24.0], 10.0 [7.0, 19.0], 18.0 [10.0, 29.0], এবং 31.0 [21.0, 55.0] বাহ্যিক পরীক্ষার সেটে যথাক্রমে মধ্যম FPs।


চিত্র 8. অভ্যন্তরীণ এবং বাহ্যিক পরীক্ষা সেটে চারটি নেটওয়ার্কের জন্য তিনটি সনাক্তকরণের মানদণ্ডের মাধ্যমে প্রতি রোগীর মাঝারি সনাক্তকরণ সংবেদনশীলতা এবং এফপি। বাক্সগুলির উপরের এবং নীচের প্রান্তগুলি IQR জুড়ে বিস্তৃত, যখন লাল অনুভূমিক রেখা এবং সাদা বৃত্তগুলি যথাক্রমে মধ্যক এবং গড় প্রতিনিধিত্ব করে৷ হুইস্কারের দৈর্ঘ্য 1.5 গুণ IQR এ সেট করা হয়েছে এবং আউটলাইয়ারগুলিকে কালো হীরা হিসাবে দেখানো হয়েছে।


তদ্ব্যতীত, একটি কঠিন শনাক্তকরণের মাপকাঠি হওয়ায়, মানদণ্ড 2-এ সমস্ত নেটওয়ার্কের জন্য সর্বনিম্ন সনাক্তকরণ সংবেদনশীলতা ছিল যার মধ্যম হল 0.5 [0.0, 1.0], 0.56 [0.19, 1.0], 0.5 [0.17, 1.0], এবং 0.595]। অভ্যন্তরীণ পরীক্ষা সেটে, এবং বহিরাগত পরীক্ষা সেটে যথাক্রমে 0.25 [0.1, 0.5], 0.25 [0.14, 0.5], 0.25 [0.13, 0.5], এবং 0.27 [0.16, 0.5]। এই মানদণ্ডের জন্য, অভ্যন্তরীণ থেকে বাহ্যিক পরীক্ষার সেটে যাওয়ার মধ্যবর্তী সংবেদনশীলতার হ্রাস মানদণ্ড 1 এর সাথে তুলনীয়। একইভাবে, এই মানদণ্ডের জন্য, প্রতি রোগীর মধ্যকার FPs ছিল 4.5 [2.0, 8.0], 4.0 [2.0, 8.0 ], 6.0 [4.0, 12.25], এবং 9.0 [5.0, 13.0] যথাক্রমে অভ্যন্তরীণ পরীক্ষা সেটে, এবং 22.0 [14.0, 36.0], 17.0 [10.0, 28.0], 25.0 [16.0, 37.40] এবং 37.40 63.0] যথাক্রমে বাহ্যিক পরীক্ষার সেটে। মানদণ্ড 1-এর তুলনায় সংবেদনশীলতা কম হওয়া সত্ত্বেও, মাপকাঠি 2-এর জন্য অভ্যন্তরীণ এবং বাহ্যিক উভয় পরীক্ষা সেটেই রোগী প্রতি FPs একই রকম (যদিও SwinUNETR-এর জন্য বাহ্যিক পরীক্ষার সেটের মানদণ্ডের মধ্যে মাঝারি FP-এর পার্থক্য সর্বোচ্চ)।


অবশেষে, ক্ষতগুলির SUVmax ভক্সেল সনাক্তকরণের উপর ভিত্তি করে মানদণ্ড 3, মানদণ্ড 1 এবং 2 এর মধ্যে একটি মধ্যবর্তী মাপকাঠি ছিল, যেহেতু ক্ষত SUVmax (বিভাগ IV-A.2) এর সাথে সঠিকভাবে ক্ষত সনাক্ত করার মডেলের ক্ষমতা বৃদ্ধি পায়। এই মানদণ্ডের জন্য, নেটওয়ার্কগুলির অভ্যন্তরীণ পরীক্ষা সেটে যথাক্রমে 0.75 [0.49, 1.0], 0.75 [0.5, 1.0], 0.78 [0.5, 1.0], এবং 0.85 [0.53, 1.0] এবং 0.35 এর মধ্যকার সংবেদনশীলতা ছিল। বাহ্যিক পরীক্ষার সেটে যথাক্রমে 0.75], 0.53 [0.38, 0.74], 0.5 [0.37, 0.75], এবং 0.5 [0.4, 0.75]। অভ্যন্তরীণ এবং বাহ্যিক পরীক্ষার সেটগুলির মধ্যে সংবেদনশীলতার ড্রপ অন্য দুটি মানদণ্ডের সাথে তুলনীয়। একইভাবে, নেটওয়ার্কগুলির অভ্যন্তরীণ পরীক্ষা সেটে যথাক্রমে 4.0 [1.0, 8.0], 4.0 [2.0, 7.0], 5.0 [3.0, 11.0], এবং 8.0 [4.0, 12.0] এবং 19.0 [12.0] প্রতি রোগীর মাঝারি FP ছিল। বাহ্যিক পরীক্ষার সেটে যথাক্রমে 29.0], 14.0 [8.0, 22.0], 22.0 [14.0, 35.0], এবং 39.0 [25.0, 58.0]।


C. আন্তঃ-পর্যবেক্ষক পরিবর্তনশীলতা


আন্তঃ-পর্যবেক্ষক পরিবর্তনশীলতা বিশ্লেষণ করার জন্য, সম্পূর্ণ PMBCL-BCCV দল থেকে 60 টি কেস (ট্রেন, বৈধ, এবং পরীক্ষা সেটগুলি অন্তর্ভুক্ত) চিকিত্সক 4 দ্বারা পুনরায় বিভক্ত করা হয়েছিল। এই উপসেটে 35টি "সহজ" কেস রয়েছে (ইউনেট পূর্বাভাসিত মুখোশ সহ কেসগুলি) মূল গ্রাউন্ড ট্রুথ সহ DSC > 0.75 প্রাপ্ত করা) এবং 25টি "হার্ড" কেস (DSC <0.2)। পক্ষপাত দূর করার জন্য, ডিএসসি মানদণ্ড ব্যতীত এই মামলাগুলির নির্বাচন এলোমেলো করা হয়েছিল, পুনর্বিভাজন প্রক্রিয়া চলাকালীন নির্দিষ্ট ক্ষেত্রে নির্বাচনের ক্ষেত্রে কোনও অগ্রাধিকার দেওয়া হয়নি তা নিশ্চিত করে।


"সহজ" এবং "কঠিন" ক্ষেত্রে মিলিত ক্ষেত্রে চিকিত্সকের আসল এবং নতুন বিভাগগুলির মধ্যে সামগ্রিক গড় এবং মধ্যমা ডিএসসি ছিল 0.50 ± 0.33 এবং 0.49 [0.20, 0.84]। এখানে, গড়টি UNet-এর PMBCL-BCCV টেস্ট সেট পারফরম্যান্সের (0.49 ± 0.42) সাথে তুলনীয় ছিল, যদিও গড়টি UNet (0.74 [0.02, 0.9]) এর তুলনায় অনেক কম ছিল। "কঠিন" কেসগুলি সামঞ্জস্যপূর্ণ গ্রাউন্ড ট্রুথ তৈরিতে কম প্রজননযোগ্যতা প্রদর্শন করেছে, যেমনটি মূল এবং পুনঃবিভাগকৃত টীকাগুলির মধ্যে গড় এবং মধ্যমা DSC দ্বারা নির্দেশিত, যা যথাক্রমে 0.22±0.18 এবং 0.20 [0.05, 0.36] পাওয়া গেছে। বিপরীতভাবে, "সহজ" ক্ষেত্রে, গড় এবং মধ্যবর্তী DSC মানগুলি যথাক্রমে 0.70 ± 0.26 এবং 0.82 [0.65, 0.87] ছিল।




চিত্র 10. পিএমবিসিএল-বিসিসিভি দল থেকে 35টি "সহজ" এবং 25টি "কঠিন" ক্ষেত্রে রোগীর মেট্রিক্স প্রতি মধ্যক সংবেদনশীলতা এবং এফপিগুলির তিনটি সনাক্তকরণের মানদণ্ড ব্যবহার করে আন্তঃ-পর্যবেক্ষক (চিকিৎসক 4) পরিবর্তনশীলতার মূল্যায়ন করা। এই বিশ্লেষণের জন্য, চিকিত্সক 4 দ্বারা মূল বিভাজনগুলিকে স্থল সত্য হিসাবে বিবেচনা করা হয়েছিল এবং নতুন বিভাগগুলিকে পূর্বাভাসিত মুখোশ হিসাবে বিবেচনা করা হয়েছিল। বাক্সগুলির উপরের এবং নীচের প্রান্তগুলি IQR জুড়ে বিস্তৃত, যখন লাল অনুভূমিক রেখা এবং সাদা বৃত্তগুলি যথাক্রমে মধ্যক এবং গড়কে প্রতিনিধিত্ব করে৷ হুইস্কারের দৈর্ঘ্য 1.5 গুণ IQR এ সেট করা হয়েছে এবং আউটলাইয়ারগুলিকে কালো হীরা হিসাবে দেখানো হয়েছে।


অবশেষে, আমরা মূল এবং নতুন বিভাজনে সনাক্তকরণ বিশ্লেষণও করেছি, যেমন চিত্র 10-এ চিত্রিত হয়েছে। এই বিশ্লেষণের জন্য, আমরা মূল বিভাজনটিকে স্থল সত্য হিসাবে এবং নতুন বিভাজনটিকে পূর্বাভাসিত মুখোশ হিসাবে বিবেচনা করেছি। মানদণ্ড 1-এর জন্য, "সহজ" এবং "কঠিন" উভয় ক্ষেত্রেই মধ্যম শনাক্তকরণের সংবেদনশীলতা ছিল 1.0 [1.0, 1.0], উল্লেখ করে যে চিকিত্সক সর্বদা মূল এবং নতুন টীকাগুলির মধ্যে ধারাবাহিকভাবে অন্তত একটি ভক্সেল ভাগ করেন৷ এই মাপকাঠিতে "সহজ" এবং "কঠিন" ক্ষেত্রে যথাক্রমে 0.0 [0.0, 2.0] এবং 0.0 [0.0, 0.0] রোগীর প্রতি মাঝারি FPs ছিল, এই বলে যে "কঠিন" ক্ষেত্রে, চিকিত্সক কখনও কোনও ক্ষতকে ভাগ করেননি। তাদের আসল মুখোশের তুলনায় সম্পূর্ণ ভিন্ন অবস্থান। মানদণ্ড 2-এর জন্য, সংবেদনশীলতা যথাক্রমে "সহজ" এবং "কঠিন" ক্ষেত্রে 0.67 [0.08, 1.0] এবং 0.0 [0.0, 0.0]। এর মানে হল যে "কঠিন" ক্ষেত্রে নতুন টীকাটির জন্য, চিকিত্সক কখনই কোনো ক্ষতকে ভাগ করেননি যার একটি IoU > 0.5 ছিল মূল টীকা থেকে কোনো ক্ষত সহ। এই মানদণ্ডের জন্য, "সহজ" এবং "কঠিন" ক্ষেত্রে যথাক্রমে 1.0 [0.5, 4.0] এবং 1.0 [1.0, 1.0] প্রতি রোগীর মাঝারি FPs ছিল। অবশেষে, মাপকাঠি 3-এর জন্য, সংবেদনশীলতাগুলি ছিল 1.0 [0.84, 1.0] এবং 1.0 [0.5, 1.0], যেখানে "সহজ" এবং "কঠিন" এর জন্য রোগী প্রতি FPs ছিল 0.0 [0.0, 3.0] এবং 0.0 [0.0, 1.0] ” ক্ষেত্রে যথাক্রমে। এটি লক্ষণীয় যে এই তিনটি মানদণ্ড দ্বারা মূল্যায়ন করা চিকিত্সকের সনাক্তকরণ কর্মক্ষমতার মধ্যে প্রবণতা বিভাগ IV-B (মাপদণ্ড 1 > মানদণ্ড 3 > মানদণ্ড 2) এর চারটি নেটওয়ার্কের মতো।


D. আন্তঃ-পর্যবেক্ষক পরিবর্তনশীলতা


নয়টি কেস (সমস্তই বিভিন্ন রোগীর অন্তর্গত) এলোমেলোভাবে DLBCL-BCCV সেট থেকে নির্বাচন করা হয়েছিল যা দুটি অতিরিক্ত চিকিত্সক (চিকিৎসক 2 এবং 3) দ্বারা বিভক্ত ছিল। এই 9 টি ক্ষেত্রে গড় Fleiss κ সহগ ছিল 0.72, যা চিকিত্সকদের মধ্যে "উল্লেখযোগ্য" চুক্তির বিভাগে পড়ে। চুক্তির এই স্তরটি একাধিক টীকাকার থেকে প্রাপ্ত গ্রাউন্ড ট্রুথ সেগমেন্টেশনের নির্ভরযোগ্যতা এবং ধারাবাহিকতাকে আন্ডারস্কোর করে।


দ্বিতীয়ত, আমরা 9 টি ক্ষেত্রেই প্রতি দুই চিকিত্সকের মধ্যে জোড়া-ভিত্তিক ডিএসসি গণনা করেছি। চিকিত্সক 1 এবং 2, 2 এবং 3, এবং 1 এবং 3-এর মধ্যে গড় DSC ছিল 0.67 ± 0.37, 0.83 ± 0.20 এবং 0.66 ± 0.37। অধিকন্তু, STAPLE [24] সমস্ত 9 টি ক্ষেত্রেই তিন চিকিত্সকের ঐক্যমত তৈরি হয়েছিল এবং প্রতিটি চিকিত্সকের জন্য STAPLE এবং গ্রাউন্ড ট্রুথ সেগমেন্টেশনের মধ্যে DSC গণনা করা হয়েছিল। চিকিত্সক 1, 2, এবং 3 এর জন্য STAPLE গ্রাউন্ড ট্রুথ সহ গড় DSC ছিল যথাক্রমে 0.75±0.37, 0.91±0.11 এবং 0.90±0.16।


এই কাগজ হল arxiv এ উপলব্ধ CC 4.0 লাইসেন্সের অধীনে।