paint-brush
लिम्फोमा घावों का पता लगाने और मात्रा निर्धारित करने के लिए डीप न्यूरल नेटवर्क: परिणामद्वारा@reinforcement
128 रीडिंग

लिम्फोमा घावों का पता लगाने और मात्रा निर्धारित करने के लिए डीप न्यूरल नेटवर्क: परिणाम

द्वारा Reinforcement Technology Advancements11m2024/06/12
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह अध्ययन पीईटी/सीटी छवियों से लिम्फोमा घाव विभाजन के लिए चार तंत्रिका नेटवर्क आर्किटेक्चर का व्यापक मूल्यांकन करता है।
featured image - लिम्फोमा घावों का पता लगाने और मात्रा निर्धारित करने के लिए डीप न्यूरल नेटवर्क: परिणाम
Reinforcement Technology Advancements HackerNoon profile picture
0-item

लेखक:

(1) शादाब अहमद, यूनिवर्सिटी ऑफ ब्रिटिश कोलंबिया, वैंकूवर, बीसी, कनाडा, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा। वह माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए (ई-मेल: [email protected]) के साथ मिटैक्स एक्सेलरेट फेलो (मई 2022 - अप्रैल 2023) भी थे;

(2) यिक्सी जू, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;

(3) क्लेयर गौडी, बीसी चिल्ड्रेन्स हॉस्पिटल, वैंकूवर, बीसी, कनाडा;

(4) जू एच.ओ, सेंट मैरी अस्पताल, सियोल, कोरिया गणराज्य;

(5) इंग्रिड ब्लोइस, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;

(6) डॉन विल्सन, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;

(7) पैट्रिक मार्टिन्यू, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;

(8) फ़्राँस्वा बेनार्ड, बी.सी. कैंसर, वैंकूवर, बी.सी., कनाडा;

(9) फ़ेरेश्तेह यूसुफ़िरिज़ी, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा;

(10) राहुल डोढिया, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;

(11) जुआन एम. लाविस्टा, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;

(12) विलियम बी. वीक्स, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;

(13) कार्लोस एफ. उरीबे, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा;

(14) अरमान रहमीम, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा।

लिंक की तालिका

IV. परिणाम

ए. विभाजन प्रदर्शन


चार नेटवर्कों के प्रदर्शन का मूल्यांकन मीडियन डीएससी, एफपीवी और एफएनवी तथा आंतरिक (विभिन्न आंतरिक समूहों द्वारा अलग किए गए प्रदर्शन सहित) और बाहरी परीक्षण सेटों पर औसत डीएससी का उपयोग करके किया गया, जैसा कि तालिका II में दिखाया गया है। नेटवर्कों के प्रदर्शन के कुछ दृश्य चित्र 2 में दर्शाए गए हैं।


SegResNet में आंतरिक और बाह्य दोनों परीक्षण सेटों पर क्रमशः 0.76 [0.27, 0.88] और 0.68 [0.40, 0.78] के मध्यकों के साथ उच्चतम औसत DSC था। आंतरिक परीक्षण सेट के भीतर अलग-अलग समूहों के लिए, UNet में DLBCL-BCCV और PMBCL-BCCV दोनों पर क्रमशः 0.72 [0.24, 0.89] और 0.74 [0.02, 0.90] के मध्यकों के साथ सबसे अच्छा DSC था, जबकि SegResNet में DLBCLSMHS पर 0.78 [0.62, 0.87] का सबसे अच्छा DSC था। SegResNet में आंतरिक और बाह्य दोनों परीक्षण सेटों पर 4.55 [1.35, 31.51] मिली और 21.46 [6.30, 66.44] मिली के मानों के साथ सबसे अच्छा FPV भी था। DLBCL-BCCV और PMBCL-BCCV सेटों के लिए DSC पर UNet की जीत के बावजूद, SegResNet के पास इन दोनों सेटों पर क्रमशः 5.78 [0.61, 19.97] ml और 2.15 [0.52, 7.18] ml के औसत मूल्यों के साथ सबसे अच्छा FPV था, जबकि DLBCLSMHS पर UNet का सबसे अच्छा FPV 8.71 [1.19, 34.1] ml था। अंत में, SwinUNETR के पास आंतरिक परीक्षण सेट पर 0.0 [0.0, 4.65] ml का सबसे अच्छा औसत FNV था, जबकि UNet के पास बाहरी परीक्षण सेट पर 0.41 [0.0, 3.88] ml का सबसे अच्छा औसत FNV था। डीएलबीसीएल-बीसीसीवी और डीएलबीसीएल-एसएमएचएस पर, स्विनयूएनईटीआर का सबसे अच्छा औसत एफएनवी क्रमशः 0.09 [0.0, 3.39] एमएल और 0.0 [0.0, 8.83] एमएल था, जबकि पीएमबीसीएल-बीसीसीवी पर, यूनेट, डायनयूनेट और स्विनयूएनईटीआर बराबर थे, जिनमें से प्रत्येक का औसत मूल्य 0.0 [0.0, 1.24] एमएल था।


सबसे पहले, SegResNet और UNet दोनों ने अदृश्य बाहरी परीक्षण सेट पर अच्छी तरह से सामान्यीकरण किया, जिसमें माध्य और माध्यिका में गिरावट आई


तालिका IIआंतरिक (डेटा उत्पत्ति और लिम्फोमा उपप्रकारों द्वारा एकत्रित और अलग-अलग) और बाह्य परीक्षण सेटों पर चार नेटवर्कों की तुलना रोगी-स्तर DSC, FPV (एमएल में) और FNV (एमएल में) के औसत मूल्यों के माध्यम से मूल्यांकन की गई है। सभी औसत मूल्यों को उनके IQRS के साथ रिपोर्ट किया गया है। परीक्षण सेटों पर औसत रोगी-स्तर DSC मान भी संगत मानक विचलन के साथ रिपोर्ट किए गए हैं।


आंतरिक परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर प्रदर्शन में क्रमशः 4% और 8% और 2% और 8% की वृद्धि हुई। यद्यपि आंतरिक परीक्षण सेट पर DynUNet और SwinUNETR का औसत DSC SegResNet और UNet से काफी कम है (लगभग 6-9%), आंतरिक से बाह्य परीक्षण में जाने पर इन नेटवर्कों में क्रमशः केवल 4% और 6% की औसत DSC में गिरावट के साथ बेहतर सामान्यीकरण भी था। यह भी ध्यान देने योग्य है कि बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर सभी नेटवर्कों के लिए DSC IQRs बड़े थे। साथ ही, सभी नेटवर्कों ने बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर उच्च 75वां क्वांटाइल DSC प्राप्त किया, जबकि बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण पर कम 25वां क्वांटाइल DSC प्राप्त किया (SwinUNETR को छोड़कर जहां यह प्रवृत्ति उलट थी)। सभी नेटवर्क में सबसे बड़े IQR वाले PMBCL-BCCV कोहोर्ट पर सबसे खराब प्रदर्शन प्राप्त हुआ (देखें सेक्शन IV-A.2 और चित्र 6)। दिलचस्प बात यह है कि आंतरिक और बाहरी दोनों टेस्ट सेटों पर DSC पर कम प्रदर्शन होने के बावजूद (सबसे अच्छा प्रदर्शन करने वाले मॉडल की तुलना में), SwinUNETR के पास आंतरिक टेस्ट सेट में कोहोर्ट में सबसे अच्छे औसत FNV मान थे।




बाहरी परीक्षण सेट पर भी यही विश्लेषण किया गया, जैसा कि चित्र 4 में दिखाया गया है। बाहरी परीक्षण सेट के लिए, केवल घाव माप जो पुनरुत्पादनीय थे, वे थे SegResNet और SwinUNETR द्वारा SUVmean, SegResNet द्वारा घावों की संख्या और DynUNet द्वारा TLG। यह दर्शाता है कि DSC या अन्य पारंपरिक विभाजन मीट्रिक के संदर्भ में नेटवर्क का प्रदर्शन हमेशा घाव माप का अनुमान लगाने में उनकी दक्षता को नहीं दर्शाता है। SUVmax, घावों की संख्या और Dmax जैसे घाव माप आमतौर पर नेटवर्क द्वारा पुनरुत्पादित करना कठिन होता है। SUVmax उच्च SUV अपटेक वाले क्षेत्रों में गलत गलत सकारात्मक भविष्यवाणियों के प्रति अत्यधिक संवेदनशील था। इसी तरह, घावों की संख्या गलत तरीके से विभाजित डिस्कनेक्टेड घटकों के प्रति अत्यधिक संवेदनशील थी, और Dmax जमीनी सच्चाई विभाजन से बहुत दूर एक गलत सकारात्मक भविष्यवाणी की उपस्थिति के प्रति अत्यधिक संवेदनशील था (भले ही ऐसी गलत सकारात्मक भविष्यवाणियों की मात्रा बहुत छोटी हो सकती है, जिस स्थिति में यह TMTV या TLG में बहुत कम योगदान देगा, जैसा कि आंतरिक परीक्षण सेट पर देखा गया है)।




चित्र 5. चार नेटवर्कों, UNet, SegResNet, DynUNet, और SwinUNETR के लिए संयुक्त आंतरिक और बाह्य परीक्षण सेट (Ncases = 233) पर ग्राउंड ट्रुथ लेसन माप के एक फ़ंक्शन के रूप में MAPE (%)। सामान्य तौर पर, लेसन माप के नेटवर्क पूर्वानुमान में प्रतिशत त्रुटि ग्राउंड ट्रुथ लेसन माप के बढ़ते मूल्यों के साथ घटती है। विशेष रूप से, SUVmax (b), लेसन की संख्या (c), TMTV (d) और TLG (e) माप के लिए, ग्राउंड ट्रुथ मानों की उच्च श्रेणी के लिए MAPE स्थिर रहता है।


2) नेटवर्क प्रदर्शन पर ग्राउंड ट्रुथ लेज़न माप मूल्यों का प्रभाव: सबसे पहले, हमने आंतरिक और बाह्य परीक्षण सेटों के लिए ग्राउंड ट्रुथ लेज़न मापों की गणना की, और इनमें से प्रत्येक माप और विभिन्न डेटासेट के लिए UNet (DSC पर आधारित) के प्रदर्शन को देखा, जैसा कि चित्र 6 में प्रस्तुत किया गया है। प्रदर्शन को चार अलग-अलग श्रेणियों में विभाजित किया गया था, अर्थात् (i) समग्र परीक्षण सेट, (ii) DSC < 0.2 वाले मामले, (iii) 0.2 ≤ DSC ≤ 0.75 वाले मामले, और (iv) परीक्षण सेट में DSC > 0.75 वाले मामले। चित्र 6 (ए)-(बी) से, यह स्पष्ट है कि उच्च डीएससी वाली श्रेणियों के लिए, (माध्य और माध्यिका) रोगी स्तर एसयूवीमीन और एसयूवीमीन के मान आंतरिक कोहोर्ट के साथ-साथ बाह्य कोहोर्ट परीक्षण सेटों के लिए भी अधिक थे घावों की संख्या के लिए एक समान प्रवृत्ति केवल बाहरी परीक्षण सेट पर देखी गई थी (छवि 6 (सी)), लेकिन किसी भी आंतरिक परीक्षण समूह पर नहीं। ध्यान दें कि बाहरी परीक्षण सेट पर घावों की औसत संख्या किसी भी आंतरिक परीक्षण सेट की तुलना में काफी अधिक थी। टीएमटीवी और टीएलजी के लिए, उच्च डीएससी वाले सभी समूहों में उच्च औसत और मध्यिका टीएमटीवी या टीएलजी भी थे, डीएलबीसीएल-एसएमएचएस समूह को छोड़कर, जहां श्रेणी डीएससी < 0.2 में उच्चतम औसत और मध्यिका टीएमटीवी और टीएलजी थे। इस विसंगति को इस तथ्य के लिए जिम्मेदार ठहराया जा सकता है कि बड़े होने के बावजूद, इस समूह के लिए इस श्रेणी के मामलों में घाव हल्के थे, जैसा कि चित्र 6 (ए)-(बी) में दिखाया गया है। अंत में, डीमैक्स के लिए, डीमैक्स का निम्न मान रोग के कम प्रसार को दर्शाता है, जो या तो केवल एक छोटे घाव के मामले से संबंधित हो सकता है, या आस-पास स्थित कई (छोटे या बड़े) घावों से संबंधित हो सकता है।


दूसरे, हमने के प्रदर्शन (मध्य डीएससी) का मूल्यांकन किया


चित्र 6. विभिन्न परीक्षण सेटों पर विभिन्न ग्राउंड ट्रुथ लेज़न मापों के लिए UNet प्रदर्शन (DSC) भिन्नताएँ। प्रत्येक परीक्षण सेट के लिए, लेज़न माप वितरण को चार अलग-अलग श्रेणियों में बॉक्सप्लॉट के रूप में प्रस्तुत किया गया है, (i) समग्र परीक्षण सेट पर, (ii) DSC < 0.2 वाले मामलों पर, (iii) 0.2 ≤ DSC ≤ 0.75, और (iv) DSC > 0.75। सभी प्लॉट के लिए y-अक्ष लॉग स्केल में हैं, और प्रत्येक बॉक्स के लिए माध्य और माध्यिका मान क्रमशः सफ़ेद वृत्त और काली क्षैतिज रेखाओं के रूप में दर्शाए गए हैं।






बी. पता लगाने का प्रदर्शन


हमने अपने नेटवर्क के प्रदर्शन का मूल्यांकन तीन प्रकार के डिटेक्शन मेट्रिक्स पर किया, जैसा कि सेक्शन III-D.2 में परिभाषित किया गया है। मानदंड 1, सबसे कमज़ोर डिटेक्शन मानदंड होने के कारण, आंतरिक और बाहरी दोनों परीक्षण सेटों पर सभी नेटवर्क में सभी मानदंडों में से सबसे अच्छी समग्र डिटेक्शन संवेदनशीलता थी, उसके बाद मानदंड 3 और फिर मानदंड 2 (चित्र 8) थे। मानदंड 1 से, UNet, SegResNet, DynUNet और SwinUNETR ने आंतरिक परीक्षण सेट पर क्रमशः 1.0 [0.57, 1.0], 1.0 [0.59, 1.0], 1.0 [0.63, 1.0], और 1.0 [0.66, 1.0] की औसत संवेदनशीलता प्राप्त की, जबकि बाहरी सेट पर, उन्होंने क्रमशः 0.67 [0.5, 1.0], 0.68 [0.51, 0.89], 0.70 [0.5, 1.0], और 0.67 [0.5, 0.86] प्राप्त किया। स्वाभाविक रूप से, आंतरिक से बाहरी परीक्षण में जाने पर प्रदर्शन में गिरावट आई। इसके अलावा, मानदंड 1 में एफपी मेट्रिक्स की संख्या पर सबसे अच्छा प्रदर्शन था, जिसमें नेटवर्क ने आंतरिक परीक्षण सेट पर क्रमशः 4.0 [1.0, 6.0], 3.0 [2.0, 6.0], 5.0 [2.0, 10.0], और 7.0 [3.0, 11.25] औसत एफपी प्राप्त किए, और बाहरी परीक्षण सेट पर क्रमशः 16.0 [9.0, 24.0], 10.0 [7.0, 19.0], 18.0 [10.0, 29.0], और 31.0 [21.0, 55.0] औसत एफपी प्राप्त किए।


चित्र 8. आंतरिक और बाह्य परीक्षण सेट पर चार नेटवर्क के लिए तीन पहचान मानदंडों के माध्यम से प्रति रोगी औसत पहचान संवेदनशीलता और FP। बक्सों के ऊपरी और निचले किनारे IQR को फैलाते हैं, जबकि लाल क्षैतिज रेखाएँ और सफ़ेद वृत्त क्रमशः मध्यिका और माध्य को दर्शाते हैं। मूंछ की लंबाई IQR के 1.5 गुना पर सेट की गई है और आउटलेयर को काले हीरे के रूप में दिखाया गया है।


इसके अलावा, एक कठिन पहचान मानदंड होने के कारण, मानदंड 2 में सभी नेटवर्कों के लिए सबसे कम पहचान संवेदनशीलता थी, जिसमें आंतरिक परीक्षण सेट पर माध्य क्रमशः 0.5 [0.0, 1.0], 0.56 [0.19, 1.0], 0.5 [0.17, 1.0], और 0.55 [0.19, 1.0] थे, और बाहरी परीक्षण सेट पर क्रमशः 0.25 [0.1, 0.5], 0.25 [0.14, 0.5], 0.25 [0.13, 0.5], और 0.27 [0.16, 0.5] थे। इस मानदंड के लिए, आंतरिक से बाह्य परीक्षण सेट पर जाने पर औसत संवेदनशीलता में गिरावट मानदंड 1 के बराबर है। इसी तरह, इस मानदंड के लिए, आंतरिक परीक्षण सेट पर प्रति मरीज औसत एफपी क्रमशः 4.5 [2.0, 8.0], 4.0 [2.0, 8.0], 6.0 [4.0, 12.25], और 9.0 [5.0, 13.0] थे, और बाह्य परीक्षण सेट पर क्रमशः 22.0 [14.0, 36.0], 17.0 [10.0, 28.0], 25.0 [16.0, 37.0], और 44.0 [27.0, 63.0] थे। मानदंड 1 की तुलना में संवेदनशीलता कम होने के बावजूद, मानदंड 2 के लिए आंतरिक और बाह्य दोनों परीक्षण सेटों पर प्रति मरीज एफ.पी.एस. समान है (हालांकि स्विनयूएनईटीआर के लिए बाह्य परीक्षण सेट पर मानदंडों के बीच औसत एफ.पी.एस. में भिन्नता सबसे अधिक है)।


अंत में, घावों के SUVmax वॉक्सेल का पता लगाने के आधार पर मानदंड 3, मानदंड 1 और 2 के बीच एक मध्यवर्ती मानदंड था, क्योंकि मॉडल की घावों का सटीक रूप से पता लगाने की क्षमता घाव SUVmax (अनुभाग IV-A.2) के साथ बढ़ जाती है। इस मानदंड के लिए, नेटवर्क में आंतरिक परीक्षण सेट पर क्रमशः 0.75 [0.49, 1.0], 0.75 [0.5, 1.0], 0.78 [0.5, 1.0], और 0.85 [0.53, 1.0] की औसत संवेदनशीलता थी, और बाहरी परीक्षण सेट पर क्रमशः 0.5 [0.33, 0.75], 0.53 [0.38, 0.74], 0.5 [0.37, 0.75], और 0.5 [0.4, 0.75] थी। आंतरिक और बाह्य परीक्षण सेटों के बीच संवेदनशीलता में गिरावट अन्य दो मानदंडों के बराबर है। इसी तरह, नेटवर्क में आंतरिक परीक्षण सेट पर क्रमशः 4.0 [1.0, 8.0], 4.0 [2.0, 7.0], 5.0 [3.0, 11.0], और 8.0 [4.0, 12.0] और बाह्य परीक्षण सेट पर क्रमशः 19.0 [12.0, 29.0], 14.0 [8.0, 22.0], 22.0 [14.0, 35.0], और 39.0 [25.0, 58.0] थे।


C. अंतर-पर्यवेक्षक परिवर्तनशीलता


इंट्रा-ऑब्जर्वर परिवर्तनशीलता विश्लेषण करने के लिए, पूरे PMBCL-BCCV कोहोर्ट (ट्रेन, वैध और परीक्षण सेट को शामिल करते हुए) से 60 मामलों को फिजीशियन 4 द्वारा फिर से विभाजित किया गया। इस उपसमूह में 35 "आसान" मामले (मूल ग्राउंड ट्रुथ के साथ DSC > 0.75 प्राप्त करने वाले UNet पूर्वानुमानित मास्क वाले मामले) और 25 "कठिन" मामले (DSC < 0.2) शामिल थे। पूर्वाग्रह को खत्म करने के लिए, DSC मानदंड को छोड़कर, इन मामलों का चयन यादृच्छिक किया गया था, यह सुनिश्चित करते हुए कि पुन: विभाजन प्रक्रिया के दौरान विशिष्ट मामलों के चयन में कोई वरीयता नहीं दी गई थी।


"आसान" और "कठिन" मामलों पर चिकित्सक के मूल और नए विभाजनों के बीच कुल औसत और औसत डीएससी 0.50 ± 0.33 और 0.49 [0.20, 0.84] था। यहाँ, औसत यूनेट के पीएमबीसीएल-बीसीसीवी परीक्षण सेट प्रदर्शन (0.49 ± 0.42) के बराबर था, हालाँकि औसत यूनेट (0.74 [0.02, 0.9]) की तुलना में बहुत कम था। "कठिन" मामलों ने सुसंगत ग्राउंड ट्रुथ उत्पन्न करने में कम पुनरुत्पादकता प्रदर्शित की, जैसा कि मूल और पुनः-खंडित एनोटेशन के बीच औसत और औसत डीएससी द्वारा इंगित किया गया था, जो क्रमशः 0.22 ± 0.18 और 0.20 [0.05, 0.36] पाए गए। इसके विपरीत, "आसान" मामलों के लिए, औसत और माध्यिका डीएससी मान क्रमशः 0.70 ± 0.26 और 0.82 [0.65, 0.87] थे।




चित्र 10. PMBCL-BCCV समूह के 35 "आसान" और 25 "कठिन" मामलों के लिए औसत संवेदनशीलता और प्रति रोगी FPs मेट्रिक्स पर तीन पहचान मानदंडों का उपयोग करके इंट्रा-ऑब्जर्वर (फिजिशियन 4) परिवर्तनशीलता का आकलन करना। इस विश्लेषण के लिए, फिजिशियन 4 द्वारा मूल विभाजन को जमीनी सच्चाई के रूप में माना गया और नए विभाजन को पूर्वानुमानित मास्क के रूप में माना गया। बक्सों के ऊपरी और निचले किनारे IQR को फैलाते हैं, जबकि लाल क्षैतिज रेखाएँ और सफ़ेद वृत्त क्रमशः माध्यिका और माध्य को दर्शाते हैं। मूंछ की लंबाई IQR के 1.5 गुना पर सेट की गई है और आउटलेयर को काले हीरे के रूप में दिखाया गया है।


अंत में, हमने मूल और नए विभाजन पर भी पता लगाने का विश्लेषण किया, जैसा कि चित्र 10 में दिखाया गया है। इस विश्लेषण के लिए, हमने मूल विभाजन को जमीनी सच्चाई और नए विभाजन को पूर्वानुमानित मास्क के रूप में माना। मानदंड 1 के लिए, "आसान" और "कठिन" दोनों मामलों पर औसत पता लगाने की संवेदनशीलता 1.0 [1.0, 1.0] थी, जिसमें कहा गया था कि चिकित्सक ने हमेशा मूल और नए एनोटेशन के बीच कम से कम एक वॉक्सेल को लगातार विभाजित किया। इस मानदंड में "आसान" और "कठिन" मामलों पर क्रमशः प्रति मरीज औसत FPs 0.0 [0.0, 2.0] और 0.0 [0.0, 0.0] था, जिसमें कहा गया था कि "कठिन" मामलों के लिए, चिकित्सक ने उनके मूल मास्क की तुलना में पूरी तरह से अलग स्थान पर किसी भी घाव को कभी भी विभाजित नहीं किया। मानदंड 2 के लिए, संवेदनशीलता क्रमशः "आसान" और "कठिन" मामलों पर 0.67 [0.08, 1.0] और 0.0 [0.0, 0.0] थी। इसका मतलब यह है कि "कठिन" मामलों पर नए एनोटेशन के लिए, चिकित्सक ने कभी भी किसी ऐसे घाव को खंडित नहीं किया, जिसका IoU > 0.5 था, मूल एनोटेशन से किसी भी घाव के साथ। इस मानदंड के लिए, प्रति मरीज औसत FP क्रमशः "आसान" और "कठिन" मामलों के लिए 1.0 [0.5, 4.0] और 1.0 [1.0, 1.0] थे। अंत में, मानदंड 3 के लिए, संवेदनशीलता 1.0 [0.84, 1.0] और 1.0 [0.5, 1.0] थी, जबकि प्रति मरीज FPs क्रमशः "आसान" और "कठिन" मामलों के लिए 0.0 [0.0, 3.0] और 0.0 [0.0, 1.0] थे। यह ध्यान देने योग्य है कि इन तीन मानदंडों द्वारा मूल्यांकन किए गए चिकित्सक के पता लगाने के प्रदर्शन के बीच की प्रवृत्ति अनुभाग IV-B (मानदंड 1> मानदंड 3> मानदंड 2) में चार नेटवर्क द्वारा की गई प्रवृत्ति के समान है।


D. अंतर-पर्यवेक्षक परिवर्तनशीलता


नौ मामले (सभी अलग-अलग रोगियों से संबंधित) DLBCL-BCCV सेट से यादृच्छिक रूप से चुने गए थे, जिन्हें दो अतिरिक्त चिकित्सकों (चिकित्सक 2 और 3) द्वारा विभाजित किया गया था। इन 9 मामलों में औसत फ्लेइस κ गुणांक 0.72 था, जो चिकित्सकों के बीच "पर्याप्त" सहमति की श्रेणी में आता है। सहमति का यह स्तर कई एनोटेटर्स से प्राप्त ग्राउंड ट्रुथ सेगमेंटेशन की विश्वसनीयता और स्थिरता को रेखांकित करता है।


दूसरे, हमने सभी 9 मामलों के लिए हर दो चिकित्सकों के बीच जोड़ी-वार डीएससी की गणना की। चिकित्सक 1 और 2, 2 और 3, और 1 और 3 के बीच औसत डीएससी 0.67 ± 0.37, 0.83 ± 0.20, और 0.66 ± 0.37 थे। इसके अलावा, तीनों चिकित्सकों के लिए STAPLE [24] सर्वसम्मति सभी 9 मामलों के लिए उत्पन्न की गई थी और प्रत्येक चिकित्सक के लिए STAPLE और ग्राउंड ट्रुथ सेगमेंटेशन के बीच DSC की गणना की गई थी। चिकित्सक 1, 2 और 3 के लिए STAPLE ग्राउंड ट्रुथ के साथ औसत DSC क्रमशः 0.75 ± 0.37, 0.91 ± 0.11, और 0.90 ± 0.16 थे।


यह पत्र arxiv पर उपलब्ध CC 4.0 लाइसेंस के अंतर्गत.