लेखक:
(1) शादाब अहमद, यूनिवर्सिटी ऑफ ब्रिटिश कोलंबिया, वैंकूवर, बीसी, कनाडा, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा। वह माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए (ई-मेल: [email protected]) के साथ मिटैक्स एक्सेलरेट फेलो (मई 2022 - अप्रैल 2023) भी थे;
(2) यिक्सी जू, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(3) क्लेयर गौडी, बीसी चिल्ड्रेन्स हॉस्पिटल, वैंकूवर, बीसी, कनाडा;
(4) जू एच.ओ, सेंट मैरी अस्पताल, सियोल, कोरिया गणराज्य;
(5) इंग्रिड ब्लोइस, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(6) डॉन विल्सन, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(7) पैट्रिक मार्टिन्यू, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(8) फ़्राँस्वा बेनार्ड, बी.सी. कैंसर, वैंकूवर, बी.सी., कनाडा;
(9) फ़ेरेश्तेह यूसुफ़िरिज़ी, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा;
(10) राहुल डोढिया, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(11) जुआन एम. लाविस्टा, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(12) विलियम बी. वीक्स, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(13) कार्लोस एफ. उरीबे, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा;
(14) अरमान रहमीम, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा।
ए. विभाजन प्रदर्शन
चार नेटवर्कों के प्रदर्शन का मूल्यांकन मीडियन डीएससी, एफपीवी और एफएनवी तथा आंतरिक (विभिन्न आंतरिक समूहों द्वारा अलग किए गए प्रदर्शन सहित) और बाहरी परीक्षण सेटों पर औसत डीएससी का उपयोग करके किया गया, जैसा कि तालिका II में दिखाया गया है। नेटवर्कों के प्रदर्शन के कुछ दृश्य चित्र 2 में दर्शाए गए हैं।
SegResNet में आंतरिक और बाह्य दोनों परीक्षण सेटों पर क्रमशः 0.76 [0.27, 0.88] और 0.68 [0.40, 0.78] के मध्यकों के साथ उच्चतम औसत DSC था। आंतरिक परीक्षण सेट के भीतर अलग-अलग समूहों के लिए, UNet में DLBCL-BCCV और PMBCL-BCCV दोनों पर क्रमशः 0.72 [0.24, 0.89] और 0.74 [0.02, 0.90] के मध्यकों के साथ सबसे अच्छा DSC था, जबकि SegResNet में DLBCLSMHS पर 0.78 [0.62, 0.87] का सबसे अच्छा DSC था। SegResNet में आंतरिक और बाह्य दोनों परीक्षण सेटों पर 4.55 [1.35, 31.51] मिली और 21.46 [6.30, 66.44] मिली के मानों के साथ सबसे अच्छा FPV भी था। DLBCL-BCCV और PMBCL-BCCV सेटों के लिए DSC पर UNet की जीत के बावजूद, SegResNet के पास इन दोनों सेटों पर क्रमशः 5.78 [0.61, 19.97] ml और 2.15 [0.52, 7.18] ml के औसत मूल्यों के साथ सबसे अच्छा FPV था, जबकि DLBCLSMHS पर UNet का सबसे अच्छा FPV 8.71 [1.19, 34.1] ml था। अंत में, SwinUNETR के पास आंतरिक परीक्षण सेट पर 0.0 [0.0, 4.65] ml का सबसे अच्छा औसत FNV था, जबकि UNet के पास बाहरी परीक्षण सेट पर 0.41 [0.0, 3.88] ml का सबसे अच्छा औसत FNV था। डीएलबीसीएल-बीसीसीवी और डीएलबीसीएल-एसएमएचएस पर, स्विनयूएनईटीआर का सबसे अच्छा औसत एफएनवी क्रमशः 0.09 [0.0, 3.39] एमएल और 0.0 [0.0, 8.83] एमएल था, जबकि पीएमबीसीएल-बीसीसीवी पर, यूनेट, डायनयूनेट और स्विनयूएनईटीआर बराबर थे, जिनमें से प्रत्येक का औसत मूल्य 0.0 [0.0, 1.24] एमएल था।
सबसे पहले, SegResNet और UNet दोनों ने अदृश्य बाहरी परीक्षण सेट पर अच्छी तरह से सामान्यीकरण किया, जिसमें माध्य और माध्यिका में गिरावट आई
आंतरिक परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर प्रदर्शन में क्रमशः 4% और 8% और 2% और 8% की वृद्धि हुई। यद्यपि आंतरिक परीक्षण सेट पर DynUNet और SwinUNETR का औसत DSC SegResNet और UNet से काफी कम है (लगभग 6-9%), आंतरिक से बाह्य परीक्षण में जाने पर इन नेटवर्कों में क्रमशः केवल 4% और 6% की औसत DSC में गिरावट के साथ बेहतर सामान्यीकरण भी था। यह भी ध्यान देने योग्य है कि बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर सभी नेटवर्कों के लिए DSC IQRs बड़े थे। साथ ही, सभी नेटवर्कों ने बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण सेट पर उच्च 75वां क्वांटाइल DSC प्राप्त किया, जबकि बाह्य परीक्षण सेट की तुलना में आंतरिक परीक्षण पर कम 25वां क्वांटाइल DSC प्राप्त किया (SwinUNETR को छोड़कर जहां यह प्रवृत्ति उलट थी)। सभी नेटवर्क में सबसे बड़े IQR वाले PMBCL-BCCV कोहोर्ट पर सबसे खराब प्रदर्शन प्राप्त हुआ (देखें सेक्शन IV-A.2 और चित्र 6)। दिलचस्प बात यह है कि आंतरिक और बाहरी दोनों टेस्ट सेटों पर DSC पर कम प्रदर्शन होने के बावजूद (सबसे अच्छा प्रदर्शन करने वाले मॉडल की तुलना में), SwinUNETR के पास आंतरिक टेस्ट सेट में कोहोर्ट में सबसे अच्छे औसत FNV मान थे।
बाहरी परीक्षण सेट पर भी यही विश्लेषण किया गया, जैसा कि चित्र 4 में दिखाया गया है। बाहरी परीक्षण सेट के लिए, केवल घाव माप जो पुनरुत्पादनीय थे, वे थे SegResNet और SwinUNETR द्वारा SUVmean, SegResNet द्वारा घावों की संख्या और DynUNet द्वारा TLG। यह दर्शाता है कि DSC या अन्य पारंपरिक विभाजन मीट्रिक के संदर्भ में नेटवर्क का प्रदर्शन हमेशा घाव माप का अनुमान लगाने में उनकी दक्षता को नहीं दर्शाता है। SUVmax, घावों की संख्या और Dmax जैसे घाव माप आमतौर पर नेटवर्क द्वारा पुनरुत्पादित करना कठिन होता है। SUVmax उच्च SUV अपटेक वाले क्षेत्रों में गलत गलत सकारात्मक भविष्यवाणियों के प्रति अत्यधिक संवेदनशील था। इसी तरह, घावों की संख्या गलत तरीके से विभाजित डिस्कनेक्टेड घटकों के प्रति अत्यधिक संवेदनशील थी, और Dmax जमीनी सच्चाई विभाजन से बहुत दूर एक गलत सकारात्मक भविष्यवाणी की उपस्थिति के प्रति अत्यधिक संवेदनशील था (भले ही ऐसी गलत सकारात्मक भविष्यवाणियों की मात्रा बहुत छोटी हो सकती है, जिस स्थिति में यह TMTV या TLG में बहुत कम योगदान देगा, जैसा कि आंतरिक परीक्षण सेट पर देखा गया है)।
2) नेटवर्क प्रदर्शन पर ग्राउंड ट्रुथ लेज़न माप मूल्यों का प्रभाव: सबसे पहले, हमने आंतरिक और बाह्य परीक्षण सेटों के लिए ग्राउंड ट्रुथ लेज़न मापों की गणना की, और इनमें से प्रत्येक माप और विभिन्न डेटासेट के लिए UNet (DSC पर आधारित) के प्रदर्शन को देखा, जैसा कि चित्र 6 में प्रस्तुत किया गया है। प्रदर्शन को चार अलग-अलग श्रेणियों में विभाजित किया गया था, अर्थात् (i) समग्र परीक्षण सेट, (ii) DSC < 0.2 वाले मामले, (iii) 0.2 ≤ DSC ≤ 0.75 वाले मामले, और (iv) परीक्षण सेट में DSC > 0.75 वाले मामले। चित्र 6 (ए)-(बी) से, यह स्पष्ट है कि उच्च डीएससी वाली श्रेणियों के लिए, (माध्य और माध्यिका) रोगी स्तर एसयूवीमीन और एसयूवीमीन के मान आंतरिक कोहोर्ट के साथ-साथ बाह्य कोहोर्ट परीक्षण सेटों के लिए भी अधिक थे घावों की संख्या के लिए एक समान प्रवृत्ति केवल बाहरी परीक्षण सेट पर देखी गई थी (छवि 6 (सी)), लेकिन किसी भी आंतरिक परीक्षण समूह पर नहीं। ध्यान दें कि बाहरी परीक्षण सेट पर घावों की औसत संख्या किसी भी आंतरिक परीक्षण सेट की तुलना में काफी अधिक थी। टीएमटीवी और टीएलजी के लिए, उच्च डीएससी वाले सभी समूहों में उच्च औसत और मध्यिका टीएमटीवी या टीएलजी भी थे, डीएलबीसीएल-एसएमएचएस समूह को छोड़कर, जहां श्रेणी डीएससी < 0.2 में उच्चतम औसत और मध्यिका टीएमटीवी और टीएलजी थे। इस विसंगति को इस तथ्य के लिए जिम्मेदार ठहराया जा सकता है कि बड़े होने के बावजूद, इस समूह के लिए इस श्रेणी के मामलों में घाव हल्के थे, जैसा कि चित्र 6 (ए)-(बी) में दिखाया गया है। अंत में, डीमैक्स के लिए, डीमैक्स का निम्न मान रोग के कम प्रसार को दर्शाता है, जो या तो केवल एक छोटे घाव के मामले से संबंधित हो सकता है, या आस-पास स्थित कई (छोटे या बड़े) घावों से संबंधित हो सकता है।
दूसरे, हमने के प्रदर्शन (मध्य डीएससी) का मूल्यांकन किया
बी. पता लगाने का प्रदर्शन
हमने अपने नेटवर्क के प्रदर्शन का मूल्यांकन तीन प्रकार के डिटेक्शन मेट्रिक्स पर किया, जैसा कि सेक्शन III-D.2 में परिभाषित किया गया है। मानदंड 1, सबसे कमज़ोर डिटेक्शन मानदंड होने के कारण, आंतरिक और बाहरी दोनों परीक्षण सेटों पर सभी नेटवर्क में सभी मानदंडों में से सबसे अच्छी समग्र डिटेक्शन संवेदनशीलता थी, उसके बाद मानदंड 3 और फिर मानदंड 2 (चित्र 8) थे। मानदंड 1 से, UNet, SegResNet, DynUNet और SwinUNETR ने आंतरिक परीक्षण सेट पर क्रमशः 1.0 [0.57, 1.0], 1.0 [0.59, 1.0], 1.0 [0.63, 1.0], और 1.0 [0.66, 1.0] की औसत संवेदनशीलता प्राप्त की, जबकि बाहरी सेट पर, उन्होंने क्रमशः 0.67 [0.5, 1.0], 0.68 [0.51, 0.89], 0.70 [0.5, 1.0], और 0.67 [0.5, 0.86] प्राप्त किया। स्वाभाविक रूप से, आंतरिक से बाहरी परीक्षण में जाने पर प्रदर्शन में गिरावट आई। इसके अलावा, मानदंड 1 में एफपी मेट्रिक्स की संख्या पर सबसे अच्छा प्रदर्शन था, जिसमें नेटवर्क ने आंतरिक परीक्षण सेट पर क्रमशः 4.0 [1.0, 6.0], 3.0 [2.0, 6.0], 5.0 [2.0, 10.0], और 7.0 [3.0, 11.25] औसत एफपी प्राप्त किए, और बाहरी परीक्षण सेट पर क्रमशः 16.0 [9.0, 24.0], 10.0 [7.0, 19.0], 18.0 [10.0, 29.0], और 31.0 [21.0, 55.0] औसत एफपी प्राप्त किए।
इसके अलावा, एक कठिन पहचान मानदंड होने के कारण, मानदंड 2 में सभी नेटवर्कों के लिए सबसे कम पहचान संवेदनशीलता थी, जिसमें आंतरिक परीक्षण सेट पर माध्य क्रमशः 0.5 [0.0, 1.0], 0.56 [0.19, 1.0], 0.5 [0.17, 1.0], और 0.55 [0.19, 1.0] थे, और बाहरी परीक्षण सेट पर क्रमशः 0.25 [0.1, 0.5], 0.25 [0.14, 0.5], 0.25 [0.13, 0.5], और 0.27 [0.16, 0.5] थे। इस मानदंड के लिए, आंतरिक से बाह्य परीक्षण सेट पर जाने पर औसत संवेदनशीलता में गिरावट मानदंड 1 के बराबर है। इसी तरह, इस मानदंड के लिए, आंतरिक परीक्षण सेट पर प्रति मरीज औसत एफपी क्रमशः 4.5 [2.0, 8.0], 4.0 [2.0, 8.0], 6.0 [4.0, 12.25], और 9.0 [5.0, 13.0] थे, और बाह्य परीक्षण सेट पर क्रमशः 22.0 [14.0, 36.0], 17.0 [10.0, 28.0], 25.0 [16.0, 37.0], और 44.0 [27.0, 63.0] थे। मानदंड 1 की तुलना में संवेदनशीलता कम होने के बावजूद, मानदंड 2 के लिए आंतरिक और बाह्य दोनों परीक्षण सेटों पर प्रति मरीज एफ.पी.एस. समान है (हालांकि स्विनयूएनईटीआर के लिए बाह्य परीक्षण सेट पर मानदंडों के बीच औसत एफ.पी.एस. में भिन्नता सबसे अधिक है)।
अंत में, घावों के SUVmax वॉक्सेल का पता लगाने के आधार पर मानदंड 3, मानदंड 1 और 2 के बीच एक मध्यवर्ती मानदंड था, क्योंकि मॉडल की घावों का सटीक रूप से पता लगाने की क्षमता घाव SUVmax (अनुभाग IV-A.2) के साथ बढ़ जाती है। इस मानदंड के लिए, नेटवर्क में आंतरिक परीक्षण सेट पर क्रमशः 0.75 [0.49, 1.0], 0.75 [0.5, 1.0], 0.78 [0.5, 1.0], और 0.85 [0.53, 1.0] की औसत संवेदनशीलता थी, और बाहरी परीक्षण सेट पर क्रमशः 0.5 [0.33, 0.75], 0.53 [0.38, 0.74], 0.5 [0.37, 0.75], और 0.5 [0.4, 0.75] थी। आंतरिक और बाह्य परीक्षण सेटों के बीच संवेदनशीलता में गिरावट अन्य दो मानदंडों के बराबर है। इसी तरह, नेटवर्क में आंतरिक परीक्षण सेट पर क्रमशः 4.0 [1.0, 8.0], 4.0 [2.0, 7.0], 5.0 [3.0, 11.0], और 8.0 [4.0, 12.0] और बाह्य परीक्षण सेट पर क्रमशः 19.0 [12.0, 29.0], 14.0 [8.0, 22.0], 22.0 [14.0, 35.0], और 39.0 [25.0, 58.0] थे।
C. अंतर-पर्यवेक्षक परिवर्तनशीलता
इंट्रा-ऑब्जर्वर परिवर्तनशीलता विश्लेषण करने के लिए, पूरे PMBCL-BCCV कोहोर्ट (ट्रेन, वैध और परीक्षण सेट को शामिल करते हुए) से 60 मामलों को फिजीशियन 4 द्वारा फिर से विभाजित किया गया। इस उपसमूह में 35 "आसान" मामले (मूल ग्राउंड ट्रुथ के साथ DSC > 0.75 प्राप्त करने वाले UNet पूर्वानुमानित मास्क वाले मामले) और 25 "कठिन" मामले (DSC < 0.2) शामिल थे। पूर्वाग्रह को खत्म करने के लिए, DSC मानदंड को छोड़कर, इन मामलों का चयन यादृच्छिक किया गया था, यह सुनिश्चित करते हुए कि पुन: विभाजन प्रक्रिया के दौरान विशिष्ट मामलों के चयन में कोई वरीयता नहीं दी गई थी।
"आसान" और "कठिन" मामलों पर चिकित्सक के मूल और नए विभाजनों के बीच कुल औसत और औसत डीएससी 0.50 ± 0.33 और 0.49 [0.20, 0.84] था। यहाँ, औसत यूनेट के पीएमबीसीएल-बीसीसीवी परीक्षण सेट प्रदर्शन (0.49 ± 0.42) के बराबर था, हालाँकि औसत यूनेट (0.74 [0.02, 0.9]) की तुलना में बहुत कम था। "कठिन" मामलों ने सुसंगत ग्राउंड ट्रुथ उत्पन्न करने में कम पुनरुत्पादकता प्रदर्शित की, जैसा कि मूल और पुनः-खंडित एनोटेशन के बीच औसत और औसत डीएससी द्वारा इंगित किया गया था, जो क्रमशः 0.22 ± 0.18 और 0.20 [0.05, 0.36] पाए गए। इसके विपरीत, "आसान" मामलों के लिए, औसत और माध्यिका डीएससी मान क्रमशः 0.70 ± 0.26 और 0.82 [0.65, 0.87] थे।
अंत में, हमने मूल और नए विभाजन पर भी पता लगाने का विश्लेषण किया, जैसा कि चित्र 10 में दिखाया गया है। इस विश्लेषण के लिए, हमने मूल विभाजन को जमीनी सच्चाई और नए विभाजन को पूर्वानुमानित मास्क के रूप में माना। मानदंड 1 के लिए, "आसान" और "कठिन" दोनों मामलों पर औसत पता लगाने की संवेदनशीलता 1.0 [1.0, 1.0] थी, जिसमें कहा गया था कि चिकित्सक ने हमेशा मूल और नए एनोटेशन के बीच कम से कम एक वॉक्सेल को लगातार विभाजित किया। इस मानदंड में "आसान" और "कठिन" मामलों पर क्रमशः प्रति मरीज औसत FPs 0.0 [0.0, 2.0] और 0.0 [0.0, 0.0] था, जिसमें कहा गया था कि "कठिन" मामलों के लिए, चिकित्सक ने उनके मूल मास्क की तुलना में पूरी तरह से अलग स्थान पर किसी भी घाव को कभी भी विभाजित नहीं किया। मानदंड 2 के लिए, संवेदनशीलता क्रमशः "आसान" और "कठिन" मामलों पर 0.67 [0.08, 1.0] और 0.0 [0.0, 0.0] थी। इसका मतलब यह है कि "कठिन" मामलों पर नए एनोटेशन के लिए, चिकित्सक ने कभी भी किसी ऐसे घाव को खंडित नहीं किया, जिसका IoU > 0.5 था, मूल एनोटेशन से किसी भी घाव के साथ। इस मानदंड के लिए, प्रति मरीज औसत FP क्रमशः "आसान" और "कठिन" मामलों के लिए 1.0 [0.5, 4.0] और 1.0 [1.0, 1.0] थे। अंत में, मानदंड 3 के लिए, संवेदनशीलता 1.0 [0.84, 1.0] और 1.0 [0.5, 1.0] थी, जबकि प्रति मरीज FPs क्रमशः "आसान" और "कठिन" मामलों के लिए 0.0 [0.0, 3.0] और 0.0 [0.0, 1.0] थे। यह ध्यान देने योग्य है कि इन तीन मानदंडों द्वारा मूल्यांकन किए गए चिकित्सक के पता लगाने के प्रदर्शन के बीच की प्रवृत्ति अनुभाग IV-B (मानदंड 1> मानदंड 3> मानदंड 2) में चार नेटवर्क द्वारा की गई प्रवृत्ति के समान है।
D. अंतर-पर्यवेक्षक परिवर्तनशीलता
नौ मामले (सभी अलग-अलग रोगियों से संबंधित) DLBCL-BCCV सेट से यादृच्छिक रूप से चुने गए थे, जिन्हें दो अतिरिक्त चिकित्सकों (चिकित्सक 2 और 3) द्वारा विभाजित किया गया था। इन 9 मामलों में औसत फ्लेइस κ गुणांक 0.72 था, जो चिकित्सकों के बीच "पर्याप्त" सहमति की श्रेणी में आता है। सहमति का यह स्तर कई एनोटेटर्स से प्राप्त ग्राउंड ट्रुथ सेगमेंटेशन की विश्वसनीयता और स्थिरता को रेखांकित करता है।
दूसरे, हमने सभी 9 मामलों के लिए हर दो चिकित्सकों के बीच जोड़ी-वार डीएससी की गणना की। चिकित्सक 1 और 2, 2 और 3, और 1 और 3 के बीच औसत डीएससी 0.67 ± 0.37, 0.83 ± 0.20, और 0.66 ± 0.37 थे। इसके अलावा, तीनों चिकित्सकों के लिए STAPLE [24] सर्वसम्मति सभी 9 मामलों के लिए उत्पन्न की गई थी और प्रत्येक चिकित्सक के लिए STAPLE और ग्राउंड ट्रुथ सेगमेंटेशन के बीच DSC की गणना की गई थी। चिकित्सक 1, 2 और 3 के लिए STAPLE ग्राउंड ट्रुथ के साथ औसत DSC क्रमशः 0.75 ± 0.37, 0.91 ± 0.11, और 0.90 ± 0.16 थे।
यह पत्र