लेखक:
(1) शादाब अहमद, यूनिवर्सिटी ऑफ ब्रिटिश कोलंबिया, वैंकूवर, बीसी, कनाडा, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा। वह माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए (ई-मेल: [email protected]) के साथ मिटैक्स एक्सेलरेट फेलो (मई 2022 - अप्रैल 2023) भी थे;
(2) यिक्सी जू, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(3) क्लेयर गौडी, बीसी चिल्ड्रेन्स हॉस्पिटल, वैंकूवर, बीसी, कनाडा;
(4) जू एच.ओ, सेंट मैरी अस्पताल, सियोल, कोरिया गणराज्य;
(5) इंग्रिड ब्लोइस, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(6) डॉन विल्सन, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(7) पैट्रिक मार्टिन्यू, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(8) फ़्राँस्वा बेनार्ड, बी.सी. कैंसर, वैंकूवर, बी.सी., कनाडा;
(9) फ़ेरेश्तेह यूसुफ़िरिज़ी, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा;
(10) राहुल डोढिया, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(11) जुआन एम. लाविस्टा, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(12) विलियम बी. वीक्स, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(13) कार्लोस एफ. उरीबे, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा;
(14) अरमान रहमीम, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा।
A. डेटासेट
1) विवरण: इस कार्य में, हमने कुल 611 मामलों के साथ एक बड़े, विविध और बहु-संस्थागत पूरे शरीर पीईटी/सीटी डेटासेट का उपयोग किया। ये स्कैन चार पूर्वव्यापी समूहों से आए: (i) डीएलबीसीएल-बीसीसीवी: बीसी कैंसर, वैंकूवर (बीसीसीवी), कनाडा से डीएलबीसीएल वाले 79 रोगियों से 107 स्कैन; (ii) पीएमबीसीएलबीसीसीवी: बीसी कैंसर से पीएमबीसीएल वाले 69 रोगियों से 139 स्कैन; (iii) डीएलबीसीएल-एसएमएचएस: सेंट मैरी अस्पताल, सियोल (एसएमएचएस), दक्षिण कोरिया से डीएलबीसीएल वाले 219 रोगियों से 220 स्कैन; (iv) ऑटोपीईटी लिंफोमा: यूनिवर्सिटी हॉस्पिटल ट्यूबिंगन, जर्मनी से लिंफोमा वाले 144 रोगियों से 145 स्कैन ¨ [14]। प्रत्येक समूह के लिए स्कैन की संख्या, रोगी की आयु और लिंग, तथा PET/CT स्कैनर के निर्माताओं पर अतिरिक्त विवरण तालिका I में दिया गया है। समूहों (i)-(iii) को सामूहिक रूप से आंतरिक समूह कहा जाता है। समूहों (i) और (ii) के लिए, यूबीसी बीसी कैंसर रिसर्च एथिक्स बोर्ड (आरईबी) (आरईबी संख्या: H19-01866 और H19-01611 क्रमशः) द्वारा 30 अक्टूबर 2019 और 1 अगस्त 2019 को नैतिक अनुमोदन प्रदान किया गया था। समूह (iii) के लिए, सेंट मैरी अस्पताल, सियोल (आरईबी संख्या: KC11EISI0293) द्वारा 2 मई 2011 को अनुमोदन प्रदान किया गया था।
हमारे डेटा की पूर्वव्यापी प्रकृति के कारण, इन तीन समूहों के लिए रोगी की सहमति को माफ कर दिया गया था। समूह (iv) को सार्वजनिक रूप से उपलब्ध ऑटोपेट चैलेंज डेटासेट [14] से प्राप्त किया गया था और इसे बाहरी समूह के रूप में संदर्भित किया जाता है।
2) ग्राउंड ट्रुथ एनोटेशन: डीएलबीसीएल-बीसीसीवी, पीएमबीसीएलबीसीसीवी और डीएलबीसीएल-एसएमएचएस कोहॉर्ट को तीन न्यूक्लियर मेडिसिन फिजिशियन (जिन्हें क्रमशः फिजिशियन 1, फिजिशियन 4 और फिजिशियन 5 कहा जाता है) द्वारा अलग-अलग विभाजित किया गया था, जो क्रमशः बीसी कैंसर, बीसी चिल्ड्रेंस हॉस्पिटल, वैंकूवर और सेंट मैरी हॉस्पिटल, सियोल से हैं। इसके अतिरिक्त, बीसी कैंसर के दो अन्य न्यूक्लियर मेडिसिन फिजिशियन (फिजिशियन 2 और 3) ने डीएलबीसीएल-बीसीसीवी कोहॉर्ट से 9 मामलों को विभाजित किया, जिनका उपयोग अंतर-पर्यवेक्षक परिवर्तनशीलता (सेक्शन IV-D) का आकलन करने के लिए किया गया था। फिजिशियन 4 ने इसके अतिरिक्त पीएमबीसीएल-बीसीसीवी कोहॉर्ट से 60 मामलों को फिर से विभाजित किया, जिनका उपयोग अंतर-पर्यवेक्षक परिवर्तनशीलता (सेक्शन IV-C) का आकलन करने के लिए किया गया था। ये सभी विशेषज्ञ विभाजन एमआईएम वर्कस्टेशन (एमआईएम सॉफ्टवेयर, ओहियो, यूएसए) से PETEdge+ नामक अर्ध-स्वचालित ग्रेडिएंट-आधारित विभाजन उपकरण का उपयोग करके किए गए थे।
ऑटोपेट लिम्फोमा पीईटी/सीटी डेटा और उनके ग्राउंड ट्रुथ सेगमेंटेशन को कैंसर इमेजिंग आर्काइव से प्राप्त किया गया था। ये एनोटेशन यूनिवर्सिटी हॉस्पिटल ट्यूबिंगन, ¨ जर्मनी और यूनिवर्सिटी हॉस्पिटल ऑफ़ एलएमयू, जर्मनी के दो रेडियोलॉजिस्ट द्वारा मैन्युअल रूप से किए गए थे।
बी. नेटवर्क, उपकरण और कोड
इस कार्य में चार नेटवर्क प्रशिक्षित किए गए, अर्थात्, UNet [15], SegResNet [16], DynUNet [17] और SwinUNETR [18]। पहले तीन 3D CNN-आधारित नेटवर्क हैं, जबकि SwinUNETR एक ट्रांसफॉर्मर-आधारित नेटवर्क है। इन नेटवर्कों के कार्यान्वयन को MONAI लाइब्रेरी [19] से अनुकूलित किया गया था। मॉडल को Ubuntu 16.04 के साथ Microsoft Azure वर्चुअल मशीन पर प्रशिक्षित और मान्य किया गया था, जिसमें 24 CPU कोर (448 GiB RAM) और 4 NVIDIA Tesla V100 GPU (प्रत्येक में 16 GiB RAM) शामिल थे। इस कार्य के लिए कोड को MIT लाइसेंस के तहत ओपन-सोर्स किया गया है और इसे इस रिपॉजिटरी में पाया जा सकता है: https://github.com/microsoft/lymphoma-segmentation-dnn।
सी. प्रशिक्षण पद्धति
1) डेटा विभाजन: कोहोर्ट (i)-(iii) (कुल 466 मामलों वाला आंतरिक कोहोर्ट) से डेटा को यादृच्छिक रूप से प्रशिक्षण (302 स्कैन), सत्यापन (76 स्कैन) और आंतरिक परीक्षण (88 स्कैन) सेट में विभाजित किया गया था, जबकि ऑटोपेट लिम्फोमा कोहोर्ट (145 स्कैन) का उपयोग केवल बाहरी परीक्षण के लिए किया गया था। मॉडल को पहले प्रशिक्षण सेट पर प्रशिक्षित किया गया था, और सत्यापन सेट पर इष्टतम हाइपरपैरामीटर और सर्वश्रेष्ठ मॉडल चुने गए थे। फिर आंतरिक और बाहरी परीक्षण सेट पर शीर्ष मॉडल का परीक्षण किया गया। ध्यान दें कि आंतरिक कोहोर्ट का विभाजन रोगी स्तर पर किया गया था ताकि प्रशिक्षित मॉडल के मापदंडों को विशिष्ट रोगियों पर ओवरफिट करने से बचा जा सके, यदि उनके कई स्कैन प्रशिक्षण और सत्यापन/परीक्षण सेटों के बीच साझा किए जाते हैं।
2) प्रीप्रोसेसिंग और वृद्धि: उच्च-रिज़ॉल्यूशन सीटी छवियों (हौंसफील्ड यूनिट (एचयू) में) को उनके संबंधित पीईटी/मास्क छवियों के निर्देशांक से मिलान करने के लिए डाउन सैंपल किया गया था। बीक्यू/एमएल की इकाइयों में पीईटी तीव्रता मूल्यों को क्षय सुधारा गया और एसयूवी में परिवर्तित किया गया। प्रशिक्षण के दौरान, हमने नेटवर्क में इनपुट को बढ़ाने के लिए गैर-यादृच्छिक और यादृच्छिक परिवर्तनों की एक श्रृंखला का उपयोग किया। गैर-यादृच्छिक रूपांतरणों में शामिल हैं (i) [-154, 325] एचयू की सीमा में सीटी तीव्रता को क्लिप करना (प्रशिक्षण और सत्यापन सेटों में घावों के भीतर एचयू के [3, 97] वें क्वांटाइल का प्रतिनिधित्व करना) इसके बाद न्यूनतम-अधिकतम सामान्यीकरण, (ii) 3 डी बाउंडिंग बॉक्स का उपयोग करके पीईटी, सीटी और मास्क छवियों में शरीर के बाहर के क्षेत्र को क्रॉप करना, और (iii) पीईटी और सीटी छवियों के लिए द्विरेखीय इंटरपोलेशन और मास्क छवियों के लिए निकटतम-पड़ोसी इंटरपोलेशन के माध्यम से (2.0 मिमी, 2.0 मिमी, 2.0 मिमी) के आइसोट्रोपिक वॉक्सल स्पेसिंग में छवियों को फिर से नमूना करना
दूसरी ओर, यादृच्छिक रूपांतरणों को प्रत्येक युग की शुरुआत में बुलाया गया था। इनमें (i) छवियों से आयाम (N, N, N) के क्यूबिक पैच को यादृच्छिक रूप से क्रॉप करना शामिल था, जहाँ क्यूब को प्रायिकता pos/(pos + neg) के साथ एक घाव वाले वॉक्सेल के आसपास केंद्रित किया गया था, या प्रायिकता neg/(pos + neg) के साथ एक पृष्ठभूमि वॉक्सेल के आसपास, (ii) तीनों दिशाओं में (-10, 10) वॉक्सेल की सीमा में अनुवाद, (iii) (-π/15, π/15) की सीमा में अक्षीय घुमाव, और (iv) तीनों दिशाओं में 1.1 द्वारा यादृच्छिक स्केलिंग। हमने neg = 1 सेट किया, और pos और N को हाइपरपैरामीटर सेट {1, 2, 4, 6, 8, 10, 12, 14, 16} और {96, 128, 160, 192, 224, 256} क्रमशः UNet [20] के लिए चुना गया। व्यापक पृथक्करण प्रयोगों की एक श्रृंखला के बाद, pos = 2 और N = 224 को UNet के लिए इष्टतम पाया गया। अन्य नेटवर्कों के लिए, pos को 2 पर सेट किया गया था, और सबसे बड़ा N जिसे प्रशिक्षण के दौरान GPU मेमोरी में समायोजित किया जा सकता था, चुना गया था (चूंकि N के विभिन्न मूल्यों के लिए प्रदर्शन एक दूसरे से काफी अलग नहीं थे, N = 96 को छोड़कर जो N के अन्य मूल्यों की तुलना में काफी खराब था)। इसलिए, SegResNet, DynUNet, और SwinUNETR को क्रमशः N = 192, 160, और 128 का उपयोग करके प्रशिक्षित किया गया। अंत में, संवर्धित पीईटी और सीटी पैच को नेटवर्क के लिए अंतिम इनपुट का निर्माण करने हेतु चैनल-संयोजित किया गया।
4) स्लाइडिंग विंडो अनुमान और पोस्टप्रोसेसिंग: सत्यापन/परीक्षण सेट में छवियों के लिए, हमने केवल गैर-यादृच्छिक रूपांतरणों को नियोजित किया। पूर्वानुमान सीधे 2-चैनल (PET और CT) पूरे शरीर की छवियों पर स्लाइडिंग-विंडो तकनीक का उपयोग करके आकार (W, W, W) की क्यूबिक विंडो के साथ बनाया गया था, जहाँ W {96, 128, 160, 192, 224, 256, 288} सेट से चुना गया एक हाइपरपैरामीटर था। UNet के लिए इष्टतम मान W 224, SegResNet और DynUnet के लिए 192 और SwinUNETR के लिए 160 पाए गए। मूल्यांकन मीट्रिक की गणना करने के लिए परीक्षण सेट पूर्वानुमानों को मूल ग्राउंड ट्रुथ मास्क के निर्देशांकों पर फिर से सैंपल किया गया।
डी. मूल्यांकन मेट्रिक्स
1) विभाजन मेट्रिक्स: विभाजन प्रदर्शन का मूल्यांकन करने के लिए, हमने रोगी-स्तर के अग्रभूमि DSC, झूठे सकारात्मक जुड़े घटकों की मात्रा का उपयोग किया जो ग्राउंड ट्रुथ अग्रभूमि (FPV) के साथ ओवरलैप नहीं करते हैं, और ग्राउंड ट्रुथ में अग्रभूमि जुड़े घटकों की मात्रा जो अनुमानित विभाजन मास्क (FNV) के साथ ओवरलैप नहीं करते हैं [14]। हमने आंतरिक और बाहरी परीक्षण सेटों पर इन मेट्रिक्स के लिए माध्यिका और इंटरक्वार्टराइल रेंज (IQR) की रिपोर्ट की। हम माध्य पर मानक विचलन के साथ माध्य DSC की भी रिपोर्ट करते हैं। हमने माध्य मानों की रिपोर्ट करना चुना क्योंकि हमारे माध्य मीट्रिक मान आउटलेयर के लिए प्रवण थे और हमारा नमूना माध्यिका हमेशा नमूना माध्य की तुलना में DSC (FPV और FNV के लिए) के लिए उच्च (कम) था। FPV और FNV का एक चित्रण चित्र 1 (a) में दिया गया है।
हालाँकि डिटेक्शन मेट्रिक्स FP और FN की परिभाषाएँ सेगमेंटेशन मेट्रिक्स FPV और FNV के समान लग सकती हैं, लेकिन सावधानीपूर्वक जाँच करने पर, वे नहीं हैं (चित्र 1 (a) और (b))। FPV और FNV मेट्रिक्स उन सभी घावों की मात्रा का योग निकालते हैं, जिनकी भविष्यवाणी पूरी तरह से गलत स्थान पर की गई है (ग्राउंड ट्रुथ घावों के साथ कोई ओवरलैप नहीं) या वे घाव जो पूरी तरह से छूट गए हैं। इसलिए, ये मेट्रिक्स प्रत्येक रोगी के लिए वॉक्सेल स्तर पर परिभाषित किए गए हैं। दूसरी ओर, डिटेक्शन मेट्रिक्स (मानदंड 1, 2 और 3 में) प्रत्येक रोगी के लिए प्रति-घाव के आधार पर परिभाषित किए गए हैं।
इन घावों के मापों की पुनरुत्पादकता का आकलन करने से विभाजन एल्गोरिथ्म के परिणामों में विश्वास बढ़ता है। इसलिए, हमने ग्राउंड ट्रुथ और अनुमानित घावों के मापों के बीच वितरण के साधनों में असमानता को निर्धारित करने के लिए युग्मित स्टूडेंट के टी-टेस्ट विश्लेषण किए (अनुभाग IV-A.1)। इसके अतिरिक्त, मामलों के एक ही सेट पर एक ही चिकित्सक द्वारा किए गए दो एनोटेशन को शामिल करते हुए, अंतर-पर्यवेक्षक परिवर्तनशीलता का मूल्यांकन करने के लिए समान विश्लेषण किए गए (अनुभाग IV-C)।
यह पत्र