लेखक:
(1) शादाब अहमद, यूनिवर्सिटी ऑफ ब्रिटिश कोलंबिया, वैंकूवर, बीसी, कनाडा, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा। वह माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए (ई-मेल: [email protected]) के साथ मिटैक्स एक्सेलरेट फेलो (मई 2022 - अप्रैल 2023) भी थे;
(2) यिक्सी जू, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(3) क्लेयर गौडी, बीसी चिल्ड्रेन्स हॉस्पिटल, वैंकूवर, बीसी, कनाडा;
(4) जू एच.ओ, सेंट मैरी अस्पताल, सियोल, कोरिया गणराज्य;
(5) इंग्रिड ब्लोइस, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(6) डॉन विल्सन, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(7) पैट्रिक मार्टिन्यू, बीसी कैंसर, वैंकूवर, बीसी, कनाडा;
(8) फ़्राँस्वा बेनार्ड, बी.सी. कैंसर, वैंकूवर, बी.सी., कनाडा;
(9) फ़ेरेश्तेह यूसुफ़िरिज़ी, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा;
(10) राहुल डोढिया, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(11) जुआन एम. लाविस्टा, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(12) विलियम बी. वीक्स, माइक्रोसॉफ्ट एआई फॉर गुड लैब, रेडमंड, वाशिंगटन, यूएसए;
(13) कार्लोस एफ. उरीबे, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा;
(14) अरमान रहमीम, बीसी कैंसर रिसर्च इंस्टीट्यूट, वैंकूवर, बीसी, कनाडा और ब्रिटिश कोलंबिया विश्वविद्यालय, वैंकूवर, बीसी, कनाडा।
इस कार्य में, हमने तीन अलग-अलग समूहों से प्राप्त PET/CT डेटासेट से लिंफोमा घावों के विभाजन को स्वचालित करने के लिए चार अलग-अलग न्यूरल नेटवर्क आर्किटेक्चर को प्रशिक्षित और मूल्यांकन किया। मॉडल के प्रदर्शन का आकलन करने के लिए, हमने इन तीन समूहों से उत्पन्न आंतरिक परीक्षण सेट पर व्यापक मूल्यांकन किया और दिखाया कि SegResNet और UNet ने DSC (माध्य और माध्यिका) और माध्य FPV मेट्रिक्स पर DynUNet और SwinUNETR से बेहतर प्रदर्शन किया, जबकि SwinUNETR में सबसे अच्छा माध्य FNV था। आंतरिक मूल्यांकन के अलावा, हमने अपने विश्लेषण को एक बड़े सार्वजनिक लिंफोमा PET/CT डेटासेट पर बाहरी आउटऑफ-डिस्ट्रीब्यूशन परीक्षण चरण को शामिल करने के लिए बढ़ाया। इस बाहरी परीक्षण सेट पर भी, SegResNet DSC और FPV मेट्रिक्स के मामले में शीर्ष प्रदर्शनकर्ता के रूप में उभरा, जिसने इसकी मजबूती और प्रभावशीलता को रेखांकित किया, जबकि UNet ने FNV पर सर्वश्रेष्ठ प्रदर्शन प्रदर्शित किया।
यह उजागर करना महत्वपूर्ण है कि SegResNet और UNet को बड़े आकार के पैच पर प्रशिक्षित किया गया था, विशेष रूप से (224, 224, 224) और (192, 192, 192) क्रमशः, जबकि DynUNet और SwinUNETR को अपेक्षाकृत छोटे पैच का उपयोग करके प्रशिक्षित किया गया था, अर्थात् क्रमशः (160, 160, 160) और (128, 128, 128)। प्रशिक्षण के दौरान बड़े पैच आकारों का उपयोग करने से तंत्रिका नेटवर्क को डेटा की अधिक व्यापक प्रासंगिक समझ को पकड़ने की अनुमति मिलती है, जिससे विभाजन कार्यों में इसका प्रदर्शन बेहतर होता है [17]। यह अवलोकन हमारे परिणामों के अनुरूप है, जहां SegResNet और UNet के बेहतर प्रदर्शन को प्रशिक्षण के दौरान बड़े पैच आकारों के संपर्क में आने के लिए जिम्मेदार ठहराया जा सकता है। इसके अलावा, बड़े बैच आकार ग्रेडिएंट का सटीक अनुमान लगाकर मजबूत प्रशिक्षण को सक्षम करते हैं [17], लेकिन हमारे चुने हुए प्रशिक्षण पैच आकारों के साथ, हम मेमोरी सीमाओं के कारण nb > 1 के साथ SegResNet, DynUNet और SwinUNETR को प्रशिक्षित नहीं कर सके (हालाँकि हम UNet के लिए nb = 8 को समायोजित कर सकते थे)। इसलिए, नेटवर्क के बीच निष्पक्ष तुलना के लिए, सभी नेटवर्क को nb = 1 के साथ प्रशिक्षित किया गया था। यह ध्यान देने योग्य है कि बड़े पैच और मिनी-बैच आकारों पर DynUNet और SwinUNETR को प्रशिक्षित करने में हमारी असमर्थता मुख्य रूप से कम्प्यूटेशनल संसाधन सीमाओं के कारण थी। हालांकि, यह सीमा भविष्य के शोध के लिए एक रास्ता प्रस्तुत करती है, जहां इन मॉडलों को बड़े पैच और बैच आकारों के साथ प्रशिक्षित करने से संभावित रूप से विभाजन सटीकता में और सुधार हो सकता है।
हमने घावों के माप की पुनरुत्पादकता का मूल्यांकन किया और पाया कि आंतरिक परीक्षण सेट पर, TMTV और TLG सभी नेटवर्क में पुनरुत्पादनीय थे, जबकि Dmax किसी भी नेटवर्क द्वारा पुनरुत्पादनीय नहीं था। SUVmean UNet को छोड़कर सभी नेटवर्क द्वारा पुनरुत्पादनीय था, SUVmax केवल SegResNet द्वारा और घावों की संख्या केवल UNet और SegResNet द्वारा पुनरुत्पादनीय थी। बाहरी परीक्षण सेट पर, पुनरुत्पादकता अधिक सीमित थी, जिसमें केवल SUVmean SegResNet और SwinUNETR दोनों द्वारा पुनरुत्पादनीय था, घावों की संख्या SegResNet द्वारा और TLG DynUNet द्वारा पुनरुत्पादनीय था (चित्र 3 और 4)। इसके अलावा, हमने MAPE का उपयोग करके घावों के माप के मूल्य का अनुमान लगाने में नेटवर्क की त्रुटि को मापा और पाया कि MAPE आम तौर पर संयुक्त आंतरिक और बाहरी परीक्षण सेट (चित्र 5) पर घाव माप मूल्यों (सभी घावों के माप के लिए) के एक फ़ंक्शन के रूप में घटता है। जब ग्राउंड ट्रुथ घाव माप बहुत छोटे थे, तो नेटवर्क ने सटीक भविष्यवाणी में आम तौर पर महत्वपूर्ण त्रुटियाँ कीं। हमने यह भी दिखाया कि, सामान्य तौर पर, बड़े रोगी स्तर के घाव SUVmean, SUVmean, TMTV, और TLG वाली छवियों के एक सेट पर, एक नेटवर्क एक उच्च औसत DSC की भविष्यवाणी करने में सक्षम है, हालांकि इन घाव मापों के बहुत उच्च मूल्यों के लिए, प्रदर्शन आम तौर पर स्थिर हो जाता है। दूसरी ओर, DSC प्रदर्शन घावों की संख्या से बहुत अधिक प्रभावित नहीं होता है, जबकि उच्च Dmax वाली छवियों के एक सेट के लिए, प्रदर्शन आम तौर पर सभी नेटवर्क के लिए कम हो जाता है (चित्र 7)।
चूंकि PET/CT डेटा का अधिकांश हिस्सा स्वास्थ्य सेवा संस्थानों के निजी स्वामित्व में है, इसलिए यह शोधकर्ताओं के लिए डीप लर्निंग मॉडल के प्रशिक्षण और परीक्षण के लिए विविध डेटासेट तक पहुँचने में महत्वपूर्ण चुनौतियाँ पेश करता है। ऐसे परिदृश्य में, मॉडल की व्याख्या में सुधार करने के लिए, शोधकर्ताओं के लिए यह जांचना महत्वपूर्ण है कि उनके मॉडल का प्रदर्शन डेटासेट विशेषताओं पर कैसे निर्भर करता है। मॉडल का प्रदर्शन छवि/घाव विशेषताओं के साथ कैसे सहसंबंधित है, इसका अध्ययन करके, शोधकर्ता अपने मॉडल की ताकत और सीमाओं के बारे में जानकारी प्राप्त कर सकते हैं [13]।
विभाजन प्रदर्शन के मूल्यांकन के साथ-साथ, हमने तीन अलग-अलग पहचान मानदंड भी पेश किए, जिन्हें मानदंड 1, 2 और 3 के रूप में दर्शाया गया है। इन मानदंडों ने एक विशिष्ट उद्देश्य की पूर्ति की: प्रति-घाव के आधार पर नेटवर्क के प्रदर्शन का मूल्यांकन करना। यह विभाजन प्रदर्शन मूल्यांकन के विपरीत है, जो मुख्य रूप से नेटवर्क की वॉक्सेल-स्तर की सटीकता पर केंद्रित है। इन पहचान मानदंडों को पेश करने के पीछे तर्क यह आकलन करने की आवश्यकता है कि नेटवर्क छवियों के भीतर घावों की कितनी अच्छी तरह पहचान करते हैं और उनका पता लगाते हैं, न कि केवल वॉक्सेल स्तर पर घाव की सीमाओं को चित्रित करने की उनकी क्षमता का मूल्यांकन करते हैं। घावों की उपस्थिति का पता लगाने की क्षमता (मानदंड 1) महत्वपूर्ण है, क्योंकि यह सीधे प्रभावित करता है कि संभावित स्वास्थ्य चिंता की पहचान की जाती है या नहीं। घाव के एक भी वॉक्सेल का पता लगाने से आगे की जांच या उपचार योजना शुरू हो सकती है। घावों की संख्या और सटीक स्थानीयकरण (मानदंड 2) उपचार योजना और रोग की प्रगति की निगरानी के लिए महत्वपूर्ण हैं। न केवल यह जानना कि कोई घाव मौजूद है, बल्कि यह भी जानना कि कितने घाव हैं और वे कहाँ स्थित हैं, चिकित्सीय निर्णयों को महत्वपूर्ण रूप से प्रभावित कर सकते हैं। मानदंड 3, जो घावों की चयापचय विशेषताओं (एसयूवीमैक्स) के आधार पर घावों को विभाजित करने पर केंद्रित है, नैदानिक प्रासंगिकता की एक अतिरिक्त परत जोड़ता है।
इन पहचान मीट्रिक का उपयोग करके, हमने सभी नेटवर्क के लिए संवेदनशीलता और FP पहचान का आकलन किया और दिखाया कि पहचान मानदंडों के आधार पर, एक नेटवर्क में बहुत अधिक संवेदनशीलता हो सकती है, भले ही DSC प्रदर्शन कम हो। इन विभिन्न पहचान मानदंडों को देखते हुए, विशिष्ट नैदानिक उपयोग मामलों के आधार पर एक प्रशिक्षित मॉडल चुना जा सकता है। उदाहरण के लिए, कुछ उपयोग मामलों में सटीक घाव सीमा को विभाजित करने के बारे में अत्यधिक सतर्क हुए बिना सभी घावों का पता लगाने में सक्षम होना शामिल हो सकता है, जबकि कुछ अन्य उपयोग मामलों में अधिक मजबूत सीमा रेखांकन की तलाश हो सकती है।
इसके अलावा, हमने "आसान" और "कठिन" दोनों मामलों को विभाजित करने में एक चिकित्सक की अंतर-पर्यवेक्षक परिवर्तनशीलता का आकलन किया, "कठिन" उपसमूह से मामलों के लगातार विभाजन में चुनौतियों को ध्यान में रखते हुए। लिम्फोमा घाव विभाजन में, घावों के आकार, आकृति और स्थान या छवि गुणवत्ता जैसे कारकों के कारण मामलों की कठिनाई अलग-अलग हो सकती है। यह पहचान कर कि कौन से मामले एक अनुभवी चिकित्सक के लिए भी विभाजन करना लगातार कठिन है, हमने विभाजन कार्य की जटिलताओं और बारीकियों के बारे में जानकारी प्राप्त की। अंत में, हमने तीन चिकित्सकों के बीच अंतर-पर्यवेक्षक समझौते का भी आकलन किया। हालाँकि, हमने अनुमान लगाया कि तीन चिकित्सकों के बीच पर्याप्त स्तर की सहमति थी, लेकिन मूल्यांकन केवल 9 मामलों पर किया गया था, जिसके परिणामस्वरूप कम सांख्यिकीय शक्ति थी।
चिकित्सा छवि विभाजन में जमीनी सच्चाई की स्थिरता को बेहतर बनाने के लिए, एक अच्छी तरह से परिभाषित प्रोटोकॉल आवश्यक है। इस प्रोटोकॉल को PET/CT छवियों के भीतर रुचि के क्षेत्रों (ROI) या घावों को चित्रित करने में स्वतंत्र रूप से कई विशेषज्ञ चिकित्सकों को शामिल करना चाहिए। एक चिकित्सक द्वारा स्वतंत्र रूप से एक समूह को विभाजित करने के बजाय, कई एनोटेटर्स को एक-दूसरे के काम के बारे में जानकारी के बिना एक ही छवि को विभाजित करना चाहिए। चिकित्सकों के बीच विसंगतियों या असहमति को संरचित दृष्टिकोणों जैसे कि सुगम चर्चा, नैदानिक सूचना समीक्षा या छवि स्पष्टीकरण के माध्यम से हल किया जा सकता है। यह मजबूत जमीनी सच्चाई प्रक्रिया अंतर-पर्यवेक्षक समझौते की सटीकता को बढ़ाती है और इन एनोटेशन पर निर्भर शोध निष्कर्षों और नैदानिक अनुप्रयोगों की वैधता को मजबूत करती है।
यह पत्र