paint-brush
লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করার জন্য গভীর নিউরাল নেটওয়ার্ক: আলোচনাদ্বারা@reinforcement

লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করার জন্য গভীর নিউরাল নেটওয়ার্ক: আলোচনা

দ্বারা Reinforcement Technology Advancements6m2024/06/12
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই গবেষণাটি পিইটি/সিটি ছবি থেকে লিম্ফোমা ক্ষত বিভাজনের জন্য চারটি নিউরাল নেটওয়ার্ক আর্কিটেকচারের ব্যাপক মূল্যায়ন করে।
featured image - লিম্ফোমা ক্ষত সনাক্ত এবং পরিমাপ করার জন্য গভীর নিউরাল নেটওয়ার্ক: আলোচনা
Reinforcement Technology Advancements HackerNoon profile picture
0-item

লেখক:

(1) শাদাব আহমেদ, ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা। তিনি মাইক্রোসফ্ট এআই ফর গুড ল্যাব, রেডমন্ড, ডাব্লুএ, ইউএসএ (ই-মেইল: [email protected]) এর সাথে মিটাক্স এক্সিলারেট ফেলো (মে 2022 - এপ্রিল 2023) ছিলেন;

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;

(3) ক্লেয়ার গাউডি, বিসি চিলড্রেন হাসপাতাল, ভ্যাঙ্কুভার, বিসি, কানাডা;

(4) জু এইচ.ও, সেন্ট মেরি হাসপাতাল, সিউল, কোরিয়া প্রজাতন্ত্র;

(5) ইনগ্রিড ব্লোইস, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(6) ডন উইলসন, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(7) প্যাট্রিক মার্টিনো, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(8) ফ্রাঙ্কোইস বেনার্ড, বিসি ক্যান্সার, ভ্যাঙ্কুভার, বিসি, কানাডা;

(9) ফেরেশতেহ ইউসেফিরিজি, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা;

(10) রাহুল দোধিয়া, Microsoft AI for Good Lab, Redmond, WA, USA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;

(13) কার্লোস এফ. উরিবে, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা, এবং ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা;

(14) আরমান রহমিম, বিসি ক্যান্সার রিসার্চ ইনস্টিটিউট, ভ্যাঙ্কুভার, বিসি, কানাডা, এবং ইউনিভার্সিটি অফ ব্রিটিশ কলাম্বিয়া, ভ্যাঙ্কুভার, বিসি, কানাডা।

লিঙ্কের টেবিল

V. আলোচনা

এই কাজে, আমরা তিনটি ভিন্ন দল থেকে প্রাপ্ত PET/CT ডেটাসেট থেকে লিম্ফোমা ক্ষতগুলির বিভাজন স্বয়ংক্রিয় করতে চারটি স্বতন্ত্র নিউরাল নেটওয়ার্ক আর্কিটেকচারকে প্রশিক্ষিত ও মূল্যায়ন করেছি। মডেলের কর্মক্ষমতা মূল্যায়ন করার জন্য, আমরা এই তিনটি দল থেকে উদ্ভূত অভ্যন্তরীণ পরীক্ষার সেটের উপর ব্যাপক মূল্যায়ন পরিচালনা করেছি এবং দেখিয়েছি যে SegResNet এবং UNet DSC (গড় ও মধ্যমা) এবং মধ্যকার FPV মেট্রিক্সে DynUNet এবং SwinUNETR-কে ছাড়িয়ে গেছে, যেখানে SwinUNETR-এর সেরা মধ্যম FPV ছিল। অভ্যন্তরীণ মূল্যায়নের পাশাপাশি, আমরা একটি বিশাল পাবলিক লিম্ফোমা PET/CT ডেটাসেটে একটি বাহ্যিক বহিরাগত-বন্টন পরীক্ষার পর্যায়কে অন্তর্ভুক্ত করার জন্য আমাদের বিশ্লেষণকে প্রসারিত করেছি। এই বাহ্যিক পরীক্ষার সেটেও, SegResNet DSC এবং FPV মেট্রিক্সের ক্ষেত্রে শীর্ষ পারফর্মার হিসাবে আবির্ভূত হয়েছে, এটির দৃঢ়তা এবং কার্যকারিতা আন্ডারস্কোর করেছে, যখন UNet FNV-তে সেরা পারফরম্যান্স প্রদর্শন করেছে।


এটি হাইলাইট করা গুরুত্বপূর্ণ যে SegResNet এবং UNet বৃহত্তর আকারের প্যাচগুলিতে প্রশিক্ষিত ছিল, বিশেষত (224, 224, 224) এবং (192, 192, 192), যখন DynUNet এবং SwinUNETR তুলনামূলকভাবে ছোট প্যাচগুলি ব্যবহার করে প্রশিক্ষিত হয়েছিল, যথা (160, যথাক্রমে 160, 160) এবং (128, 128, 128)। প্রশিক্ষণের সময় বৃহত্তর প্যাচের আকারগুলি ব্যবহার করা নিউরাল নেটওয়ার্কগুলিকে ডেটার আরও বিস্তৃত প্রাসঙ্গিক বোঝার ক্যাপচার করতে দেয়, যার ফলে সেগমেন্টেশন কাজগুলিতে এর কার্যকারিতা বৃদ্ধি পায় [17]। এই পর্যবেক্ষণটি আমাদের ফলাফলের সাথে সারিবদ্ধ, যেখানে SegResNet এবং UNet-এর উচ্চতর কর্মক্ষমতা প্রশিক্ষণের সময় তাদের বড় প্যাচ মাপের এক্সপোজারের জন্য দায়ী করা যেতে পারে। অধিকন্তু, বৃহত্তর ব্যাচের আকারগুলি গ্রেডিয়েন্টগুলি সঠিকভাবে অনুমান করে শক্তিশালী প্রশিক্ষণ সক্ষম করে [17], কিন্তু আমাদের নির্বাচিত প্রশিক্ষণ প্যাচ আকারের সাথে, আমরা মেমরির সীমাবদ্ধতার কারণে nb > 1 সহ SegResNet, DynUNet এবং SwinUNETR প্রশিক্ষণ দিতে পারিনি (যদিও আমরা nb = 8 মিটমাট করতে পারি। ইউনেটের জন্য)। সুতরাং, নেটওয়ার্কগুলির মধ্যে একটি ন্যায্য তুলনা করার জন্য, সমস্ত নেটওয়ার্কগুলিকে nb = 1 দিয়ে প্রশিক্ষিত করা হয়েছিল। এটি লক্ষণীয় যে আমাদের DynUNet এবং SwinUNETR কে বড় প্যাচ এবং মিনি-ব্যাচ আকারে প্রশিক্ষণ দিতে অক্ষমতা প্রাথমিকভাবে কম্পিউটেশনাল রিসোর্স সীমাবদ্ধতার কারণে হয়েছিল। যাইহোক, এই সীমাবদ্ধতা ভবিষ্যতের গবেষণার জন্য একটি উপায় উপস্থাপন করে, যেখানে এই মডেলগুলিকে বৃহত্তর প্যাচ এবং ব্যাচের আকারের সাথে প্রশিক্ষণ দিলে বিভাজন নির্ভুলতার আরও উন্নতি হতে পারে।


আমরা ক্ষত পরিমাপের পুনরুৎপাদনযোগ্যতা মূল্যায়ন করেছি এবং দেখেছি যে অভ্যন্তরীণ পরীক্ষা সেটে, TMTV এবং TLG সমস্ত নেটওয়ার্ক জুড়ে পুনরুত্পাদনযোগ্য ছিল, যখন Dmax কোনো নেটওয়ার্ক দ্বারা প্রজননযোগ্য ছিল না। SUVmean UNet বাদে সমস্ত নেটওয়ার্ক দ্বারা পুনরুত্পাদনযোগ্য ছিল, শুধুমাত্র SegResNet দ্বারা SUVmax এবং শুধুমাত্র UNet এবং SegResNet দ্বারা ক্ষতের সংখ্যা। বাহ্যিক পরীক্ষার সেটে, প্রজননযোগ্যতা আরও সীমিত ছিল, শুধুমাত্র SUVmean SegResNet এবং SwinUNETR উভয়ের দ্বারা পুনরুত্পাদনযোগ্য, SegResNet দ্বারা ক্ষতের সংখ্যা এবং DynUNet দ্বারা TLG (চিত্র 3 এবং 4)। তদ্ব্যতীত, আমরা MAPE ব্যবহার করে ক্ষত পরিমাপের মান অনুমান করার ক্ষেত্রে নেটওয়ার্কগুলির ত্রুটির পরিমাপ করেছি এবং দেখেছি যে MAPE সাধারণত মিলিত অভ্যন্তরীণ এবং বাহ্যিক পরীক্ষার সেটে ক্ষত পরিমাপের মানগুলির (সমস্ত ক্ষত পরিমাপের জন্য) ফাংশন হিসাবে হ্রাস পায় (চিত্র 5)৷ নেটওয়ার্কগুলি সাধারণত সঠিক ভবিষ্যদ্বাণীতে উল্লেখযোগ্য ত্রুটি করেছিল যখন স্থল সত্যের ক্ষত পরিমাপ খুব ছোট ছিল। আমরা আরও দেখিয়েছি যে, সাধারণভাবে, বৃহত্তর রোগীর স্তরের ক্ষত SUVmean, SUVmean, TMTV, এবং TLG সহ চিত্রগুলির একটি সেটে, একটি নেটওয়ার্ক উচ্চতর মধ্যবর্তী DSC ভবিষ্যদ্বাণী করতে সক্ষম, যদিও এই ক্ষত পরিমাপের খুব উচ্চ মানগুলির জন্য, কর্মক্ষমতা সাধারণত মালভূমি। অন্যদিকে, DSC কর্মক্ষমতা ক্ষতের সংখ্যা দ্বারা খুব বেশি প্রভাবিত হয় না, যখন উচ্চতর Dmax সহ চিত্রগুলির একটি সেটের জন্য, কার্যক্ষমতা সাধারণত সমস্ত নেটওয়ার্কের জন্য হ্রাস পায় (চিত্র 7)।


PET/CT ডেটার বেশিরভাগই ব্যক্তিগতভাবে স্বাস্থ্যসেবা প্রতিষ্ঠানের মালিকানাধীন, এটি প্রশিক্ষণের জন্য বিভিন্ন ডেটাসেট অ্যাক্সেস করতে এবং গভীর শিক্ষার মডেল পরীক্ষা করার ক্ষেত্রে গবেষকদের জন্য উল্লেখযোগ্য চ্যালেঞ্জ তৈরি করে। এই ধরনের পরিস্থিতিতে, মডেলগুলির ব্যাখ্যাযোগ্যতা উন্নত করার জন্য, গবেষকদের জন্য তাদের মডেলগুলির কার্যকারিতা কীভাবে ডেটাসেট বৈশিষ্ট্যের উপর নির্ভর করে তা তদন্ত করা অত্যন্ত গুরুত্বপূর্ণ। মডেলের কার্যকারিতা চিত্র/ক্ষত বৈশিষ্ট্যের সাথে কীভাবে সম্পর্কযুক্ত তা অধ্যয়ন করে, গবেষকরা তাদের মডেলগুলির শক্তি এবং সীমাবদ্ধতার অন্তর্দৃষ্টি পেতে পারেন [13]।


বিভাজন কার্যক্ষমতার মূল্যায়নের পাশাপাশি, আমরা তিনটি স্বতন্ত্র সনাক্তকরণের মানদণ্ডও প্রবর্তন করেছি, মানদণ্ড 1, 2 এবং 3 হিসাবে চিহ্নিত৷ এই মানদণ্ডগুলি একটি নির্দিষ্ট উদ্দেশ্য পরিবেশন করেছে: প্রতি-ক্ষত ভিত্তিতে নেটওয়ার্কগুলির কার্যকারিতা মূল্যায়ন করা৷ এটি বিভাজন কর্মক্ষমতা মূল্যায়নের বিপরীতে দাঁড়িয়েছে, যা প্রাথমিকভাবে নেটওয়ার্কগুলির ভক্সেল-স্তরের নির্ভুলতার উপর দৃষ্টি নিবদ্ধ করে। এই সনাক্তকরণের মানদণ্ডগুলি প্রবর্তনের পিছনে যুক্তি হল নেটওয়ার্কগুলি কতটা ভালভাবে চিত্রগুলির মধ্যে ক্ষতগুলি সনাক্ত করে এবং সনাক্ত করে তা মূল্যায়ন করার প্রয়োজনীয়তার মধ্যে রয়েছে, শুধুমাত্র ভক্সেল স্তরে ক্ষতের সীমানা চিহ্নিত করার তাদের ক্ষমতা মূল্যায়নের বিপরীতে। ক্ষতগুলির উপস্থিতি সনাক্ত করার ক্ষমতা (মাপদণ্ড 1) অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি সরাসরি প্রভাবিত করে যে কোনও সম্ভাব্য স্বাস্থ্য উদ্বেগ চিহ্নিত বা মিস করা হয়েছে কিনা। এমনকি একটি ক্ষতের একটি একক ভক্সেল সনাক্ত করা আরও তদন্ত বা চিকিত্সা পরিকল্পনা শুরু করতে পারে। ক্ষত গণনা এবং সঠিক স্থানীয়করণ (মাপদণ্ড 2) চিকিত্সা পরিকল্পনা এবং রোগের অগ্রগতি পর্যবেক্ষণের জন্য গুরুত্বপূর্ণ। শুধু যে ক্ষত বিদ্যমান তা নয়, কতজন আছে এবং কোথায় অবস্থিত তাও জেনে রাখা থেরাপিউটিক সিদ্ধান্তকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে। মানদণ্ড 3 যা ক্ষত বিপাকীয় বৈশিষ্ট্যের (SUVmax) উপর ভিত্তি করে ক্ষতগুলিকে ভাগ করার উপর দৃষ্টি নিবদ্ধ করে, ক্লিনিকাল প্রাসঙ্গিকতার একটি অতিরিক্ত স্তর যুক্ত করে।


এই সনাক্তকরণ মেট্রিক্স ব্যবহার করে, আমরা সমস্ত নেটওয়ার্কের জন্য সংবেদনশীলতা এবং FP সনাক্তকরণগুলি মূল্যায়ন করেছি এবং দেখিয়েছি যে সনাক্তকরণের মানদণ্ডের উপর নির্ভর করে, DSC কর্মক্ষমতা কম থাকলেও একটি নেটওয়ার্কের খুব উচ্চ সংবেদনশীলতা থাকতে পারে। এই বিভিন্ন সনাক্তকরণের মানদণ্ডের প্রেক্ষিতে, নির্দিষ্ট ক্লিনিকাল ব্যবহারের ক্ষেত্রে একটি প্রশিক্ষিত মডেল নির্বাচন করা যেতে পারে। উদাহরণস্বরূপ, কিছু ব্যবহারের ক্ষেত্রে সঠিক ক্ষত সীমানা ভাগ করার বিষয়ে অত্যধিক সতর্ক না হয়ে সমস্ত ক্ষত সনাক্ত করতে সক্ষম হওয়া জড়িত হতে পারে, যখন কিছু অন্যান্য ব্যবহারের ক্ষেত্রে আরও শক্তিশালী সীমারেখার বর্ণনার সন্ধান করা যেতে পারে।


অধিকন্তু, আমরা "সহজ" এবং "কঠিন" উভয় ক্ষেত্রেই ভাগ করার ক্ষেত্রে একজন চিকিত্সকের আন্তঃ-পর্যবেক্ষক পরিবর্তনশীলতা মূল্যায়ন করেছি, "হার্ড" উপসেট থেকে মামলাগুলির ধারাবাহিক বিভাজনে চ্যালেঞ্জগুলি লক্ষ্য করেছি। লিম্ফোমা ক্ষত বিভাজনে, আকার, আকৃতি এবং ক্ষতগুলির অবস্থান, বা চিত্রের গুণমানের মতো কারণগুলির কারণে কেসগুলি অসুবিধায় পরিবর্তিত হতে পারে। কোন কোন ক্ষেত্রে কোন অভিজ্ঞ চিকিত্সকের জন্য বিভাগ করা কঠিন তা চিহ্নিত করে, আমরা বিভাজন টাস্কের জটিলতা এবং সূক্ষ্মতা সম্পর্কে অন্তর্দৃষ্টি অর্জন করেছি। অবশেষে, আমরা তিনজন চিকিত্সকের মধ্যে ইন্টারঅবজারভার চুক্তিটিও মূল্যায়ন করেছি। যদিও, আমরা অনুমান করেছি যে তিনজন চিকিত্সকের মধ্যে যথেষ্ট স্তরের চুক্তি ছিল, মূল্যায়নটি শুধুমাত্র 9 টি ক্ষেত্রে সম্পাদিত হয়েছিল, যার ফলে পরিসংখ্যানগত শক্তি কম ছিল।


মেডিকেল ইমেজ সেগমেন্টেশনে গ্রাউন্ড ট্রুথের ধারাবাহিকতা উন্নত করতে, একটি সু-সংজ্ঞায়িত প্রোটোকল অপরিহার্য। এই প্রোটোকলটি একাধিক বিশেষজ্ঞ চিকিত্সককে স্বাধীনভাবে আগ্রহের অঞ্চলগুলি (ROIs) বা PET/CT চিত্রগুলির মধ্যে ক্ষতগুলিকে বর্ণনা করতে নিযুক্ত করা উচিত। একটি একক চিকিত্সক একটি দলকে স্বাধীনভাবে ভাগ করার পরিবর্তে, একাধিক টীকাকারকে একে অপরের কাজের জ্ঞান ছাড়াই একই চিত্রগুলি ভাগ করা উচিত। চিকিত্সকদের মধ্যে অমিল বা মতানৈক্যগুলি কাঠামোগত পদ্ধতির মাধ্যমে সমাধান করা যেতে পারে যেমন সুবিধাজনক আলোচনা, ক্লিনিকাল তথ্য পর্যালোচনা, বা চিত্র স্পষ্টীকরণ। এই শক্তিশালী গ্রাউন্ড ট্রুথ প্রক্রিয়া আন্তঃ-পর্যবেক্ষক চুক্তির যথার্থতা বাড়ায় এবং এই টীকাগুলির উপর নির্ভর করে গবেষণার ফলাফল এবং ক্লিনিকাল অ্যাপ্লিকেশনগুলির বৈধতাকে শক্তিশালী করে।


এই কাগজ হল arxiv এ উপলব্ধ CC 4.0 লাইসেন্সের অধীনে।