Yazarlar:
(1) Shadab Ahamed, British Columbia Üniversitesi, Vancouver, BC, Kanada, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada. Aynı zamanda Microsoft AI for Good Lab, Redmond, WA, ABD'de Mitacs Hızlandırma Üyesi (Mayıs 2022 - Nisan 2023) olarak görev yaptı (e-posta: [email protected]);
(2) Yixi Xu, Good Lab için Microsoft AI, Redmond, WA, ABD;
(3) Claire Gowdy, BC Çocuk Hastanesi, Vancouver, BC, Kanada;
(4) Joo H. O, St. Mary's Hastanesi, Seul, Kore Cumhuriyeti;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;
(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;
(8) François Benard, BC Cancer, Vancouver, BC, Kanada;
(9) Fereshteh Yousefirizi, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada;
(10) Rahul Dodhia, Good Lab için Microsoft AI, Redmond, WA, ABD;
(11) Juan M. Lavista, Good Lab için Microsoft AI, Redmond, WA, ABD;
(12) William B. Weeks, Good Lab için Microsoft AI, Redmond, WA, ABD;
(13) Carlos F. Uribe, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada;
(14) Arman Rahmim, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada.
Bu çalışmada, üç farklı gruptan elde edilen PET/CT veri kümelerinden lenfoma lezyonlarının segmentasyonunu otomatikleştirmek için dört farklı sinir ağı mimarisini eğittik ve değerlendirdik. Model performansını değerlendirmek için bu üç gruptan kaynaklanan dahili test seti üzerinde kapsamlı değerlendirmeler yaptık ve SegResNet ve UNet'in DSC (ortalama ve medyan) ve medyan FPV ölçümlerinde DynUNet ve SwinUNETR'den daha iyi performans gösterdiğini, SwinUNETR'nin ise en iyi medyan FNV'ye sahip olduğunu gösterdik. Dahili değerlendirmelere ek olarak analizimizi, oldukça büyük bir halka açık lenfoma PET/CT veri seti üzerinde harici dağıtım dışı test aşamasını kapsayacak şekilde genişlettik. Bu harici test setinde de SegResNet, DSC ve FPV ölçümleri açısından en iyi performansı sergileyerek sağlamlığının ve etkinliğinin altını çizerken, UNet FNV'de en iyi performansı sergiledi.
SegResNet ve UNet'in sırasıyla (224, 224, 224) ve (192, 192, 192) olmak üzere daha büyük boyutlardaki yamalar üzerinde eğitildiğini, DynUNet ve SwinUNETR'nin ise nispeten daha küçük yamalar (160, 192, 192) kullanılarak eğitildiğini vurgulamak önemlidir. 160, 160) ve (128, 128, 128) sırasıyla. Eğitim sırasında daha büyük yama boyutlarının kullanılması, sinir ağlarının verilerin daha kapsamlı bir bağlamsal anlayışını yakalamasına olanak tanır ve böylece segmentasyon görevlerindeki performansını artırır [17]. Bu gözlem, SegResNet ve UNet'in üstün performansının, eğitim sırasında daha büyük yama boyutlarına maruz kalmalarına atfedilebileceği sonuçlarımızla uyumludur. Üstelik, daha büyük parti boyutları, gradyanları doğru bir şekilde tahmin ederek sağlam eğitim sağlar [17], ancak seçtiğimiz eğitim yaması boyutlarıyla, SegResNet, DynUNet ve SwinUNETR'yi bellek sınırlamaları nedeniyle nb > 1 ile eğitemedik (ancak nb = 8'i barındırabildik) UNet için). Dolayısıyla, ağlar arasında adil bir karşılaştırma yapılabilmesi için tüm ağlar nb = 1 ile eğitilmiştir. DynUNet ve SwinUNETR'yi daha büyük yama ve mini parti boyutlarında eğitemememizin temel olarak hesaplamalı kaynak sınırlamalarından kaynaklandığını belirtmekte fayda var. Bununla birlikte, bu sınırlama, bu modellerin daha büyük yamalar ve parti boyutlarıyla eğitilmesinin potansiyel olarak segmentasyon doğruluğunda daha fazla iyileştirme sağlayabileceği gelecekteki araştırmalar için bir yol sunmaktadır.
Lezyon ölçümlerinin tekrarlanabilirliğini değerlendirdik ve dahili test setinde TMTV ve TLG'nin tüm ağlarda tekrarlanabilir olduğunu, Dmax'ın ise hiçbir ağda tekrar üretilemediğini tespit ettik. SUVmean, UNet dışındaki tüm ağlar tarafından, SUVmax yalnızca SegResNet tarafından ve lezyon sayısı yalnızca UNet ve SegResNet tarafından yeniden üretilebildi. Harici test setinde tekrarlanabilirlik daha sınırlıydı; yalnızca SUVmean hem SegResNet hem de SwinUNETR tarafından, lezyon sayısı SegResNet tarafından ve TLG ise DynUNet tarafından yeniden üretilebiliyordu (Şekil 3 ve 4). Ayrıca, ağların MAPE kullanarak lezyon ölçümlerinin değerini tahmin etmedeki hatasını ölçtük ve MAPE'nin genel olarak birleşik iç ve dış test setindeki lezyon ölçüm değerlerinin (tüm lezyon ölçümleri için) bir fonksiyonu olarak azaldığını bulduk (Şekil 5). Temel gerçek lezyon ölçümleri çok küçük olduğunda ağlar genellikle doğru tahminde önemli hatalar yaptı. Ayrıca, genel olarak, daha büyük hasta seviyesindeki lezyon SUVmean, SUVmean, TMTV ve TLG'ye sahip bir dizi görüntüde, bir ağın daha yüksek bir medyan DSC'yi tahmin edebildiğini, ancak bu lezyon ölçümlerinin çok yüksek değerleri için performansın daha yüksek olduğunu gösterdik. genellikle platolardır. Öte yandan, DSC performansı lezyon sayısından pek etkilenmezken, daha yüksek Dmax'a sahip bir dizi görüntü için performans genellikle tüm ağlar için düşer (Şekil 7).
PET/CT verilerinin çoğu sağlık kurumlarına ait olduğundan, derin öğrenme modellerini eğitmek ve test etmek için çeşitli veri kümelerine erişme konusunda araştırmacılar için önemli zorluklar teşkil ediyor. Böyle bir senaryoda, modellerin yorumlanabilirliğini geliştirmek için araştırmacıların modellerinin performansının veri kümesi özelliklerine nasıl bağlı olduğunu araştırması çok önemlidir. Araştırmacılar, model performansının görüntü/lezyon özellikleriyle nasıl ilişkili olduğunu inceleyerek modellerinin güçlü yönleri ve sınırlamaları hakkında fikir sahibi olabilirler [13].
Segmentasyon performansının değerlendirilmesinin yanı sıra, Kriter 1, 2 ve 3 olarak adlandırılan üç farklı tespit kriteri de sunduk. Bu kriterler belirli bir amaca hizmet etti: ağların performansını lezyon bazında değerlendirmek. Bu, öncelikle ağların voksel düzeyindeki doğruluğuna odaklanan segmentasyon performans değerlendirmesinin tersidir. Bu tespit kriterlerini uygulamaya koymanın ardındaki mantık, ağların yalnızca voksel seviyesinde lezyon sınırlarını belirleme yeteneklerini değerlendirmenin aksine, görüntüler içindeki lezyonları ne kadar iyi tanımlayıp tespit ettiğini değerlendirme ihtiyacında yatmaktadır. Lezyonların varlığını tespit etme yeteneği (Kriter 1) çok önemlidir çünkü potansiyel bir sağlık sorununun tespit edilip edilmediğini veya gözden kaçırıldığını doğrudan etkiler. Bir lezyonun tek bir vokselinin bile tespit edilmesi, daha fazla araştırmayı veya tedavi planlamasını tetikleyebilir. Lezyon sayımı ve doğru lokalizasyon (Kriter 2), tedavi planlaması ve hastalığın ilerlemesinin izlenmesi açısından önemlidir. Yalnızca bir lezyonun var olduğunu değil aynı zamanda kaç tane olduğunu ve bunların nerede bulunduğunu bilmek de tedavi kararlarını önemli ölçüde etkileyebilir. Lezyonun metabolik özelliklerine (SUVmax) dayalı olarak lezyonları segmentlere ayırmaya odaklanan Kriter 3, ek bir klinik uygunluk katmanı ekler.
Bu tespit metriklerini kullanarak tüm ağlar için hassasiyetleri ve FP tespitlerini değerlendirdik ve tespit kriterlerine bağlı olarak bir ağın DSC performansı düşük olduğunda bile çok yüksek hassasiyete sahip olabileceğini gösterdik. Bu farklı tespit kriterleri göz önüne alındığında, belirli klinik kullanım durumlarına göre eğitilmiş bir model seçilebilir. Örneğin, bazı kullanım durumları, kesin lezyon sınırlarını bölümlere ayırma konusunda aşırı ihtiyatlı davranmadan tüm lezyonları tespit edebilmeyi içerebilirken, diğer bazı kullanım durumları daha sağlam sınır tanımlamaları arıyor olabilir.
Ayrıca, bir doktorun hem "kolay" hem de "zor" vakaları bölümlere ayırma konusundaki gözlemci içi değişkenliğini değerlendirdik ve vakaların "zor" alt kümeden tutarlı bir şekilde bölümlendirilmesindeki zorluklara dikkat çektik. Lenfoma lezyon segmentasyonunda lezyonların boyutu, şekli, konumu veya görüntü kalitesi gibi faktörlere bağlı olarak vakaların zorluk derecesi farklılık gösterebilir. Deneyimli bir doktorun bile hangi vakaları segmentlere ayırmasının sürekli olarak zor olduğunu belirleyerek, segmentasyon görevinin karmaşıklıkları ve nüansları hakkında fikir sahibi olduk. Son olarak üç hekimin gözlemciler arası uyumunu da değerlendirdik. Her ne kadar üç doktor arasında önemli düzeyde bir fikir birliği olduğu sonucuna varsak da, değerlendirme sadece 9 vaka üzerinde yapıldı ve bu da istatistiksel gücün düşük olmasına neden oldu.
Tıbbi görüntü segmentasyonunda temel gerçeğin tutarlılığını geliştirmek için iyi tanımlanmış bir protokol gereklidir. Bu protokol, ilgi duyulan bölgelerin (ROI'ler) veya PET/CT görüntüleri içindeki lezyonların tanımlanmasında birden fazla uzman hekimin bağımsız olarak katılımını sağlamalıdır. Tek bir hekimin bir grubu bağımsız olarak bölümlere ayırması yerine, birden fazla açıklama yapan kişi, birbirlerinin çalışmaları hakkında bilgi sahibi olmadan aynı görüntüleri bölümlere ayırmalıdır. Hekimler arasındaki tutarsızlıklar veya anlaşmazlıklar, kolaylaştırılmış tartışmalar, klinik bilgi incelemeleri veya görüntü netleştirme gibi yapılandırılmış yaklaşımlarla çözülebilir. Bu sağlam temel gerçek süreci, gözlemciler arası anlaşmanın doğruluğunu artırır ve bu ek açıklamalara dayanan araştırma bulgularının ve klinik uygulamaların geçerliliğini güçlendirir.
Bu makale