paint-brush
Lenfoma Lezyonlarını Tespit Etmek ve Ölçmek İçin Derin Sinir Ağları: Sonuçlarile@reinforcement
128 okumalar

Lenfoma Lezyonlarını Tespit Etmek ve Ölçmek İçin Derin Sinir Ağları: Sonuçlar

Çok uzun; Okumak

Bu çalışma, PET/CT görüntülerinden lenfoma lezyonu segmentasyonu için dört sinir ağı mimarisinin kapsamlı değerlendirmesini gerçekleştirmektedir.
featured image - Lenfoma Lezyonlarını Tespit Etmek ve Ölçmek İçin Derin Sinir Ağları: Sonuçlar
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Yazarlar:

(1) Shadab Ahamed, British Columbia Üniversitesi, Vancouver, BC, Kanada, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada. Aynı zamanda Microsoft AI for Good Lab, Redmond, WA, ABD'de Mitacs Hızlandırma Üyesi (Mayıs 2022 - Nisan 2023) olarak görev yaptı (e-posta: [email protected]);

(2) Yixi Xu, Good Lab için Microsoft AI, Redmond, WA, ABD;

(3) Claire Gowdy, BC Çocuk Hastanesi, Vancouver, BC, Kanada;

(4) Joo H. O, St. Mary's Hastanesi, Seul, Kore Cumhuriyeti;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;

(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;

(8) François Benard, BC Cancer, Vancouver, BC, Kanada;

(9) Fereshteh Yousefirizi, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada;

(10) Rahul Dodhia, Good Lab için Microsoft AI, Redmond, WA, ABD;

(11) Juan M. Lavista, Good Lab için Microsoft AI, Redmond, WA, ABD;

(12) William B. Weeks, Good Lab için Microsoft AI, Redmond, WA, ABD;

(13) Carlos F. Uribe, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada;

(14) Arman Rahmim, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada.

Bağlantı Tablosu

IV. SONUÇLAR

A. Segmentasyon performansı


Dört ağın performansı, Tablo II'de gösterildiği gibi hem dahili (farklı dahili gruplara göre ayrılmış performanslar dahil) hem de harici test setlerinde medyan DSC, FPV ve FNV ve ortalama DSC kullanılarak değerlendirildi. Ağ performanslarının bazı görselleştirmeleri Şekil 2'de gösterilmiştir.


SegResNet, sırasıyla 0,76 [0,27, 0,88] ve 0,68 [0,40, 0,78] medyanlarla hem dahili hem de harici test setlerinde en yüksek medyan DSC'ye sahipti. Dahili test seti içindeki bireysel kohortlar için UNet, sırasıyla 0,72 [0,24, 0,89] ve 0,74 [0,02, 0,90] ortalamasıyla hem DLBCL-BCCV hem de PMBCL-BCCV'de en iyi DSC'ye sahipken, SegResNet en iyi DSC'ye sahipti. DLBCLSMHS'de 0,78 [0,62, 0,87]. SegResNet ayrıca 4,55 [1,35, 31,51] ml ve 21,46 [6,30, 66,44] ml değerleriyle hem dahili hem de harici test setlerinde en iyi FPV'ye sahipti. UNet, DLBCL-BCCV ve PMBCL-BCCV setleri için DSC'de kazanmasına rağmen, SegResNet sırasıyla 5,78 [0,61, 19,97] ml ve 2,15 [0,52, 7,18] ml medyan değerleri ile her iki sette de en iyi FPV'ye sahipken, UNet DLBCLSMHS'de 8,71 [1,19, 34,1] ml'lik en iyi FPV. Son olarak SwinUNETR, dahili test setinde 0,0 [0,0, 4,65] ml'lik en iyi medyan FNV'ye sahipken UNet, harici test setinde 0,41 [0,0, 3,88] ml'lik en iyi medyan FNV'ye sahipti. DLBCL-BCCV ve DLBCL-SMHS'de SwinUNETR, sırasıyla 0,09 [0,0, 3,39] ml ve 0,0 [0,0, 8,83] ml'lik en iyi medyan FNV'ye sahipken, PMBCL-BCCV'de UNet, DynUNet ve SwinUNETR berabere kaldı. ortalama değeri 0,0 [0,0, 1,24] ml'dir.


İlk olarak, hem SegResNet hem de UNet, ortalama ve medyanda bir düşüşle, görünmeyen harici test setinde iyi bir genelleme yaptı


TABLO II DÖRT AĞIN DAHİLİ (HEM VERİ KÖKENLERİNE VE LENFOMA ALT TÜRLERİNE GÖRE AYRILMIŞ VE TOPLANMIŞ) VE HASTA DÜZEYİNDE DSC, FPV (ML'DE) VE FNV'NİN (ML'DE) ORTALAN DEĞERLERİ ARACILIĞIYLA DEĞERLENDİRİLEN HARİCİ TEST SETLERİNİN KARŞILAŞTIRILMASI. TÜM ORTA DEĞERLER IQRS'LERİYLE BİRLİKTE RAPORLANMIŞTIR. TEST SETLERİNDEKİ ORTALAMA HASTA DÜZEYİ DSC DEĞERLERİ AYRICA İLGİLİ STANDART SAPMALARLA RAPORLANIR.


dahili test seti ile karşılaştırıldığında performansı sırasıyla %4 ve %8 ve %2 ve %8 artırdı. Her ne kadar DynUNet ve SwinUNETR'in medyan DSC'si dahili test setinde SegResNet ve UNet'ten oldukça düşük olsa da (yaklaşık %6-9), bu ağlar medyan DSC'de sırasıyla yalnızca %4 ve %6'lık bir düşüşle daha da iyi genellemelere sahipti. , dahili testten harici teste geçerken. Ayrıca tüm ağlar için DSC IQR'lerinin harici test seti ile karşılaştırıldığında dahili test setinde daha büyük olduğunu belirtmekte fayda var. Ayrıca tüm ağlar, harici test seti ile karşılaştırıldığında dahili test setinde daha yüksek bir 75. yüzdelik DSC elde ederken, harici test seti ile karşılaştırıldığında dahili testte daha düşük bir 25. yüzdelik DSC elde etti (bu eğilimin tersine döndüğü SwinUNETR hariç) ). Benzer şekilde, dahili test seti içindeki farklı gruplar için tüm ağlar, DLBCL-SMHS setinde en yüksek ortalamaya ve 25. yüzdelik DSC'ye sahipti. En kötü performans, tüm ağlarda en büyük IQR'ye sahip PMBCL-BCCV kohortunda elde edildi (bkz. Bölüm IV-A.2 ve Şekil 6). İlginç bir şekilde, hem dahili hem de harici test setlerinde DSC'de daha düşük bir performansa sahip olmasına rağmen (en iyi performans gösteren modellerle karşılaştırıldığında), SwinUNETR dahili test setindeki kohortlar arasında en iyi medyan FNV değerlerine sahipti.




Aynı analiz, Şekil 4'te gösterildiği gibi harici test setinde de gerçekleştirildi. Harici test seti için tekrarlanabilir olan tek lezyon ölçümleri, SegResNet ve SwinUNETR ile SUVmean, SegResNet ile lezyon sayısı ve DynUNet tarafından TLG idi. Bu, ağların DSC veya diğer geleneksel segmentasyon ölçümleri açısından performansının, lezyon ölçümlerini tahmin etme konusundaki ustalıklarını her zaman yansıtmadığını göstermektedir. SUVmax, lezyon sayısı ve Dmax gibi lezyon ölçümlerinin ağlar tarafından yeniden üretilmesi genellikle zordur. SUVmax, SUV alımının yüksek olduğu bölgelerde yanlış yanlış pozitif tahminlere karşı oldukça duyarlıydı. Benzer şekilde, lezyonların sayısı yanlış şekilde bölümlendirilmiş bağlantısız bileşenlere karşı oldukça duyarlıydı ve Dmax, temel gerçek bölümlemelerden uzakta yanlış pozitif tahminlerin varlığına karşı oldukça duyarlıydı (bu tür yanlış pozitif tahminlerin hacimleri çok küçük olabilse de, bu durumda dahili test setinde görüldüğü gibi TMTV veya TLG'ye çok az katkıda bulunacaktır).




Şekil 5. Birleşik iç ve dış test setinde UNet, SegResNet, DynUNet ve SwinUNETR olmak üzere dört ağ için temel gerçek lezyon ölçümlerinin bir fonksiyonu olarak MAPE (%) (Ncases = 233). Genel olarak lezyon ölçümlerinin ağ tahminindeki yüzde hata, temel gerçek lezyon ölçümlerinin artan değerleri ile azalır. Özellikle, SUVmax (b), lezyon sayısı (c), TMTV (d) ve TLG (e) ölçümleri için, daha yüksek temel gerçeklik değerleri aralığı için MAPE platoları.


2) Temel doğruluk lezyon ölçüm değerlerinin ağ performansı üzerindeki etkisi: İlk olarak, iç ve dış test setleri için temel doğruluk lezyon ölçümlerini hesapladık ve bu ölçümlerin her biri ve farklı veri kümeleri için UNet'in (DSC'ye dayalı) performansına baktık, Şekil 6'da sunulduğu gibi. Performans dört farklı kategoriye ayrılmıştır: (i) genel test seti, (ii) DSC < 0,2 olan vakalar, (iii) 0,2 ≤ DSC ≤ 0,75 olan vakalar ve (iv) Test setinde DSC > 0,75. Şekil 6 (a)-(b)'den, daha yüksek DSC'lere sahip kategoriler için, (ortalama ve medyan) hasta seviyesi SUVmean ve SUVmean değerlerinin, harici kohort test setlerinin yanı sıra dahili kohort için de daha yüksek olduğu açıktır. . PMBCL-BCCV setindeki daha düşük genel performans, aynı zamanda daha düşük genel ortalama ve medyan SUV ortalaması ve SUV ortalamasına da bağlanabilir. Lezyon sayısında (Şekil 6 (c)) benzer bir eğilim yalnızca harici test setinde gözlendi, ancak dahili test gruplarının hiçbirinde gözlemlenmedi. Harici test setindeki ortalama lezyon sayısının, dahili test setlerinin herhangi birinden oldukça yüksek olduğunu unutmayın. TMTV ve TLG için, DSC < 0,2 kategorisinin en yüksek ortalama ve medyan TMTV ve TLG'ye sahip olduğu DLBCL-SMHS kohortu hariç, daha yüksek DSC'lere sahip tüm kohortlar aynı zamanda daha yüksek ortalama ve medyan TMTV'lere veya TLG'lere sahipti. Bu anomali, büyük olmasına rağmen, bu grup için bu kategorideki vakalardaki lezyonların Şekil 6 (a)-(b)'de gösterildiği gibi soluk olması gerçeğine atfedilebilir. Son olarak, Dmax için 0,2 ≤ DSC ≤ 0,75 kategorisi tüm kohortlarda en yüksek ortalama Dmax'a ve DLBCL-SMHS hariç tüm kohortlarda en yüksek ortalama Dmax'a sahipti. Daha düşük Dmax değerleri, hastalığın daha az yayılmasını gösterir; bu, ya yalnızca küçük bir lezyonun olduğu vakalara ya da yakınlarda bulunan birkaç (küçük veya büyük) lezyona karşılık gelebilir.


İkinci olarak, performansını (medyan DSC) değerlendirdik.


Şekil 6. Farklı test setlerinde farklı temel gerçek lezyon ölçümleri için UNet performansı (DSC) değişimleri. Her test seti için lezyon ölçüm dağılımları dört farklı kategoride kutu grafikleri olarak sunulmuştur: (i) genel test setinde, (ii) DSC < 0,2 olan vakalarda, (iii) 0,2 ≤ DSC ≤ 0,75 ve (iv) ) DSC > 0,75. Tüm grafiklerin y eksenleri log ölçeğindedir ve her kutunun ortalama ve medyan değerleri sırasıyla beyaz daireler ve siyah yatay çizgilerle temsil edilmiştir.






B. Algılama performansı


Ağlarımızın performansını Bölüm III-D.2'de tanımlandığı gibi üç tür tespit metriğine göre değerlendirdik. En zayıf tespit kriteri olan Kriter 1, hem dahili hem de harici test setlerinde tüm ağlarda tüm kriterlerin en iyi genel tespit hassasiyetine sahip oldu; bunu Kriter 3 ve ardından Kriter 2 izledi (Şekil 8). UNet, SegResNet, DynUNet ve SwinUNETR, Kriter 1'den dahili test setinde sırasıyla 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] ve 1,0 [0,66, 1,0] ortalama hassasiyetler elde etti dış kümede ise sırasıyla 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] ve 0,67 [0,5, 0,86] elde ettiler. Doğal olarak dahili testten harici teste geçildiğinde performansta bir düşüş yaşandı. Ayrıca Kriter 1, ağların sırasıyla 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] ve 7,0 [3,0, 11,25] ortalama FP elde etmesiyle FP metriklerinin sayısı açısından en iyi performansı gösterdi. dahili test seti ve harici test setinde sırasıyla 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] ve 31,0 [21,0, 55,0] medyan FP'ler.


Şekil 8. Dahili ve harici test setlerindeki dört ağ için üç tespit kriteri yoluyla ortalama tespit hassasiyeti ve hasta başına FP. Kutuların üst ve alt kenarları IQR'yi kapsarken, kırmızı yatay çizgiler ve beyaz daireler sırasıyla medyan ve ortalamayı temsil eder. Bıyık uzunluğu IQR'nin 1,5 katı olarak ayarlanmıştır ve aykırı değerler siyah elmaslarla gösterilmiştir.


Ayrıca, daha zor bir tespit kriteri olan Kriter 2, medyanı sırasıyla 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] ve 0,55 [0,19, 1,0] olan tüm ağlar için en düşük tespit hassasiyetine sahipti. dahili test setinde ve harici test setinde sırasıyla 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] ve 0,27 [0,16, 0,5]. Bu kriter için, dahili test setinden harici test setine geçişte medyan hassasiyetlerdeki düşüş, Kriter 1'dekilerle karşılaştırılabilir. Benzer şekilde, bu kriter için hasta başına medyan FP'ler 4,5 [2,0, 8,0], 4,0 [2,0, 8,0] idi. Dahili test setinde sırasıyla ], 6,0 [4,0, 12,25] ve 9,0 [5,0, 13,0] ve 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] ve 44,0 [27,0, 63.0] sırasıyla harici test setinde. Hassasiyetlerin Kriter 1'dekinden daha düşük olmasına rağmen, hasta başına FP'ler, Kriter 2'ye yönelik hem dahili hem de harici test setlerinde benzerdir (her ne kadar SwinUNETR için harici test setindeki kriterler arasındaki medyan FP varyasyonu en yüksek olsa da).


Son olarak, lezyonların SUVmax vokselinin tespitine dayanan Kriter 3, Kriter 1 ve 2 arasında bir ara kriterdi çünkü modelin lezyonları doğru bir şekilde tespit etme yeteneği lezyon SUVmax ile birlikte artıyor (Bölüm IV-A.2). Bu kriter için ağların ortalama hassasiyetleri dahili test setinde sırasıyla 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] ve 0,85 [0,53, 1,0] ve 0,5 [0,33, 1,0] idi. Harici test setinde sırasıyla 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] ve 0,5 [0,4, 0,75]. Dahili ve harici test setleri arasındaki hassasiyetlerdeki düşüş diğer iki kriterle karşılaştırılabilir düzeydedir. Benzer şekilde, ağların dahili test setinde hasta başına ortalama FP'si sırasıyla 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] ve 8,0 [4,0, 12,0] ve 19,0 [12,0, 12,0] idi. Harici test setinde sırasıyla 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] ve 39,0 [25,0, 58,0].


C. Gözlemci içi değişkenlik


Gözlemci içi değişkenlik analizini gerçekleştirmek için, tüm PMBCL-BCCV kohortundan (tren, geçerli ve test kümelerini kapsayan) 60 vaka, Doktor 4 tarafından yeniden bölümlere ayrıldı. Bu alt küme, 35 "kolay" vakadan (UNet tarafından tahmin edilen maskelere sahip vakalar) oluşuyordu. orijinal temel gerçekle DSC > 0,75 elde edilmesi) ve 25 "zor" durum (DSC < 0,2). Önyargıyı ortadan kaldırmak için, DSC kriterleri dışında bu vakaların seçimi rastgele hale getirildi ve yeniden segmentasyon süreci sırasında belirli vakaların seçiminde herhangi bir tercih yapılmaması sağlandı.


Hekimin "kolay" ve "zor" vakalar üzerindeki orijinal ve yeni segmentasyonları arasındaki genel ortalama ve medyan DSC 0,50 ± 0,33 ve 0,49 idi [0,20, 0,84]. Burada ortalama UNet'in PMBCL-BCCV test seti performansıyla (0,49 ± 0,42) karşılaştırılabilir olmasına rağmen medyan UNet'inkinden (0,74 [0,02, 0,9]) çok daha düşüktü. Orijinal ve yeniden bölümlere ayrılmış açıklamalar arasındaki ortalama ve medyan DSC'lerin gösterdiği gibi, "zor" vakalar tutarlı temel gerçeği oluşturmada daha düşük tekrarlanabilirlik sergiledi; bunların sırasıyla 0,22±0,18 ve 0,20 [0,05, 0,36] olduğu bulundu. Tersine, "kolay" vakalar için ortalama ve medyan DSC değerleri sırasıyla 0,70 ± 0,26 ve 0,82 [0,65, 0,87] idi.




Şekil 10. PMBCL-BCCV kohortundan 35 "kolay" ve 25 "zor" vaka için ortalama duyarlılık ve hasta başına FP ölçümlerine ilişkin üç tespit kriteri kullanılarak gözlemci içi (Doktor 4) değişkenliğin değerlendirilmesi. Bu analizler için, Physician 4 tarafından yapılan orijinal segmentasyon temel gerçek olarak, yeni segmentasyonlar ise tahmin edilen maskeler olarak ele alındı. Kutuların üst ve alt kenarları IQR'yi kapsarken, kırmızı yatay çizgiler ve beyaz daireler sırasıyla medyan ve ortalamayı temsil eder. Bıyık uzunluğu IQR'nin 1,5 katı olarak ayarlanmıştır ve aykırı değerler siyah elmaslarla gösterilmiştir.


Son olarak, Şekil 10'da gösterildiği gibi orijinal ve yeni segmentasyon üzerinde tespit analizi de gerçekleştirdik. Bu analiz için orijinal segmentasyonu temel gerçek olarak ve yeni segmentasyonu tahmin edilen maskeler olarak ele aldık. Kriter 1 için, hem "kolay" hem de "zor" vakalardaki medyan algılama hassasiyetleri 1,0 [1,0, 1,0] idi; bu, doktorun en az bir vokseli her zaman orijinal ve yeni açıklamalar arasında tutarlı bir şekilde bölümlere ayırdığını gösterir. Bu kriterin "kolay" ve "zor" vakalarda hasta başına ortalama FP'si sırasıyla 0,0 [0,0, 2,0] ve 0,0 [0,0, 0,0] idi; bu da "zor" vakalar için doktorun herhangi bir lezyonu hiçbir zaman bölümlendirmediğini belirtir. orijinal maskeleriyle karşılaştırıldığında tamamen farklı bir konumda. Kriter 2 için hassasiyetler “kolay” ve “zor” vakalarda sırasıyla 0,67 [0,08, 1,0] ve 0,0 [0,0, 0,0] idi. Bu, "zor" vakalara ilişkin yeni açıklama için, doktorun IoU > 0,5 olan herhangi bir lezyonu orijinal açıklamadan herhangi bir lezyonla asla bölümlere ayırmadığı anlamına gelir. Bu kriter için hasta başına ortalama FP, “kolay” ve “zor” vakalar için sırasıyla 1,0 [0,5, 4,0] ve 1,0 [1,0, 1,0] idi. Son olarak, Kriter 3 için hassasiyetler 1,0 [0,84, 1,0] ve 1,0 [0,5, 1,0] iken, hasta başına FP'ler “kolay” ve “zor” için 0,0 [0,0, 3,0] ve 0,0 [0,0, 1,0] idi. ” vakaları sırasıyla. Bu üç kritere göre değerlendirilen hekimin tespit performansı arasındaki eğilimin Bölüm IV-B'deki dört ağa (Kriter 1 > Kriter 3 > Kriter 2) göre benzer olduğunu belirtmekte fayda var.


D. Gözlemciler arası değişkenlik


Dokuz vaka (hepsi farklı hastalara ait), iki ek doktor (Doktor 2 ve 3) tarafından bölümlere ayrılan DLBCL-BCCV setinden rastgele seçildi. Bu 9 vakanın ortalama Fleiss κ katsayısı 0,72 idi ve bu, doktorlar arasındaki "önemli" anlaşma kategorisine giriyor. Bu düzeyde bir anlaşma, birden fazla açıklayıcıdan elde edilen temel gerçek segmentasyonunun güvenilirliğinin ve tutarlılığının altını çizer.


İkinci olarak, 9 vakanın tümü için her iki doktor arasındaki ikili DSC'yi hesapladık. Doktorlar 1 ve 2, 2 ve 3 ve 1 ve 3 arasındaki ortalama DSC'ler 0,67 ± 0,37, 0,83 ± 0,20 ve 0,66 ± 0,37 idi. Ayrıca, 9 vakanın tamamı için üç hekim için STAPLE [24] konsensusu oluşturuldu ve her hekim için STAPLE ve temel gerçek segmentasyonları arasındaki DSC'ler hesaplandı. Doktorlar 1, 2 ve 3 için STAPLE temel gerçeğine sahip ortalama DSC'ler sırasıyla 0,75±0,37, 0,91±0,11 ve 0,90±0,16 idi.


Bu makale arxiv'de mevcut CC 4.0 lisansı altındadır.