Yazarlar:
(1) Shadab Ahamed, British Columbia Üniversitesi, Vancouver, BC, Kanada, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada. Aynı zamanda Microsoft AI for Good Lab, Redmond, WA, ABD'de Mitacs Hızlandırma Üyesi (Mayıs 2022 - Nisan 2023) olarak görev yaptı (e-posta: [email protected]);
(2) Yixi Xu, Good Lab için Microsoft AI, Redmond, WA, ABD;
(3) Claire Gowdy, BC Çocuk Hastanesi, Vancouver, BC, Kanada;
(4) Joo H. O, St. Mary's Hastanesi, Seul, Kore Cumhuriyeti;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;
(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;
(8) François Benard, BC Cancer, Vancouver, BC, Kanada;
(9) Fereshteh Yousefirizi, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada;
(10) Rahul Dodhia, Good Lab için Microsoft AI, Redmond, WA, ABD;
(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, ABD;
(12) William B. Weeks, Good Lab için Microsoft AI, Redmond, WA, ABD;
(13) Carlos F. Uribe, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada;
(14) Arman Rahmim, BC Kanser Araştırma Enstitüsü, Vancouver, BC, Kanada ve British Columbia Üniversitesi, Vancouver, BC, Kanada.
A. Veri Kümesi
1) Açıklama: Bu çalışmada toplam 611 vakayı içeren geniş, çeşitli ve çok merkezli bir tüm vücut PET/CT veri seti kullandık. Bu taramalar dört retrospektif kohorttan geldi: (i) DLBCL-BCCV: BC Cancer, Vancouver (BCCV), Kanada'dan DLBCL'li 79 hastadan 107 tarama; (ii) PMBCLBCCV: BC Kanserinden PMBCL'li 69 hastadan 139 tarama; (iii) DLBCL-SMHS: Güney Kore, Seul'deki (SMHS) St. Mary's Hastanesi'nden DLBCL'li 219 hastadan 220 tarama; (iv) AutoPET lenfoma: Almanya, Tübingen Üniversite Hastanesi'nden lenfomalı 144 hastadan 145 tarama ¨ [14]. Her bir grup için tarama sayısı, hastanın yaşı ve cinsiyeti ile PET/CT tarayıcısının üreticisine ilişkin ek açıklamalar Tablo I'de verilmiştir. Gruplar (i)-(iii) toplu olarak dahili grup olarak anılır. Grup (i) ve (ii) için etik onayı, UBC BC Kanser Araştırmaları Etik Kurulu (REB) (REB Numaraları: sırasıyla H19-01866 ve H19-01611) tarafından sırasıyla 30 Ekim 2019 ve 1 Ağustos 2019 tarihlerinde verilmiştir. Grup (iii) için onay 2 Mayıs 2011 tarihinde Seul'deki St. Mary's Hastanesi (REB Numarası: KC11EISI0293) tarafından verilmiştir.
Verilerimizin geriye dönük doğası nedeniyle bu üç grup için hasta onamından feragat edildi. Grup (iv), kamuya açık AutoPET sorgulama veri setinden [14] elde edildi ve harici grup olarak anılıyor.
2) Temel gerçek açıklaması: DLBCL-BCCV, PMBCLBCCV ve DLBCL-SMHS kohortları, BC Cancer, Vancouver, BC Children's'tan üç nükleer tıp doktoru (sırasıyla Doktor 1, Doktor 4 ve Doktor 5 olarak anılır) tarafından ayrı ayrı bölümlere ayrılmıştır. Hastane, Vancouver ve St. Mary's Hastanesi, Seul. Ek olarak, BC Cancer'dan diğer iki nükleer tıp doktoru (Doktor 2 ve 3), gözlemciler arası değişkenliği değerlendirmek için kullanılan DLBCL-BCCV kohortundan 9 vakayı bölümlere ayırdı (Bölüm IV-D). Doktor 4 ayrıca, gözlemci içi değişkenliği değerlendirmek için kullanılan PMBCL-BCCV kohortundan 60 vakayı yeniden bölümlere ayırdı (Bölüm IV-C). Tüm bu uzman segmentasyonlar, MIM iş istasyonundan (MIM yazılımı, Ohio, ABD) PETEdge+ adı verilen yarı otomatik gradyan tabanlı segmentasyon aracı kullanılarak gerçekleştirildi.
AutoPET lenfoma PET/CT verileri, temel gerçek segmentasyonlarıyla birlikte Kanser Görüntüleme Arşivi'nden elde edildi. Bu açıklamalar, Almanya'daki Tubingen Üniversite Hastanesi ve Almanya'daki LMU Üniversite Hastanesi'nden iki radyolog tarafından manuel olarak gerçekleştirildi.
B. Ağlar, araçlar ve kod
Bu çalışmada UNet [15], SegResNet [16], DynUNet [17] ve SwinUNETR [18] olmak üzere dört ağ eğitilmiştir. İlk üçü 3D CNN tabanlı ağlardır, SwinUNETR ise transformatör tabanlı bir ağdır. Bu ağlara yönelik uygulamalar MONAI kütüphanesinden uyarlanmıştır [19]. Modeller, 24 CPU çekirdeği (448 GiB RAM) ve 4 NVIDIA Tesla V100 GPU'dan (her biri 16 GiB RAM) oluşan Ubuntu 16.04 yüklü Microsoft Azure sanal makinesinde eğitildi ve doğrulandı. Bu çalışmanın kodu MIT Lisansı altında açık kaynaklıdır ve şu depoda bulunabilir: https://github.com/microsoft/lymphoma-segmentation-dnn.
C. Eğitim metodolojisi
1) Veri bölünmesi: (i)-(iii) kohortlarından (toplam 466 vaka içeren dahili kohort) elde edilen veriler rastgele olarak eğitim (302 tarama), doğrulama (76 tarama) ve dahili test (88 tarama) setlerine bölünmüştür. AutoPET lenfoma kohortu (145 tarama) yalnızca harici testler için kullanıldı. Modeller ilk olarak eğitim setinde eğitildi ve doğrulama setinde en uygun hiperparametreler ve en iyi modeller seçildi. En iyi modeller daha sonra dahili ve harici test setlerinde test edildi. Birden fazla taramanın eğitim ve doğrulama/test setleri arasında paylaşılması durumunda, eğitilen modelin parametrelerinin belirli hastalara gereğinden fazla uymasını önlemek için dahili kohortun bölünmesinin hasta düzeyinde gerçekleştirildiğini unutmayın.
2) Ön işleme ve büyütmeler: Yüksek çözünürlüklü CT görüntüleri (Hounsfield biriminde (HU)) karşılık gelen PET/maske görüntülerinin koordinatlarıyla eşleşmesi için aşağı örneklendi. Bq/ml birimlerindeki PET yoğunluk değerleri bozunum düzeltildi ve SUV'a dönüştürüldü. Eğitim sırasında ağa girişi artırmak için bir dizi rastgele olmayan ve rastgele dönüşümler kullandık. Rastgele olmayan dönüşümler şunları içeriyordu: (i) [-154, 325] HU aralığındaki CT yoğunluklarını kırpma (eğitim ve doğrulama kümelerindeki lezyonlar içindeki HU'ların [3, 97]'inci dilimini temsil eder) ve ardından min-maks normalleştirme, (ii) PET, CT'de vücut dışındaki bölgenin kırpılması ve bir 3D sınırlama kutusu kullanılarak görüntülerin maskelenmesi ve (iii) çift doğrusal aracılığıyla görüntülerin (2,0 mm, 2,0 mm, 2,0 mm) izotropik voksel aralığına yeniden örneklenmesi PET ve CT görüntüleri için enterpolasyon ve maske görüntüleri için en yakın komşu enterpolasyonu
Öte yandan, rastgele dönüşümler her çağın başlangıcında çağrıldı. Bunlar arasında (i) küpün poz/(konum + negatif) olasılığıyla bir lezyon vokselinin etrafında veya negatif/negasyon olasılığıyla bir arka plan vokselinin etrafında ortalandığı görüntülerden rastgele boyutlardaki (N, N, N) kübik yamaların kırpılması yer alır. (pos + negatif), (ii) her üç yön boyunca (-10, 10) voksel aralığındaki ötelemeler, (iii) (-π/15, π/15) aralığındaki eksenel dönüşler ve (iv) rastgele ölçeklendirme her üç yönde de 1,1 arttı. Neg = 1 olarak belirledik ve konum ve N sırasıyla {1, 2, 4, 6, 8, 10, 12, 14, 16} ve {96, 128, 160, 192, 224, 256} hiperparametre kümelerinden seçildi UNet için [20]. Bir dizi kapsamlı ablasyon deneyinin ardından poz = 2 ve N = 224'ün UNet için optimal olduğu bulundu. Diğer ağlar için konum 2'ye ayarlandı ve eğitim sırasında GPU belleğine yerleştirilebilecek en büyük N seçildi (çünkü farklı N değerleri için performans, önemli ölçüde daha kötü olan N = 96 dışında birbirinden önemli ölçüde farklı değildi) N'nin diğer değerleri ile karşılaştırıldığında). Dolayısıyla SegResNet, DynUNet ve SwinUNETR sırasıyla N = 192, 160 ve 128 kullanılarak eğitildi. Son olarak, artırılmış PET ve CT yamaları, ağa nihai girdiyi oluşturmak için kanallarla birleştirildi.
4) Kayan pencere çıkarımı ve son işleme: Doğrulama/test kümesindeki görüntüler için yalnızca rastgele olmayan dönüşümleri kullandık. Tahmin doğrudan 2 kanallı (PET ve CT) tüm vücut görüntüleri üzerinde, W'nin {96 kümesinden seçilen bir hiperparametre olduğu, (W, W, W) boyutunda kübik pencereli kayan pencere tekniği kullanılarak yapıldı. , 128, 160, 192, 224, 256, 288}. En uygun W değerleri UNet için 224, SegResNet ve DynUnet için 192 ve SwinUNETR için 160 olarak bulunmuştur. Test seti tahminleri, değerlendirme ölçümlerini hesaplamak için orijinal temel doğruluk maskelerinin koordinatlarına yeniden örneklendi.
D. Değerlendirme ölçütleri
1) Segmentasyon metrikleri: Segmentasyon performansını değerlendirmek için hasta düzeyinde ön plan DSC'sini, temel gerçek ön planıyla (FPV) örtüşmeyen hatalı pozitif bağlı bileşenlerin hacimlerini ve temel gerçekteki ön plan bağlı bileşenlerin hacmini kullandık. tahmin edilen segmentasyon maskesi (FNV) ile örtüşmez [14]. Bu ölçümler için medyan ve çeyrekler arası aralığı (IQR) iç ve dış test setlerinde bildirdik. Ayrıca ortalama DSC'yi ortalamanın standart sapması ile birlikte rapor ediyoruz. Ortalama metrik değerlerimiz aykırı değerlere eğilimli olduğundan ve örnek medyanımız DSC için (FPV ve FNV için) örnek ortalamasından her zaman daha yüksek (daha düşük) olduğundan medyan değerleri raporlamayı seçtik. FPV ve FNV'nin bir örneği Şekil 1 (a)'da verilmiştir.
Her ne kadar tespit metrikleri FP ve FN'nin tanımları, segmentasyon metrikleri FPV ve FNV'ye benzer görünse de, dikkatli bir incelemede değildir (Şekil 1 (a) ve (b)). FPV ve FNV ölçümleri, sırasıyla tamamen yanlış bir konumda (temel gerçek lezyonlarla örtüşmeyen) tahmin edilen tüm lezyonların veya tamamen gözden kaçırılan lezyonların hacimlerinin toplamını hesaplar. Dolayısıyla bu ölçümler her hasta için voksel düzeyinde tanımlanır. Öte yandan, tespit metrikleri (Kriter 1, 2 ve 3'te) her hasta için lezyon bazında tanımlanır.
Bu lezyon ölçümlerinin tekrarlanabilirliğinin değerlendirilmesi, segmentasyon algoritmasının sonuçlarına olan güveni artırır. Bu nedenle, temel gerçek ile tahmin edilen lezyon ölçümleri arasındaki dağılım ortalamalarındaki eşitsizliği belirlemek için eşleştirilmiş Öğrenci t-testi analizlerini gerçekleştirdik (Bölüm IV-A.1). Ek olarak, gözlemci içi değişkenliği değerlendirmek için aynı doktor tarafından aynı vaka grubuna yapılan iki açıklamayı içeren benzer analizler yapıldı (Bölüm IV-C).
Bu makale