Autoren:
(1) Shadab Ahamed, University of British Columbia, Vancouver, BC, Kanada, BC Cancer Research Institute, Vancouver, BC, Kanada. Er war außerdem Mitacs Accelerate Fellow (Mai 2022 – April 2023) beim Microsoft AI for Good Lab, Redmond, WA, USA (E-Mail: [email protected]);
(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;
(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Kanada;
(4) Joo H. O, St. Mary's Hospital, Seoul, Republik Korea;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;
(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;
(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Kanada;
(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Kanada;
(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, USA;
(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;
(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;
(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada;
(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada.
A. Datensatz
1) Beschreibung: In dieser Arbeit verwendeten wir einen großen, vielfältigen und multiinstitutionellen Ganzkörper-PET/CT-Datensatz mit insgesamt 611 Fällen. Diese Scans stammten aus vier retrospektiven Kohorten: (i) DLBCL-BCCV: 107 Scans von 79 Patienten mit DLBCL von BC Cancer, Vancouver (BCCV), Kanada; (ii) PMBCLBCCV: 139 Scans von 69 Patienten mit PMBCL von BC Cancer; (iii) DLBCL-SMHS: 220 Scans von 219 Patienten mit DLBCL vom St. Mary's Hospital, Seoul (SMHS), Südkorea; (iv) AutoPET-Lymphom: 145 Scans von 144 Patienten mit Lymphom vom Universitätsklinikum Tübingen, Deutschland ¨ [14]. Eine zusätzliche Beschreibung der Anzahl der Scans, des Alters und Geschlechts der Patienten sowie der Hersteller der PET/CT-Scanner für jede Kohorte finden Sie in Tabelle I. Die Kohorten (i)-(iii) werden zusammen als interne Kohorte bezeichnet. Für die Kohorten (i) und (ii) wurde die ethische Genehmigung vom UBC BC Cancer Research Ethics Board (REB) (REB-Nummern: H19-01866 bzw. H19-01611) am 30. Oktober 2019 bzw. am 1. August 2019 erteilt. Für die Kohorte (iii) wurde die Genehmigung vom St. Mary's Hospital, Seoul (REB-Nummer: KC11EISI0293) am 2. Mai 2011 erteilt.
Aufgrund des retrospektiven Charakters unserer Daten wurde für diese drei Kohorten auf die Einwilligung der Patienten verzichtet. Die Kohorte (iv) wurde aus dem öffentlich verfügbaren AutoPET-Challenge-Datensatz [14] gewonnen und wird als externe Kohorte bezeichnet.
2) Ground-Truth-Annotation: Die DLBCL-BCCV-, PMBCLBCCV- und DLBCL-SMHS-Kohorten wurden von drei Nuklearmedizinern (Arzt 1, Arzt 4 und Arzt 5) von BC Cancer, Vancouver, BC Children's Hospital, Vancouver, bzw. St. Mary's Hospital, Seoul, separat segmentiert. Zusätzlich segmentierten zwei weitere Nuklearmediziner (Arzt 2 und 3) von BC Cancer 9 Fälle aus der DLBCL-BCCV-Kohorte, die zur Bewertung der Interobserver-Variabilität verwendet wurden (Abschnitt IV-D). Arzt 4 segmentierte zusätzlich 60 Fälle aus der PMBCL-BCCV-Kohorte neu, die zur Bewertung der Intraobserver-Variabilität verwendet wurden (Abschnitt IV-C). All diese Expertensegmentierungen wurden mit dem halbautomatischen gradientenbasierten Segmentierungstool PETEdge+ von der MIM-Workstation (MIM Software, Ohio, USA) durchgeführt.
Die AutoPET-Lymphom-PET/CT-Daten sowie ihre Ground-Truth-Segmentierungen wurden vom Cancer Imaging Archive bezogen. Diese Annotationen wurden manuell von zwei Radiologen des Universitätsklinikums Tübingen (Deutschland) und des Universitätsklinikums der LMU (Deutschland) vorgenommen.
B. Netzwerke, Werkzeuge und Code
Im Rahmen dieser Arbeit wurden vier Netzwerke trainiert, nämlich UNet [15], SegResNet [16], DynUNet [17] und SwinUNETR [18]. Die ersten drei sind 3D-CNN-basierte Netzwerke, während SwinUNETR ein transformerbasiertes Netzwerk ist. Die Implementierungen für diese Netzwerke wurden aus der MONAI-Bibliothek [19] übernommen. Die Modelle wurden auf einer virtuellen Maschine von Microsoft Azure mit Ubuntu 16.04 trainiert und validiert, die aus 24 CPU-Kernen (448 GiB RAM) und 4 NVIDIA Tesla V100 GPUs (je 16 GiB RAM) bestand. Der Code für diese Arbeit wurde unter der MIT-Lizenz als Open Source veröffentlicht und ist in diesem Repository zu finden: https://github.com/microsoft/lymphoma-segmentation-dnn.
C. Trainingsmethodik
1) Datenaufteilung: Die Daten der Kohorten (i)-(iii) (interne Kohorte mit insgesamt 466 Fällen) wurden zufällig in Trainings- (302 Scans), Validierungs- (76 Scans) und interne Test-Sets (88 Scans) aufgeteilt, während die AutoPET-Lymphom-Kohorte (145 Scans) ausschließlich für externe Tests verwendet wurde. Die Modelle wurden zuerst am Trainingsset trainiert und die optimalen Hyperparameter und besten Modelle wurden am Validierungsset ausgewählt. Die besten Modelle wurden dann an den internen und externen Testsets getestet. Beachten Sie, dass die Aufteilung der internen Kohorte auf Patientenebene durchgeführt wurde, um eine Überanpassung der Parameter des trainierten Modells an bestimmte Patienten zu vermeiden, wenn ihre mehreren Scans zufällig zwischen Trainings- und Validierungs-/Testsets geteilt werden.
2) Vorverarbeitung und Erweiterungen: Die hochauflösenden CT-Bilder (in der Hounsfield-Einheit (HU)) wurden herunterskaliert, um die Koordinaten ihrer entsprechenden PET/Maskenbilder abzugleichen. Die PET-Intensitätswerte in Einheiten von Bq/ml wurden zerfallskorrigiert und in SUV umgewandelt. Während des Trainings verwendeten wir eine Reihe von nicht randomisierten und randomisierten Transformationen, um den Input für das Netzwerk zu erweitern. Die nicht randomisierten Transformationen umfassten (i) das Abschneiden der CT-Intensitäten im Bereich von [-154, 325] HU (was dem [3, 97]ten Quantil der HUs innerhalb der Läsionen in den Trainings- und Validierungssätzen entspricht), gefolgt von einer Min-Max-Normalisierung, (ii) das Zuschneiden der Region außerhalb des Körpers in PET-, CT- und Maskenbildern mithilfe eines 3D-Begrenzungsrahmens und (iii) das erneute Abtasten der Bilder auf einen isotropen Voxelabstand von (2,0 mm, 2,0 mm, 2,0 mm) mittels bilinearer Interpolation für PET- und CT-Bilder und Nearest-Neighbor-Interpolation für Maskenbilder.
Andererseits wurden die randomisierten Transformationen zu Beginn jeder Epoche aufgerufen. Dazu gehörten (i) das zufällige Ausschneiden kubischer Bereiche der Dimensionen (N, N, N) aus den Bildern, wobei der Würfel um einen Läsionsvoxel mit Wahrscheinlichkeit pos/(pos + neg) oder um einen Hintergrundvoxel mit Wahrscheinlichkeit neg/(pos + neg) zentriert war, (ii) Translationen im Bereich (-10, 10) Voxel entlang aller drei Richtungen, (iii) axiale Rotationen im Bereich (−π/15, π/15) und (iv) zufällige Skalierung um 1,1 in alle drei Richtungen. Wir setzten neg = 1 und pos und N wurden aus den Hyperparametersätzen {1, 2, 4, 6, 8, 10, 12, 14, 16} bzw. {96, 128, 160, 192, 224, 256} für UNet [20] ausgewählt. Nach einer Reihe umfassender Ablationsexperimente erwiesen sich pos = 2 und N = 224 als optimal für UNet. Für andere Netzwerke wurde pos auf 2 gesetzt und das größte N gewählt, das während des Trainings im GPU-Speicher untergebracht werden konnte (da sich die Leistung für verschiedene N-Werte nicht wesentlich voneinander unterschied, mit Ausnahme von N = 96, das im Vergleich zu anderen N-Werten deutlich schlechter war). Daher wurden SegResNet, DynUNet und SwinUNETR mit N = 192, 160 bzw. 128 trainiert. Schließlich wurden die erweiterten PET- und CT-Patches kanalweise verknüpft, um den endgültigen Input für das Netzwerk zu erstellen.
4) Gleitfenster-Inferenz und Nachbearbeitung: Für die Bilder im Validierungs-/Testsatz haben wir nur die nicht randomisierten Transformationen verwendet. Die Vorhersage wurde direkt auf den 2-Kanal-Ganzkörperbildern (PET und CT) mithilfe der Gleitfenster-Technik mit einem kubischen Fenster der Größe (W, W, W) getroffen, wobei W ein Hyperparameter war, der aus dem Satz {96, 128, 160, 192, 224, 256, 288} ausgewählt wurde. Die optimalen Werte W waren 224 für UNet, 192 für SegResNet und DynUnet und 160 für SwinUNETR. Die Vorhersagen des Testsatzes wurden zur Berechnung der Bewertungsmetriken auf die Koordinaten der ursprünglichen Ground-Truth-Masken neu abgetastet.
D. Bewertungsmaßstäbe
1) Segmentierungsmetriken: Zur Bewertung der Segmentierungsleistung verwendeten wir DSC auf Patientenebene im Vordergrund, die Mengen falsch positiver verbundener Komponenten, die sich nicht mit dem Vordergrund der Grundwahrheit überschneiden (FPV), und die Mengen verbundener Vordergrundkomponenten in der Grundwahrheit, die sich nicht mit der vorhergesagten Segmentierungsmaske überschneiden (FNV) [14]. Wir berichteten den Median und den Interquartilsabstand (IQR) für diese Metriken für die internen und externen Testsätze. Wir berichteten auch den mittleren DSC mit Standardabweichung vom Mittelwert. Wir entschieden uns für die Angabe der Medianwerte, da unsere mittleren Metrikwerte anfällig für Ausreißer waren und unser Stichprobenmedian für DSC (für FPV und FNV) immer höher (niedriger) war als der Stichprobenmittelwert. Eine Darstellung von FPV und FNV ist in Abb. 1 (a) dargestellt.
Obwohl die Definitionen der Erkennungsmetriken FP und FN den Segmentierungsmetriken FPV und FNV ähnlich erscheinen mögen, ist dies bei genauer Betrachtung nicht der Fall (Abb. 1 (a) und (b)). Die Metriken FPV und FNV berechnen die Summe der Volumina aller Läsionen, die an einer völlig falschen Stelle vorhergesagt werden (keine Überschneidung mit den tatsächlichen Läsionen) bzw. Läsionen, die vollständig übersehen werden. Daher werden diese Metriken für jeden Patienten auf Voxelebene definiert. Andererseits werden die Erkennungsmetriken (in den Kriterien 1, 2 und 3) für jeden Patienten auf Läsionsbasis definiert.
Die Bewertung der Reproduzierbarkeit dieser Läsionsmessungen erhöht das Vertrauen in die Ergebnisse des Segmentierungsalgorithmus. Daher führten wir gepaarte Student-t-Testanalysen durch, um die Unterschiede in den Mittelwerten der Verteilungen zwischen den Grundwerten und den vorhergesagten Läsionsmessungen zu ermitteln (Abschnitt IV-A.1). Zusätzlich wurden ähnliche Analysen durchgeführt, um die Intra-Observer-Variabilität zu bewerten, wobei zwei Anmerkungen desselben Arztes zu demselben Satz von Fällen einbezogen wurden (Abschnitt IV-C).
Dieses Papier ist