129 Lesungen

Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Ergebnisse

von Reinforcement Technology Advancements11m2024/06/12

Zu lang; Lesen

Diese Studie führt eine umfassende Bewertung von vier neuronalen Netzwerkarchitekturen zur Segmentierung von Lymphomläsionen anhand von PET/CT-Bildern durch.

featured image - Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Ergebnisse

Autoren:

(1) Shadab Ahamed, University of British Columbia, Vancouver, BC, Kanada, BC Cancer Research Institute, Vancouver, BC, Kanada. Er war außerdem Mitacs Accelerate Fellow (Mai 2022 – April 2023) beim Microsoft AI for Good Lab, Redmond, WA, USA (E-Mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Kanada;

(4) Joo H. O, St. Mary's Hospital, Seoul, Republik Korea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;

(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Kanada;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Kanada;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, USA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada.

Linktabelle

IV. ERGEBNISSE

A. Segmentierungsleistung

Die Leistung der vier Netzwerke wurde anhand des Median-DSC, FPV und FNV sowie des mittleren DSC sowohl in internen (einschließlich der nach verschiedenen internen Kohorten getrennten Leistungen) als auch in externen Testsätzen bewertet, wie in Tabelle II dargestellt. Einige Visualisierungen der Netzwerkleistungen sind in Abb. 2 dargestellt.

SegResNet hatte den höchsten medianen DSC bei internen und externen Testsätzen mit Medianwerten von 0,76 [0,27, 0,88] bzw. 0,68 [0,40, 0,78]. Für die einzelnen Kohorten innerhalb des internen Testsatzes hatte UNet den besten DSC bei DLBCL-BCCV und PMBCL-BCCV mit einem Medianwert von 0,72 [0,24, 0,89] bzw. 0,74 [0,02, 0,90], während SegResNet den besten DSC von 0,78 [0,62, 0,87] bei DLBCLSMHS hatte. SegResNet hatte auch den besten FPV bei internen und externen Testsätzen mit Werten von 4,55 [1,35, 31,51] ml und 21,46 [6,30, 66,44] ml. Obwohl UNet bei DSC für die DLBCL-BCCV- und PMBCL-BCCV-Sets gewann, hatte SegResNet bei beiden Sets das beste FPV mit Medianwerten von 5,78 [0,61, 19,97] ml bzw. 2,15 [0,52, 7,18] ml, während UNet das beste FPV von 8,71 [1,19, 34,1] ml bei DLBCLSMHS hatte. Schließlich hatte SwinUNETR das beste mediane FNV von 0,0 [0,0, 4,65] ml beim internen Testset, während UNet das beste mediane FNV von 0,41 [0,0, 3,88] ml beim externen Testset hatte. Bei DLBCL-BCCV und DLBCL-SMHS hatte SwinUNETR den besten medianen FNV von 0,09 [0,0, 3,39] ml bzw. 0,0 [0,0, 8,83] ml, während bei PMBCL-BCCV UNet, DynUNet und SwinUNETR mit jeweils einem Medianwert von 0,0 [0,0, 1,24] ml gleichauf lagen.

Erstens verallgemeinerten sowohl SegResNet als auch UNet gut auf dem unsichtbaren externen Testsatz, mit einem Rückgang des Mittelwerts und des Medians

Leistung um 4 % und 8 % bzw. 2 % und 8 % im Vergleich zum internen Testset. Obwohl der Median-DSC von DynUNet und SwinUNETR im internen Testset erheblich niedriger ist als der von SegResNet und UNet (um etwa 6–9 %), hatten diese Netzwerke sogar bessere Generalisierungen mit einem Rückgang des Median-DSC von nur 4 % bzw. 6 %, wenn man von internen zu externen Tests wechselte. Es ist auch erwähnenswert, dass die DSC-IQRs für alle Netzwerke im internen Testset größer waren als im externen Testset. Außerdem erreichten alle Netzwerke im internen Testset einen höheren 75. Quantil-DSC im Vergleich zum externen Testset, während sie im internen Testset einen niedrigeren 25. Quantil-DSC im Vergleich zum externen Testset erreichten (außer bei SwinUNETR, wo dieser Trend umgekehrt war). In ähnlicher Weise hatten für verschiedene Kohorten innerhalb des internen Testsets alle Netzwerke den höchsten Median- und 25. Quantil-DSC im DLBCL-SMHS-Set. Die schlechteste Leistung wurde in der PMBCL-BCCV-Kohorte mit dem größten IQR über alle Netzwerke hinweg erzielt (siehe Abschnitt IV-A.2 und Abb. 6). Interessanterweise hatte SwinUNETR trotz einer niedrigeren Leistung bei DSC sowohl bei internen als auch bei externen Testsätzen (im Vergleich zu den leistungsstärksten Modellen) die besten mittleren FNV-Werte über alle Kohorten hinweg im internen Testsatz.

Dieselbe Analyse wurde am externen Testset durchgeführt, wie in Abb. 4 dargestellt. Für das externe Testset waren die einzigen reproduzierbaren Läsionsmaße SUVmean von SegResNet und SwinUNETR, die Anzahl der Läsionen von SegResNet und TLG von DynUNet. Dies zeigt, dass die Leistung von Netzwerken in Bezug auf DSC oder andere traditionelle Segmentierungsmetriken nicht immer ihre Fähigkeit zur Schätzung von Läsionsmaßen widerspiegelt. Läsionsmaße wie SUVmax, Anzahl der Läsionen und Dmax sind von den Netzwerken normalerweise schwer zu reproduzieren. SUVmax war in Regionen mit hoher SUV-Aufnahme sehr empfindlich gegenüber falschen falsch positiven Vorhersagen. In ähnlicher Weise war die Anzahl der Läsionen sehr empfindlich gegenüber falsch segmentierten getrennten Komponenten, und Dmax war sehr empfindlich gegenüber dem Vorhandensein einer falsch positiven Vorhersage weit entfernt von den Ground-Truth-Segmentierungen (obwohl die Mengen solcher falsch positiven Vorhersagen sehr gering sein könnten, in welchem Fall sie sehr wenig zu TMTV oder TLG beitragen würden, wie am internen Testset zu sehen ist).

2) Auswirkung der Ground-Truth-Läsionsmaße auf die Netzwerkleistung: Zunächst berechneten wir Ground-Truth-Läsionsmaße für die internen und externen Testsätze und betrachteten die Leistung von UNet (basierend auf DSC) für jedes dieser Maße und verschiedene Datensätze, wie in Abb. 6 dargestellt. Die Leistung wurde in vier verschiedene Kategorien unterteilt, nämlich (i) Gesamttestsatz, (ii) Fälle mit DSC < 0,2, (iii) Fälle mit 0,2 ≤ DSC ≤ 0,75 und (iv) Fälle mit DSC > 0,75 im Testsatz. Aus Abb. 6 (a)-(b) geht hervor, dass bei den Kategorien mit höheren DSCs auch die Werte für (Mittel- und Median-)SUVmean und SUVmean auf Patientenebene für die Testsätze der internen und externen Kohorte höher waren. Die niedrigere Gesamtleistung beim PMBCL-BCCV-Satz kann auch auf die niedrigeren Mittel- und Median-SUVmean- und SUVmean-Werte insgesamt zurückgeführt werden. Eine ähnliche Tendenz wurde bei der Anzahl der Läsionen (Abb. 6 (c)) nur im externen Testsatz beobachtet, jedoch nicht bei den internen Testkohorten. Beachten Sie, dass die durchschnittliche Anzahl der Läsionen im externen Testsatz erheblich höher war als bei allen internen Testsätzen. Bei TMTV und TLG hatten alle Kohorten mit höheren DSCs auch höhere mittlere und mediane TMTVs oder TLGs, mit Ausnahme der DLBCL-SMHS-Kohorte, bei der die Kategorie DSC < 0,2 die höchsten mittleren und medianen TMTVs und TLGs hatte. Diese Anomalie kann auf die Tatsache zurückgeführt werden, dass die Läsionen in den Fällen dieser Kategorie für diese Kohorte trotz ihrer Größe blass waren, wie in Abb. 6 (a)-(b) gezeigt. Schließlich hatte für Dmax die Kategorie 0,2 ≤ DSC ≤ 0,75 den höchsten medianen Dmax-Wert bei allen Kohorten und den höchsten mittleren Dmax-Wert bei allen Kohorten außer DLBCL-SMHS. Niedrigere Dmax-Werte bedeuten eine geringere Ausbreitung der Krankheit, was entweder Fällen mit nur einer kleinen Läsion oder mehreren (kleinen oder großen) Läsionen in der Nähe entsprechen kann.

Zweitens evaluierten wir die Leistung (medianer DSC) von

B. Erkennungsleistung

Wir haben die Leistung unserer Netzwerke anhand von drei Arten von Erkennungsmetriken bewertet, wie in Abschnitt III-D.2 definiert. Kriterium 1, das schwächste Erkennungskriterium, wies die beste Gesamterkennungsempfindlichkeit aller Kriterien in allen Netzwerken sowohl bei internen als auch bei externen Testsätzen auf, gefolgt von Kriterium 3 und dann Kriterium 2 (Abb. 8). Nach Kriterium 1 erzielten UNet, SegResNet, DynUNet und SwinUNETR mittlere Sensitivitäten von 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] und 1,0 [0,66, 1,0] im internen Testsatz, während sie im externen Satz 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] und 0,67 [0,5, 0,86] erzielten. Natürlich kam es beim Übergang vom internen zum externen Test zu einem Leistungsabfall. Darüber hinaus zeigte Kriterium 1 die beste Leistung bei der Anzahl der FP-Metriken, wobei die Netzwerke im internen Testsatz 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] und 7,0 [3,0, 11,25] mittlere FPs und im externen Testsatz 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] und 31,0 [21,0, 55,0] mittlere FPs erzielten.

Da Kriterium 2 ein schwierigeres Erkennungskriterium ist, wies es außerdem die niedrigste Erkennungsempfindlichkeit für alle Netzwerke auf, mit einem Median von 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] bzw. 0,55 [0,19, 1,0] im internen Testsatz und 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] bzw. 0,27 [0,16, 0,5] im externen Testsatz. Bei diesem Kriterium ist der Abfall der mittleren Sensitivitäten beim Übergang vom internen zum externen Testsatz mit denen des Kriteriums 1 vergleichbar. Ebenso betrugen bei diesem Kriterium die mittleren FPs pro Patient 4,5 [2,0, 8,0], 4,0 [2,0, 8,0], 6,0 [4,0, 12,25] und 9,0 [5,0, 13,0] beim internen Testsatz und 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] und 44,0 [27,0, 63,0] beim externen Testsatz. Obwohl die Sensitivitäten geringer sind als bei Kriterium 1, sind die FPs pro Patient bei den internen und externen Test-Sets für Kriterium 2 ähnlich (obwohl die Variation der mittleren FPs zwischen den Kriterien beim externen Test-Set für SwinUNETR am höchsten ist).

Schließlich war Kriterium 3, das auf der Erkennung des SUVmax-Voxels der Läsionen beruhte, ein Zwischenkriterium zwischen Kriterium 1 und 2, da die Fähigkeit des Modells, Läsionen genau zu erkennen, mit dem SUVmax der Läsion zunimmt (Abschnitt IV-A.2). Für dieses Kriterium hatten die Netzwerke mittlere Sensitivitäten von 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] bzw. 0,85 [0,53, 1,0] im internen Testsatz und von 0,5 [0,33, 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] bzw. 0,5 [0,4, 0,75] im externen Testsatz. Der Rückgang der Sensitivitäten zwischen internen und externen Testsätzen ist mit den anderen beiden Kriterien vergleichbar. Ebenso wiesen die Netzwerke einen medianen FP pro Patient von 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] bzw. 8,0 [4,0, 12,0] beim internen Testsatz und von 19,0 [12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] bzw. 39,0 [25,0, 58,0] beim externen Testsatz auf.

C. Intra-Beobachter-Variabilität

Um eine Intra-Observer-Variabilitätsanalyse durchzuführen, wurden 60 Fälle aus der gesamten PMBCL-BCCV-Kohorte (einschließlich Trainings-, gültiger und Testsätze) von Arzt 4 neu segmentiert. Diese Teilmenge bestand aus 35 „einfachen“ Fällen (Fälle mit von UNet vorhergesagten Masken, die mit der ursprünglichen Grundwahrheit DSC > 0,75 erreichten) und 25 „schwierigen“ Fällen (DSC < 0,2). Um eine Verzerrung auszuschließen, wurde die Auswahl dieser Fälle, mit Ausnahme der DSC-Kriterien, randomisiert, um sicherzustellen, dass während des Neusegmentierungsprozesses keine Präferenz bei der Auswahl bestimmter Fälle gegeben wurde.

Der Gesamt-DSC-Mittelwert und -Median zwischen der ursprünglichen und der neuen Segmentierung des Arztes für die kombinierten „einfachen“ und „schwierigen“ Fälle betrug 0,50 ± 0,33 und 0,49 [0,20, 0,84]. Hier war der Mittelwert vergleichbar mit der Leistung des PMBCL-BCCV-Testsets (0,49 ± 0,42) von UNet, obwohl der Medianwert viel niedriger war als der von UNet (0,74 [0,02, 0,9]). Die „schwierigen“ Fälle zeigten eine geringere Reproduzierbarkeit bei der Generierung konsistenter Grundwahrheiten, wie die Mittel- und Median-DSCs zwischen den ursprünglichen und neu segmentierten Anmerkungen zeigen, die 0,22 ± 0,18 bzw. 0,20 [0,05, 0,36] betrugen. Umgekehrt betrugen die mittleren und medianen DSC-Werte für die „einfachen“ Fälle 0,70 ± 0,26 bzw. 0,82 [0,65, 0,87].

Abschließend führten wir auch eine Erkennungsanalyse der ursprünglichen und der neuen Segmentierung durch, wie in Abb. 10 dargestellt. Für diese Analyse behandelten wir die ursprüngliche Segmentierung als Grundwahrheit und die neue Segmentierung als vorhergesagte Masken. Für Kriterium 1 betrugen die mittleren Erkennungsempfindlichkeiten sowohl für die „einfachen“ als auch für die „schwierigen“ Fälle 1,0 [1,0, 1,0], was bedeutet, dass der Arzt immer mindestens einen Voxel konsistent zwischen den ursprünglichen und neuen Anmerkungen segmentierte. Dieses Kriterium hatte mittlere FPs pro Patient von 0,0 [0,0, 2,0] und 0,0 [0,0, 0,0] für die „einfachen“ bzw. „schwierigen“ Fälle, was bedeutet, dass der Arzt bei den „schwierigen“ Fällen nie eine Läsion an einer völlig anderen Stelle segmentierte als bei ihren ursprünglichen Masken. Für Kriterium 2 betrugen die Sensitivitäten 0,67 [0,08, 1,0] und 0,0 [0,0, 0,0] für die „einfachen“ bzw. „schweren“ Fälle. Das bedeutet, dass der Arzt für die neue Annotation der „schweren“ Fälle nie eine Läsion segmentierte, die einen IoU > 0,5 mit Läsionen aus der ursprünglichen Annotation aufwies. Für dieses Kriterium betrugen die mittleren FPs pro Patient 1,0 [0,5, 4,0] und 1,0 [1,0, 1,0] für die „einfachen“ bzw. „schweren“ Fälle. Schließlich betrugen die Sensitivitäten für Kriterium 3 1,0 [0,84, 1,0] und 1,0 [0,5, 1,0], während die FPs pro Patient 0,0 [0,0, 3,0] und 0,0 [0,0, 1,0] für die „einfachen“ bzw. „schwierigen“ Fälle betrugen. Es ist erwähnenswert, dass der Trend zwischen der Erkennungsleistung des Arztes, bewertet anhand dieser drei Kriterien, dem der vier Netzwerke in Abschnitt IV-B ähnelt (Kriterium 1 > Kriterium 3 > Kriterium 2).

D. Variabilität zwischen Beobachtern

Neun Fälle (alle von verschiedenen Patienten) wurden zufällig aus dem DLBCL-BCCV-Satz ausgewählt und von zwei weiteren Ärzten (Arzt 2 und 3) segmentiert. Der mittlere Fleiss-κ-Koeffizient dieser neun Fälle betrug 0,72, was in die Kategorie der „wesentlichen“ Übereinstimmung zwischen den Ärzten fällt. Dieser Grad der Übereinstimmung unterstreicht die Zuverlässigkeit und Konsistenz der von mehreren Annotatoren erhaltenen Ground-Truth-Segmentierung.

Zweitens berechneten wir die paarweisen DSCs zwischen jeweils zwei Ärzten für alle 9 Fälle. Die mittleren DSCs zwischen den Ärzten 1 & 2, 2 & 3 und 1 & 3 betrugen 0,67 ± 0,37, 0,83 ± 0,20 und 0,66 ± 0,37. Darüber hinaus wurde der STAPLE-Konsens [24] für die drei Ärzte für alle 9 Fälle generiert und die DSCs zwischen den STAPLE- und Ground-Truth-Segmentierungen für jeden Arzt berechnet. Die mittleren DSCs mit der STAPLE-Ground-Truth für die Ärzte 1, 2 und 3 betrugen 0,75 ± 0,37, 0,91 ± 0,11 bzw. 0,90 ± 0,16.