paint-brush
Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Diskussionvon@reinforcement

Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Diskussion

Zu lang; Lesen

Diese Studie führt eine umfassende Bewertung von vier neuronalen Netzwerkarchitekturen zur Segmentierung von Lymphomläsionen anhand von PET/CT-Bildern durch.
featured image - Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Diskussion
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autoren:

(1) Shadab Ahamed, University of British Columbia, Vancouver, BC, Kanada, BC Cancer Research Institute, Vancouver, BC, Kanada. Er war außerdem Mitacs Accelerate Fellow (Mai 2022 – April 2023) beim Microsoft AI for Good Lab, Redmond, WA, USA (E-Mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Kanada;

(4) Joo H. O, St. Mary's Hospital, Seoul, Republik Korea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;

(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Kanada;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Kanada;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, USA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada.

Linktabelle

V. DISKUSSION

Im Rahmen dieser Arbeit haben wir vier verschiedene neuronale Netzwerkarchitekturen trainiert und evaluiert, um die Segmentierung von Lymphomläsionen aus PET/CT-Datensätzen aus drei verschiedenen Kohorten zu automatisieren. Um die Leistung der Modelle zu beurteilen, haben wir umfassende Evaluierungen an internen Testsätzen aus diesen drei Kohorten durchgeführt und gezeigt, dass SegResNet und UNet DynUNet und SwinUNETR bei den DSC- (Mittelwert und Median) und medianen FPV-Metriken übertrafen, während SwinUNETR den besten medianen FNV hatte. Zusätzlich zu den internen Evaluierungen haben wir unsere Analyse um eine externe Out-of-Distribution-Testphase an einem umfangreichen öffentlichen Lymphom-PET/CT-Datensatz erweitert. Auch bei diesem externen Testsatz erwies sich SegResNet als Spitzenreiter in Bezug auf die DSC- und FPV-Metriken, was seine Robustheit und Wirksamkeit unterstreicht, während UNet die beste Leistung bei FNV zeigte.


Es ist wichtig hervorzuheben, dass SegResNet und UNet mit Patches größerer Größe trainiert wurden, nämlich (224, 224, 224) bzw. (192, 192, 192), während DynUNet und SwinUNETR mit relativ kleineren Patches trainiert wurden, nämlich (160, 160, 160) bzw. (128, 128, 128). Die Verwendung größerer Patchgrößen während des Trainings ermöglicht es den neuronalen Netzwerken, ein umfassenderes kontextuelles Verständnis der Daten zu erfassen und so ihre Leistung bei Segmentierungsaufgaben zu verbessern [17]. Diese Beobachtung steht im Einklang mit unseren Ergebnissen, bei denen die überlegene Leistung von SegResNet und UNet auf ihre Verwendung größerer Patchgrößen während des Trainings zurückzuführen ist. Darüber hinaus ermöglichen größere Batch-Größen ein robustes Training durch genaue Schätzung der Gradienten [17]. Mit den von uns gewählten Trainingspatch-Größen konnten wir SegResNet, DynUNet und SwinUNETR jedoch aufgrund von Speicherbeschränkungen nicht mit nb > 1 trainieren (obwohl wir nb = 8 für UNet unterbringen konnten). Für einen fairen Vergleich zwischen den Netzwerken wurden daher alle Netzwerke mit nb = 1 trainiert. Es ist erwähnenswert, dass unsere Unfähigkeit, DynUNet und SwinUNETR auf größeren Patch- und Mini-Batch-Größen zu trainieren, hauptsächlich auf Einschränkungen bei den Rechenressourcen zurückzuführen war. Diese Einschränkung bietet jedoch eine Möglichkeit für zukünftige Forschung, bei der das Training dieser Modelle mit größeren Patches und Batch-Größen möglicherweise zu weiteren Verbesserungen der Segmentierungsgenauigkeit führen könnte.


Wir haben die Reproduzierbarkeit der Läsionsmessungen bewertet und festgestellt, dass TMTV und TLG im internen Testset über alle Netzwerke hinweg reproduzierbar waren, während Dmax von keinem Netzwerk reproduziert werden konnte. SUVmean war von allen Netzwerken außer UNet reproduzierbar, SUVmax nur von SegResNet und die Anzahl der Läsionen nur von UNet und SegResNet. Im externen Testset war die Reproduzierbarkeit eingeschränkter, wobei nur SUVmean sowohl von SegResNet als auch von SwinUNETR reproduzierbar war, die Anzahl der Läsionen von SegResNet und TLG von DynUNet (Abb. 3 und 4). Darüber hinaus haben wir den Fehler der Netzwerke bei der Schätzung des Werts der Läsionsmessungen mithilfe von MAPE quantifiziert und festgestellt, dass MAPE im Allgemeinen als Funktion der Läsionsmesswerte (für alle Läsionsmessungen) im kombinierten internen und externen Testset abnimmt (Abb. 5). Die Netzwerke machten im Allgemeinen erhebliche Fehler bei der genauen Vorhersage, wenn die zugrunde liegenden Läsionsmessungen sehr klein waren. Wir haben außerdem gezeigt, dass ein Netzwerk im Allgemeinen bei einem Satz von Bildern mit größeren Patientenläsionen (SUVmean, SUVmean, TMTV und TLG) einen höheren mittleren DSC vorhersagen kann, obwohl die Leistung bei sehr hohen Werten dieser Läsionsmaße im Allgemeinen stagniert. Andererseits wird die DSC-Leistung von der Anzahl der Läsionen nicht stark beeinflusst, während bei einem Satz von Bildern mit höherem Dmax die Leistung im Allgemeinen für alle Netzwerke abnimmt (Abb. 7).


Da sich ein Großteil der PET/CT-Daten im Privatbesitz von Gesundheitseinrichtungen befindet, stellt dies für Forscher eine erhebliche Herausforderung dar, wenn sie auf unterschiedliche Datensätze zugreifen müssen, um Deep-Learning-Modelle zu trainieren und zu testen. In einem solchen Szenario ist es für Forscher zur Verbesserung der Interpretierbarkeit von Modellen von entscheidender Bedeutung, zu untersuchen, wie die Leistung ihrer Modelle von den Eigenschaften des Datensatzes abhängt. Durch die Untersuchung, wie die Modellleistung mit den Bild-/Läsionsmerkmalen korreliert, können Forscher Erkenntnisse über die Stärken und Grenzen ihrer Modelle gewinnen [13].


Neben der Bewertung der Segmentierungsleistung haben wir auch drei verschiedene Erkennungskriterien eingeführt, die als Kriterium 1, 2 und 3 bezeichnet werden. Diese Kriterien dienten einem bestimmten Zweck: der Bewertung der Leistung der Netzwerke auf Läsionsbasis. Dies steht im Gegensatz zur Bewertung der Segmentierungsleistung, die sich hauptsächlich auf die Genauigkeit der Netzwerke auf Voxelebene konzentriert. Der Grund für die Einführung dieser Erkennungskriterien liegt in der Notwendigkeit, zu bewerten, wie gut die Netzwerke Läsionen in den Bildern identifizieren und erkennen, im Gegensatz zur bloßen Bewertung ihrer Fähigkeit, Läsionsgrenzen auf Voxelebene abzugrenzen. Die Fähigkeit, das Vorhandensein von Läsionen zu erkennen (Kriterium 1), ist entscheidend, da sie direkt beeinflusst, ob ein potenzielles Gesundheitsproblem erkannt oder übersehen wird. Das Erkennen auch nur eines einzigen Voxels einer Läsion könnte weitere Untersuchungen oder Behandlungsplanungen auslösen. Die Anzahl der Läsionen und die genaue Lokalisierung (Kriterium 2) sind wichtig für die Behandlungsplanung und die Überwachung des Krankheitsverlaufs. Nicht nur zu wissen, dass eine Läsion vorhanden ist, sondern auch, wie viele es gibt und wo sie sich befinden, kann therapeutische Entscheidungen erheblich beeinflussen. Kriterium 3, das sich auf die Segmentierung von Läsionen auf der Grundlage metabolischer Läsionseigenschaften (SUVmax) konzentrierte, fügt eine zusätzliche Ebene klinischer Relevanz hinzu.


Mithilfe dieser Erkennungsmetriken haben wir die Empfindlichkeiten und FP-Erkennungen für alle Netzwerke bewertet und gezeigt, dass ein Netzwerk je nach Erkennungskriterien eine sehr hohe Empfindlichkeit aufweisen kann, selbst wenn die DSC-Leistung niedrig war. Angesichts dieser unterschiedlichen Erkennungskriterien kann ein trainiertes Modell basierend auf bestimmten klinischen Anwendungsfällen ausgewählt werden. Einige Anwendungsfälle könnten beispielsweise die Fähigkeit erfordern, alle Läsionen zu erkennen, ohne übermäßig vorsichtig bei der Segmentierung der genauen Läsionsgrenze zu sein, während andere Anwendungsfälle möglicherweise nach robusteren Grenzabgrenzungen suchen.


Darüber hinaus untersuchten wir die Intra-Observer-Variabilität eines Arztes bei der Segmentierung sowohl „einfacher“ als auch „schwieriger“ Fälle und stellten fest, dass die konsistente Segmentierung von Fällen aus der „schwierigen“ Untergruppe schwierig ist. Bei der Segmentierung von Lymphomläsionen kann der Schwierigkeitsgrad der Fälle aufgrund von Faktoren wie Größe, Form und Lage der Läsionen oder Bildqualität variieren. Indem wir ermittelten, welche Fälle selbst für einen erfahrenen Arzt durchgängig schwierig zu segmentieren sind, gewannen wir Einblicke in die Komplexität und Nuancen der Segmentierungsaufgabe. Schließlich untersuchten wir auch die Interobserver-Übereinstimmung zwischen drei Ärzten. Obwohl wir davon ausgingen, dass zwischen den drei Ärzten ein erhebliches Maß an Übereinstimmung bestand, wurde die Bewertung nur bei 9 Fällen durchgeführt, was zu einer geringen statistischen Aussagekraft führte.


Um die Konsistenz der Grundwahrheit bei der Segmentierung medizinischer Bilder zu verbessern, ist ein gut definiertes Protokoll unerlässlich. Dieses Protokoll sollte mehrere Fachärzte unabhängig voneinander in die Abgrenzung von Interessensbereichen (ROIs) oder Läsionen in PET-/CT-Bildern einbeziehen. Anstatt dass ein einzelner Arzt eine Kohorte unabhängig segmentiert, sollten mehrere Annotatoren dieselben Bilder segmentieren, ohne von der Arbeit der anderen zu wissen. Diskrepanzen oder Meinungsverschiedenheiten zwischen Ärzten können durch strukturierte Ansätze wie moderierte Diskussionen, Überprüfungen klinischer Informationen oder Bildklärung gelöst werden. Dieser robuste Grundwahrheitsprozess verbessert die Genauigkeit der Übereinstimmung zwischen Beobachtern und stärkt die Gültigkeit von Forschungsergebnissen und klinischen Anwendungen, die auf diesen Annotationen basieren.


Dieses Papier ist verfügbar auf arxiv unter CC 4.0-Lizenz.