paint-brush
Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Verwandte Arbeitenvon@reinforcement

Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Verwandte Arbeiten

Zu lang; Lesen

Diese Studie führt eine umfassende Bewertung von vier neuronalen Netzwerkarchitekturen zur Segmentierung von Lymphomläsionen anhand von PET/CT-Bildern durch.
featured image - Tiefe neuronale Netzwerke zur Erkennung und Quantifizierung von Lymphomläsionen: Verwandte Arbeiten
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autoren:

(1) Shadab Ahamed, University of British Columbia, Vancouver, BC, Kanada, BC Cancer Research Institute, Vancouver, BC, Kanada. Er war außerdem Mitacs Accelerate Fellow (Mai 2022 – April 2023) beim Microsoft AI for Good Lab, Redmond, WA, USA (E-Mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, USA;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Kanada;

(4) Joo H. O, St. Mary's Hospital, Seoul, Republik Korea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Kanada;

(6) Don Wilson, BC Cancer, Vancouver, BC, Kanada;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Kanada;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Kanada;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Kanada;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, USA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, USA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, USA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Kanada, und University of British Columbia, Vancouver, BC, Kanada.

Linktabelle

II. VERWANDTE ARBEITEN

Zahlreiche Arbeiten haben die Anwendung von Deep-Learning-Methoden zur Segmentierung von Lymphomen in PET/CT-Bildern untersucht. Yuan et al. [4] entwickelten eine Feature-Fusion-Technik, um die komplementären Informationen aus multimodalen Daten zu nutzen. Hu et al. [5] schlugen vor, eine Kombination aus 3D-ResUNet, das mit volumetrischen Daten trainiert wurde, und drei 2D-ResUNet, die mit 2D-Schnitten aus drei orthogonalen Richtungen trainiert wurden, zu fusionieren, um die Segmentierungsleistung zu verbessern. Li et al. [6] schlugen DenseX-Net vor, das durchgängig trainiert wurde und überwachte und unüberwachte Methoden zur Lymphomerkennung und -segmentierung integriert. Liu et al. [7] führten Techniken wie patch-basierte negative Sample-Augmentation und Label-Guidance zum Trainieren eines 3D-Residual-UNet für die Lymphomsegmentierung ein. Eine wesentliche Einschränkung all dieser Arbeiten bestand darin, dass sie mit relativ kleinen Datensätzen (weniger als 100 Bilder) entwickelt wurden. Darüber hinaus verglichen die meisten dieser Methoden die Leistung ihrer vorgeschlagenen Methoden nicht mit anderen Baselines oder mit der Leistung von Ärzten.


Constantino et al. [8] verglichen die Leistung von 7 halbautomatischen und 2 Deep-Learning-Segmentierungsmethoden, während Weisman et al. [9] 11 automatisierte Segmentierungstechniken verglichen, obwohl beide Studien an kleineren Datensätzen der Größe 65 bzw. 90 durchgeführt wurden. Weisman et al. [10] verglichen die Segmentierungsleistung der automatisierten 3D-Deep-Medic-Methode mit der von Ärzten, obwohl selbst diese Studie nur 90 Lymphomfälle umfasste. Mit Ausnahme von [10] berichtete keine dieser Studien von einer Modellgeneralisierung auf nicht verteilte Datensätze (wie etwa auf Daten, die von verschiedenen Zentren erhoben wurden), was ihre Robustheit, Quantifizierung und externe Validität einschränkt. Jiang et al. [11] verwendeten im Vergleich zu den obigen Studien einen relativ größeren Datensatz mit 297 Bildern, um ein 3D-UNet zu trainieren. Sie führten sogar nicht verteilte Tests mit 117 Bildern durch, die von einem anderen Zentrum erhoben wurden. Nach unserem Kenntnisstand ist der größte jemals veröffentlichte PET/CT-Datensatz für Lymphom-Läsionen zur Deep-Learning-basierten Segmentierung die Arbeit von Blanc-Durand et al. [12], die 639 Bilder für die Modellentwicklung und 94 für externe Tests verwendeten. Allerdings wurden in dieser Studie nur Standardmetriken zur Segmentierungsbewertung verwendet und die Fähigkeit des Modells zur Vorhersage eines genauen TMTV bewertet. Sowohl die Studien [11] als auch [12] sind dadurch eingeschränkt, dass ihre Datensätze ausschließlich aus Patienten mit der Diagnose eines diffusen großzelligen B-Zell-Lymphoms (DLBCL) bestanden, das nur einen einzigen Lymphom-Subtyp darstellt.


Die meisten der vorhandenen Studien zur Deep Learning-basierten Lymphomsegmentierung berichten über ihre Leistung anhand allgemeiner Segmentierungsmetriken wie Dice-Ähnlichkeitskoeffizient (DSC), Schnittmenge über Vereinigung (IoU), Sensitivität usw. Bei großen segmentierten Läsionen tragen sehr kleine übersehene Läsionen oder kleine falsch-positive Ergebnisse nicht viel zum DSC-Wert bei. Deshalb muss die Menge der falsch-positiven und falsch-negativen Ergebnisse angegeben werden. Es ist auch nützlich, die Erkennungsleistung für jede Läsion einzeln zu bewerten (Anzahl der erkannten bzw. übersehenen verbundenen Komponenten), da die automatische Erkennung auch nur weniger Voxel aller Läsionen Ärzten helfen kann, die interessierenden Bereiche schnell zu lokalisieren, selbst wenn der DSC niedrig ist. Außerdem wird der Schwierigkeitsgrad der Segmentierungs-/Erkennungsaufgabe häufig nicht über eine Inter- oder Intra-Observer-Übereinstimmungsanalyse beurteilt.



Unsere Studie zielt darauf ab, diese Einschränkungen zu beheben. Wir haben vier tiefe neuronale Netzwerke anhand von Lymphom-PET/CT-Datensätzen aus drei Kohorten trainiert und validiert, die zwei verschiedene Lymphomsubtypen umfassen: DLBCL und primäres mediastinales großzelliges B-Zell-Lymphom (PMBCL). (i) Wir haben sowohl In- (Bilder aus denselben Kohorten wie der Trainings-/Validierungssatz) als auch Out-of-Distribution- oder externe (Bilder aus einer vierten Kohorte, die nicht für Training/Validierung verwendet wurden) Tests durchgeführt, um die Robustheit unserer Modelle zu bewerten. (ii) Wir haben die Leistung anhand von DSC sowie die Menge falsch positiver und negativer Ergebnisse angegeben und die Leistungsabhängigkeit von sechs verschiedenen Arten von Läsionsmessungen bewertet. (iii) Wir haben außerdem die Fähigkeit unserer Netzwerke bewertet, diese Ground-Truth-Läsionsmessungen zu reproduzieren, und den Fehler der Netzwerke bei ihrer Vorhersage berechnet. (iv) Wir haben drei Arten von Erkennungskriterien für unseren Anwendungsfall vorgeschlagen und die Leistung des Modells anhand dieser Kennzahlen bewertet. (v) Schließlich haben wir die Intra- und Inter-Observer-Übereinstimmung ausgewertet, um ein Maß für die Schwierigkeit der Läsionssegmentierungsaufgabe anhand unserer Datensätze zu erhalten.