paint-brush
Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : matériels et méthodespar@reinforcement

Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : matériels et méthodes

Trop long; Pour lire

Cette étude effectue une évaluation complète de quatre architectures de réseaux neuronaux pour la segmentation des lésions du lymphome à partir d'images TEP/CT.
featured image - Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : matériels et méthodes
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Auteurs:

(1) Shadab Ahamed, Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada. Il a également été Mitacs Accelerate Fellow (mai 2022 - avril 2023) auprès de Microsoft AI for Good Lab, Redmond, WA, États-Unis (e-mail : [email protected]) ;

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(3) Claire Gowdy, Hôpital pour enfants de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;

(4) Joo H. O, St. Mary's Hospital, Séoul, République de Corée ;

(5) Ingrid Bloise, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(6) Don Wilson, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(7) Patrick Martineau, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(8) François Benard, BC Cancer, Vancouver, BC, Canada ;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada ;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada, et Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canada, et Université de la Colombie-Britannique, Vancouver, BC, Canada.

Tableau des liens

Conclusion et références
III. MATÉRIELS ET MÉTHODES

A. Ensemble de données


1) Description : Dans ce travail, nous avons utilisé un ensemble de données TEP/CT corps entier vaste, diversifié et multi-institutionnel avec un total de 611 cas. Ces analyses provenaient de quatre cohortes rétrospectives : (i) DLBCL-BCCV : 107 analyses de 79 patients atteints de DLBCL de BC Cancer, Vancouver (BCCV), Canada ; (ii) PMBCLBCCV : 139 analyses de 69 patients atteints de PMBCL du cancer de la Colombie-Britannique ; (iii) DLBCL-SMHS : 220 scans de 219 patients atteints de DLBCL de l'hôpital St. Mary's de Séoul (SMHS), Corée du Sud ; (iv) Lymphome AutoPET : 145 scans de 144 patients atteints de lymphome de l'hôpital universitaire de Tubingen, Allemagne ¨ [14]. Une description supplémentaire du nombre d'analyses, de l'âge et du sexe du patient et des fabricants de scanner TEP/CT pour chaque cohorte est donnée dans le tableau I. Les cohortes (i) à (iii) sont collectivement appelées cohorte interne. Pour les cohortes (i) et (ii), l'approbation éthique a été accordée par le comité d'éthique de la recherche sur le cancer (REB) de l'UBC BC (numéros CER : H19-01866 et H19-01611 respectivement) le 30 octobre 2019 et le 1er août 2019 respectivement. Pour la cohorte (iii), l'approbation a été accordée par l'hôpital St. Mary de Séoul (numéro CER : KC11EISI0293) le 2 mai 2011.


TABLEAU DES CARACTÉRISTIQUES DES PATIENTS ET DES ANALYSES DANS QUATRE COHORTES DIFFÉRENTES DE LYMPHOME.


en raison de la nature rétrospective de nos données, le consentement du patient a été levé pour ces trois cohortes. La cohorte (iv) a été obtenue à partir de l’ensemble de données de défi AutoPET accessible au public [14] et est appelée cohorte externe.


2) Annotation de la vérité terrain : les cohortes DLBCL-BCCV, PMBCLBCCV et DLBCL-SMHS ont été segmentées séparément par trois médecins en médecine nucléaire (appelés respectivement médecin 1, médecin 4 et médecin 5) de BC Cancer, Vancouver, BC Children's. Hospital, Vancouver, et St. Mary's Hospital, Séoul, respectivement. De plus, deux autres médecins en médecine nucléaire (médecins 2 et 3) de BC Cancer ont segmenté 9 cas de la cohorte DLBCL-BCCV qui ont été utilisés pour évaluer la variabilité inter-observateur (Section IV-D). Le médecin 4 a en outre re-segmenté 60 cas de la cohorte PMBCL-BCCV qui ont été utilisés pour évaluer la variabilité intra-observateur (Section IV-C). Toutes ces segmentations expertes ont été réalisées à l'aide de l'outil de segmentation semi-automatique basé sur un gradient appelé PETEdge+ de la station de travail MIM (logiciel MIM, Ohio, USA).


Les données TEP/CT du lymphome AutoPET ainsi que leurs segmentations de vérité terrain ont été acquises auprès de The Cancer Imaging Archive. Ces annotations ont été réalisées manuellement par deux radiologues de l'hôpital universitaire de Tubingen, en Allemagne, et de l'hôpital universitaire du LMU, en Allemagne.


B. Réseaux, outils et code


Quatre réseaux ont été formés à ce travail, à savoir UNet [15], SegResNet [16], DynUNet [17] et SwinUNETR [18]. Les trois premiers sont des réseaux basés sur CNN 3D, tandis que SwinUNETR est un réseau basé sur des transformateurs. Les implémentations de ces réseaux ont été adaptées de la bibliothèque MONAI [19]. Les modèles ont été formés et validés sur une machine virtuelle Microsoft Azure avec Ubuntu 16.04, composée de 24 cœurs de processeur (448 Gio de RAM) et de 4 GPU NVIDIA Tesla V100 (16 Gio de RAM chacun). Le code de ce travail est open source sous licence MIT et peut être trouvé dans ce référentiel : https://github.com/microsoft/lymphoma-segmentation-dnn.


C. Méthodologie de formation


1) Répartition des données : les données des cohortes (i) à (iii) (cohorte interne avec un total de 466 cas) ont été réparties de manière aléatoire en ensembles de formation (302 analyses), de validation (76 analyses) et de tests internes (88 analyses). , tandis que la cohorte de lymphomes AutoPET (145 scans) a été utilisée uniquement pour des tests externes. Les modèles ont d'abord été formés sur l'ensemble de formation, et les hyperparamètres optimaux et les meilleurs modèles ont été sélectionnés sur l'ensemble de validation. Les meilleurs modèles ont ensuite été testés sur les ensembles de tests internes et externes. Notez que la division de la cohorte interne a été effectuée au niveau du patient pour éviter un surajustement des paramètres du modèle formé à des patients spécifiques si leurs multiples analyses étaient partagées entre les ensembles de formation et de validation/test.


2) Prétraitement et augmentations : les images CT haute résolution (dans l'unité Hounsfield (HU)) ont été sous-échantillonnées pour correspondre aux coordonnées de leurs images TEP/masque correspondantes. Les valeurs d’intensité du PET en unités de Bq/ml ont été corrigées et converties en SUV. Pendant la formation, nous avons utilisé une série de transformations non aléatoires et aléatoires pour augmenter l'entrée dans le réseau. Les transformations non randomisées comprenaient (i) des intensités de tomodensitométrie de l'ordre de [-154, 325] HU (représentant le [3, 97]ème quantile d'HU dans les lésions dans les ensembles de formation et de validation), suivies du min-max. normalisation, (ii) recadrer la région à l'extérieur du corps dans les images TEP, CT et masque à l'aide d'un cadre de délimitation 3D, et (iii) rééchantillonner les images à un espacement isotrope des voxels de (2,0 mm, 2,0 mm, 2,0 mm) via un système bilinéaire. interpolation pour les images TEP et CT et interpolation du plus proche voisin pour les images de masque


En revanche, les transformations aléatoires étaient appelées au début de chaque époque. Celles-ci comprenaient (i) le recadrage aléatoire de parcelles cubiques de dimensions (N, N, N) à partir des images, où le cube était centré autour d'un voxel de lésion avec une probabilité pos/(pos + neg), ou autour d'un voxel d'arrière-plan avec une probabilité neg/ (pos + neg), (ii) des traductions dans la plage (-10, 10) des voxels dans les trois directions, (iii) des rotations axiales dans la plage (−π/15, π/15) et (iv) une mise à l'échelle aléatoire de 1,1 dans les trois directions. Nous définissons neg = 1, et pos et N ont été choisis parmi les ensembles d'hyperparamètres {1, 2, 4, 6, 8, 10, 12, 14, 16} et {96, 128, 160, 192, 224, 256} respectivement pour UNet [20]. Après une série d'expériences d'ablation complètes, pos = 2 et N = 224 se sont révélés optimaux pour UNet. Pour les autres réseaux, pos a été défini sur 2 et le N le plus grand pouvant être stocké dans la mémoire GPU pendant l'entraînement a été choisi (puisque les performances pour différentes valeurs de N n'étaient pas significativement différentes les unes des autres, sauf N = 96 qui était nettement moins bon). par rapport aux autres valeurs de N). Par conséquent, SegResNet, DynUNet et SwinUNETR ont été formés en utilisant N = 192, 160 et 128, respectivement. Enfin, les patchs PET et CT augmentés ont été concaténés par canaux pour construire l'entrée finale du réseau.



4) Inférence par fenêtre glissante et post-traitement : pour les images de l'ensemble de validation/test, nous avons utilisé uniquement les transformations non aléatoires. La prédiction a été faite directement sur les images du corps entier à 2 canaux (PET et CT) en utilisant la technique de fenêtre glissante avec une fenêtre cubique de taille (W, W, W), où W était un hyperparamètre choisi dans l'ensemble {96 , 128, 160, 192, 224, 256, 288}. Les valeurs optimales W ont été trouvées à 224 pour UNet, 192 pour SegResNet et DynUnet et 160 pour SwinUNETR. Les prédictions de l'ensemble de test ont été rééchantillonnées selon les coordonnées des masques de vérité terrain d'origine pour calculer les métriques d'évaluation.


D. Paramètres d'évaluation


1) Métriques de segmentation : pour évaluer les performances de segmentation, nous avons utilisé le DSC de premier plan au niveau du patient, les volumes de composants connectés faussement positifs qui ne chevauchent pas la vérité terrain de premier plan (FPV) et le volume de composants connectés de premier plan dans la vérité terrain qui ne chevauchent pas le masque de segmentation prédit (FNV) [14]. Nous avons rapporté la médiane et l'intervalle interquartile (IQR) pour ces mesures sur les ensembles de tests internes et externes. Nous rapportons également le DSC moyen avec l’écart type sur la moyenne. Nous avons choisi de rapporter les valeurs médianes car nos valeurs métriques moyennes étaient sujettes à des valeurs aberrantes et la médiane de notre échantillon était toujours supérieure (inférieure) pour DSC (pour FPV et FNV) à la moyenne de l'échantillon. Une illustration de FPV et FNV est donnée sur la figure 1 (a).



  • 2) Métriques de détection :* Outre les métriques de segmentation évoquées ci-dessus, nous avons également évalué les performances de nos modèles sur les ensembles de tests via trois métriques basées sur la détection pour évaluer la détectabilité de lésions individuelles chez un patient.


Fig. 1. (a) Illustration pour les mesures à deux segmentations volume faux positif (FPV) et volume faux négatif (FNV). (b) Illustration permettant de définir une détection véritablement positive via trois critères, comme expliqué dans la section III-D.2.



Bien que les définitions des métriques de détection FP et FN puissent sembler similaires aux métriques de segmentation FPV et FNV, après une enquête minutieuse, elles ne le sont pas (Fig. 1 (a) et (b)). Les métriques FPV et FNV calculent respectivement la somme des volumes de toutes les lésions prédites à un emplacement totalement erroné (pas de chevauchement avec les lésions de vérité terrain) ou des lésions entièrement manquées. Par conséquent, ces mesures sont définies au niveau du voxel pour chaque patient. D'autre part, les mesures de détection (dans les critères 1, 2 et 3) sont définies lésion par lésion pour chaque patient.




L'évaluation de la reproductibilité de ces mesures de lésions améliore la confiance dans les résultats de l'algorithme de segmentation. Par conséquent, nous avons effectué des analyses de test t de Student appariées pour déterminer la disparité des moyennes des distributions entre la vérité terrain et les mesures de lésions prédites (Section IV-A.1). De plus, des analyses similaires ont été réalisées pour évaluer la variabilité intra-observateur, impliquant deux annotations faites par le même médecin sur le même ensemble de cas (Section IV-C).


Fig. 2. Visualisation des performances de différents réseaux sur les vues de projection coronale d'intensité maximale pour 8 cas représentatifs. (a) à (d) montrent des cas où tous les réseaux avaient des performances similaires, tandis que (e) à (h) montrent des cas où les réseaux avaient des performances différentes, souvent parce que certains d'entre eux prédisaient de grands FPV. Certains des FPV les plus importants ont été indiqués par des flèches bleues. Le numéro en bas à droite de chaque tracé montre le DSC entre le masque prédit 3D et la vérité terrain.


Ce papier est disponible sur arxiv sous licence CC 4.0.