paint-brush
Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : résultatspar@reinforcement
123 lectures

Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : résultats

Trop long; Pour lire

Cette étude effectue une évaluation complète de quatre architectures de réseaux neuronaux pour la segmentation des lésions de lymphome à partir d'images TEP/CT.
featured image - Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : résultats
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Auteurs:

(1) Shadab Ahamed, Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada. Il a également été Mitacs Accelerate Fellow (mai 2022 - avril 2023) auprès de Microsoft AI for Good Lab, Redmond, WA, États-Unis (e-mail : [email protected]) ;

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(3) Claire Gowdy, Hôpital pour enfants de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;

(4) Joo H. O, St. Mary's Hospital, Séoul, République de Corée ;

(5) Ingrid Bloise, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(6) Don Wilson, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(7) Patrick Martineau, BC Cancer, Vancouver, Colombie-Britannique, Canada ;

(8) François Benard, BC Cancer, Vancouver, BC, Canada ;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada ;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada, et Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canada, et Université de la Colombie-Britannique, Vancouver, BC, Canada.

Tableau des liens

IV. RÉSULTATS

A. Performances de segmentation


Les performances des quatre réseaux ont été évaluées à l'aide du DSC médian, du FPV et du FNV et du DSC moyen sur des ensembles de tests internes (y compris les performances séparées par différentes cohortes internes) et externes, comme le montre le tableau II. Certaines visualisations des performances des réseaux ont été illustrées sur la Fig. 2,


Le SegResNet présentait le DSC médian le plus élevé sur les ensembles de tests internes et externes avec des médianes de 0,76 [0,27, 0,88] et 0,68 [0,40, 0,78], respectivement. Pour les cohortes individuelles de l'ensemble de tests internes, UNet avait le meilleur DSC sur DLBCL-BCCV et PMBCL-BCCV avec une médiane de 0,72 [0,24, 0,89] et 0,74 [0,02, 0,90], respectivement, tandis que SegResNet avait le meilleur DSC. de 0,78 [0,62, 0,87] sur DLBCLSMHS. SegResNet avait également le meilleur FPV sur les ensembles de tests internes et externes avec des valeurs de 4,55 [1,35, 31,51] ml et 21,46 [6,30, 66,44] ml. Malgré la victoire d'UNet sur DSC pour les ensembles DLBCL-BCCV et PMBCL-BCCV, SegResNet avait le meilleur FPV sur ces deux ensembles avec des valeurs médianes de 5,78 [0,61, 19,97] ml et 2,15 [0,52, 7,18] ml, respectivement, tandis qu'UNet avait le meilleur FPV de 8,71 [1,19, 34,1] ml sur DLBCLSMHS. Enfin, SwinUNETR avait le meilleur FNV médian de 0,0 [0,0, 4,65] ml sur l'ensemble de test interne, tandis que UNet avait le meilleur FNV médian de 0,41 [0,0, 3,88] ml sur l'ensemble de test externe. Sur DLBCL-BCCV et DLBCL-SMHS, SwinUNETR avait la meilleure FNV médiane de 0,09 [0,0, 3,39] ml et 0,0 [0,0, 8,83] ml, respectivement, tandis que sur PMBCL-BCCV, UNet, DynUNet et SwinUNETR étaient à égalité, chacun avec une valeur médiane de 0,0 [0,0, 1,24] ml.


Premièrement, SegResNet et UNet se sont bien généralisés sur l'ensemble de tests externes invisibles, avec une baisse de la moyenne et de la médiane.


TABLEAU IICOMPARAISON DES QUATRE RÉSEAUX SUR LES ENSEMBLES DE TESTS INTERNES (À LA FOIS AGRÉGÉS ET SÉGRÉGÉS PAR ORIGINES DES DONNÉES ET SOUS-TYPES DE LYMPHOME) ET EXTERNES ÉVALUÉS VIA LES VALEURS MÉDIANES DE DSC AU NIVEAU PATIENT, FPV (EN ML) ET FNV (EN ML). TOUTES LES VALEURS MÉDIANNES ONT ÉTÉ RAPPORTÉES AVEC LEURS IQRS. LES VALEURS DSC MOYENNES AU NIVEAU DU PATIENT SUR LES ÉQUIPEMENTS DE TEST SONT ÉGALEMENT RAPPORTÉES AVEC LES ÉCARTS-NORMES CORRESPONDANTS.


performances de 4 % et 8 % et 2 % et 8 %, respectivement, par rapport à l'ensemble de test interne. Bien que les DSC médians de DynUNet et SwinUNETR soient considérablement inférieurs à ceux de SegResNet et UNet sur l'ensemble de tests internes (d'environ 6 à 9 %), ces réseaux avaient des généralisations encore meilleures avec une baisse du DSC médian de seulement 4 % et 6 %, respectivement. , lors du passage des tests internes aux tests externes. Il convient également de noter que les IQR DSC pour tous les réseaux étaient plus importants sur l’ensemble de test interne que sur l’ensemble de test externe. En outre, tous les réseaux ont obtenu un DSC du 75e quantile plus élevé sur l'ensemble de test interne par rapport à l'ensemble de test externe, tout en obtenant un DSC du 25e quantile inférieur sur le test interne par rapport à l'ensemble de test externe (sauf pour SwinUNETR où cette tendance a été inversée. ). De même, pour différentes cohortes de l’ensemble de tests internes, tous les réseaux présentaient le DSC médian et le 25e quantile le plus élevé sur l’ensemble DLBCL-SMHS. Les pires performances ont été obtenues sur la cohorte PMBCL-BCCV avec le plus grand IQR tous réseaux confondus (voir Section IV-A.2 et Fig. 6). Il est intéressant de noter que malgré des performances DSC inférieures sur les ensembles de tests internes et externes (par rapport aux modèles les plus performants), SwinUNETR présentait les meilleures valeurs médianes de FNV parmi les cohortes de l'ensemble de tests internes.




La même analyse a été effectuée sur l'ensemble de tests externes, comme le montre la figure 4. Pour l'ensemble de tests externes, les seules mesures de lésions reproductibles étaient SUVmean par SegResNet et SwinUNETR, le nombre de lésions par SegResNet et TLG par DynUNet. Cela montre que les performances des réseaux en termes de DSC ou d'autres mesures de segmentation traditionnelles ne reflètent pas toujours leur capacité à estimer les mesures des lésions. Les mesures lésionnelles telles que SUVmax, nombre de lésions et Dmax sont généralement difficiles à reproduire par les réseaux. SUVmax était très sensible aux prédictions faussement positives incorrectes dans les régions à forte adoption du SUV. De même, le nombre de lésions était très sensible aux composants déconnectés incorrectement segmentés, et Dmax était très sensible à la présence d'une prédiction faussement positive loin des segmentations de vérité terrain (même si les volumes de telles prédictions faussement positives pouvaient être très faibles, auquel cas cela contribuerait très peu à TMTV ou TLG, comme le montre l'ensemble de tests internes).




Fig. 5. MAPE (%) en fonction des mesures de lésions de vérité terrain pour les quatre réseaux, UNet, SegResNet, DynUNet et SwinUNETR sur l'ensemble de tests combinés interne et externe (Ncases = 233). Le pourcentage d'erreur dans la prédiction du réseau des mesures de lésions, en général, diminue avec l'augmentation des valeurs des mesures de lésions de vérité terrain. En particulier, pour les mesures SUVmax (b), le nombre de lésions (c), TMTV (d) et TLG (e), les plateaux MAPE pour une plage plus élevée de valeurs de vérité terrain.


2) Effet des valeurs de mesure des lésions de vérité terrain sur les performances du réseau : Tout d'abord, nous avons calculé les mesures de lésions de vérité terrain pour les ensembles de tests internes et externes, et examiné les performances d'UNet (basées sur DSC) pour chacune de ces mesures et différents ensembles de données. comme présenté sur la figure 6. Les performances ont été réparties en quatre catégories différentes, à savoir (i) l'ensemble de tests global, (ii) les cas avec DSC < 0,2, (iii) les cas avec 0,2 ≤ DSC ≤ 0,75 et (iv) les cas avec DSC > 0,75 dans l’ensemble de test. D'après les figures 6 (a) à (b), il est évident que pour les catégories avec des DSC plus élevés, les valeurs (moyennes et médianes) du niveau de patient SUVmean et SUVmean étaient également plus élevées pour la cohorte interne ainsi que pour les ensembles de tests de cohorte externe. . Les performances globales inférieures sur l’ensemble PMBCL-BCCV peuvent également être attribuées à des moyennes et médianes globales plus faibles, SUVmean et SUVmean. Une tendance similaire a été observée pour le nombre de lésions (Fig. 6 (c)) uniquement sur l'ensemble de tests externes, mais sur aucune des cohortes de tests internes. Notez que le nombre moyen de lésions sur l’ensemble de tests externes était considérablement plus élevé que sur n’importe quel ensemble de tests internes. Pour TMTV et TLG, toutes les cohortes avec des DSC plus élevés avaient également des TMTV ou TLG moyens et médians plus élevés, à l'exception de la cohorte DLBCL-SMHS, où la catégorie DSC <0, 2 avait les TMTV et TLG moyens et médians les plus élevés. Cette anomalie peut être attribuée au fait que, malgré leur grande taille, les lésions des cas de cette catégorie pour cette cohorte étaient faibles, comme le montre les figures 6 (a) à (b). Enfin, pour Dmax, la catégorie 0,2 ≤ DSC ≤ 0,75 avait la Dmax médiane la plus élevée sur toutes les cohortes et la Dmax moyenne la plus élevée sur toutes les cohortes, sauf sur DLBCL-SMHS. Des valeurs plus faibles de Dmax signifient une plus faible propagation de la maladie, ce qui peut correspondre soit à des cas comportant une seule petite lésion, soit à plusieurs (petites ou grandes) lésions situées à proximité.


Deuxièmement, nous avons évalué la performance (DSC médiane) de


Fig. 6. Variations des performances UNet (DSC) pour différentes mesures de lésions de vérité terrain sur différents ensembles de tests. Pour chaque ensemble de tests, les distributions des mesures des lésions ont été présentées sous forme de boîtes à moustaches dans quatre catégories différentes, (i) sur l'ensemble de tests global, (ii) sur les cas avec DSC < 0,2, (iii) 0,2 ≤ DSC ≤ 0,75 et (iv) ) DSC > 0,75. Les axes Y de tous les tracés sont en échelle logarithmique et les valeurs moyennes et médianes de chaque case ont été représentées respectivement par des cercles blancs et des lignes horizontales noires.






B. Performances de détection


Nous avons évalué les performances de nos réseaux sur trois types de métriques de détection, telles que définies dans la section III-D.2. Le critère 1, étant le critère de détection le plus faible, présentait la meilleure sensibilité de détection globale de tous les critères sur tous les réseaux sur les ensembles de tests internes et externes, suivi du critère 3 puis du critère 2 (Fig. 8). À partir du critère 1, UNet, SegResNet, DynUNet et SwinUNETR ont obtenu des sensibilités médianes de 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] et 1,0 [0,66, 1,0] respectivement sur l'ensemble de test interne. , sur le plateau externe, ils ont obtenu respectivement 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] et 0,67 [0,5, 0,86]. Naturellement, il y a eu une baisse des performances lors du passage des tests internes aux tests externes. De plus, le critère 1 a obtenu les meilleures performances sur le nombre de métriques FP, les réseaux obtenant respectivement 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] et 7,0 [3,0, 11,25] FP médians sur l'ensemble de test interne et 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] et 31,0 [21,0, 55,0] FP médians respectivement sur l'ensemble de test externe.


Fig. 8. Sensibilité médiane de détection et FP par patient via les trois critères de détection pour les quatre réseaux sur les ensembles de tests internes et externes. Les bords supérieur et inférieur des cases couvrent l’IQR, tandis que les lignes horizontales rouges et les cercles blancs représentent respectivement la médiane et la moyenne. La longueur des moustaches est fixée à 1,5 fois IQR et les valeurs aberrantes ont été représentées par des losanges noirs.


De plus, étant un critère de détection plus difficile, le critère 2 présentait les sensibilités de détection les plus faibles pour tous les réseaux, la médiane étant respectivement de 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] et 0,55 [0,19, 1,0] sur l'ensemble de test interne, et 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] et 0,27 [0,16, 0,5] respectivement sur l'ensemble de test externe. Pour ce critère, la baisse des sensibilités médianes en passant de l'ensemble de tests interne à externe est comparable à celles du critère 1. De même, pour ce critère, les FP médianes par patient étaient de 4,5 [2,0, 8,0], 4,0 [2,0, 8,0 ], 6,0 [4,0, 12,25] et 9,0 [5,0, 13,0] respectivement sur l'ensemble de test interne, et 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] et 44,0 [27,0, 63.0] respectivement sur l'ensemble de test externe. Bien que les sensibilités soient inférieures à celles du critère 1, les FP par patient sont similaires sur les ensembles de tests internes et externes pour le critère 2 (bien que la variation des FP médians entre les critères de l'ensemble de tests externes pour SwinUNETR soit la plus élevée).


Enfin, le critère 3, basé sur la détection du voxel SUVmax des lésions, était un critère intermédiaire entre les critères 1 et 2, puisque la capacité du modèle à détecter les lésions avec précision augmente avec la lésion SUVmax (Section IV-A.2). Pour ce critère, les réseaux avaient des sensibilités médianes de 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] et 0,85 [0,53, 1,0] respectivement sur l'ensemble de test interne, et de 0,5 [0,33, 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] et 0,5 [0,4, 0,75] respectivement sur l'ensemble de test externe. La baisse des sensibilités entre les ensembles de tests internes et externes est comparable aux deux autres critères. De même, les réseaux avaient une FP médiane par patient de 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] et 8,0 [4,0, 12,0] respectivement sur l'ensemble de tests internes, et de 19,0 [12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] et 39,0 [25,0, 58,0] respectivement sur l'ensemble de test externe.


C. Variabilité intra-observateur


Pour effectuer une analyse de variabilité intra-observateur, 60 cas de l'ensemble de la cohorte PMBCL-BCCV (englobant les ensembles d'entraînement, valides et de test) ont été resegmentés par le médecin 4. Ce sous-ensemble comprenait 35 cas « faciles » (cas avec masques prédits UNet (obtention de DSC > 0,75 avec la vérité terrain originale) et 25 cas « difficiles » (DSC < 0,2). Pour éliminer les biais, la sélection de ces cas, à l'exception des critères DSC, a été randomisée, garantissant qu'aucune préférence dans la sélection de cas spécifiques n'a été accordée lors du processus de resegmentation.


Le DSC moyen et médian global entre les segmentations originales et nouvelles du médecin pour les cas « faciles » et « difficiles » combinés était de 0,50 ± 0,33 et 0,49 [0,20, 0,84]. Ici, la moyenne était comparable aux performances de l’ensemble de tests PMBCL-BCCV (0,49 ± 0,42) de UNet, bien que la médiane soit bien inférieure à celle de UNet (0,74 [0,02, 0,9]). Les cas « difficiles » présentaient une reproductibilité plus faible dans la génération d'une vérité terrain cohérente, comme l'indiquent les DSC moyens et médians entre les annotations originales et re-segmentées, qui se sont révélés être respectivement de 0,22 ± 0,18 et 0,20 [0,05, 0,36]. A l’inverse, pour les cas « faciles », les valeurs moyennes et médianes du DSC étaient respectivement de 0,70 ± 0,26 et 0,82 [0,65, 0,87].




Fig. 10. Évaluation de la variabilité intra-observateur (médecin 4) à l'aide des trois critères de détection sur la sensibilité médiane et les paramètres de PF par patient pour les 35 cas « faciles » et 25 « difficiles » de la cohorte PMBCL-BCCV. Pour ces analyses, la segmentation originale par le Médecin 4 a été traitée comme la vérité terrain et les nouvelles segmentations ont été traitées comme les masques prédits. Les bords supérieur et inférieur des cases couvrent l’IQR, tandis que les lignes horizontales rouges et les cercles blancs représentent respectivement la médiane et la moyenne. La longueur des moustaches est fixée à 1,5 fois IQR et les valeurs aberrantes ont été représentées par des losanges noirs.


Enfin, nous avons également effectué une analyse de détection sur la segmentation originale et la nouvelle, comme illustré sur la figure 10. Pour cette analyse, nous avons traité la segmentation originale comme une vérité terrain et la nouvelle segmentation comme des masques prédits. Pour le critère 1, les sensibilités médianes de détection dans les cas « faciles » et « difficiles » étaient de 1,0 [1,0, 1,0], indiquant que le médecin segmentait toujours au moins un voxel de manière cohérente entre les annotations originales et nouvelles. Ce critère avait des FP médianes par patient de 0,0 [0,0, 2,0] et 0,0 [0,0, 0,0] respectivement sur les cas « faciles » et « difficiles », précisant que pour les cas « difficiles », le médecin n'a jamais segmenté aucune lésion dans un emplacement totalement différent par rapport à leurs masques d’origine. Pour le critère 2, les sensibilités étaient respectivement de 0,67 [0,08, 1,0] et 0,0 [0,0, 0,0] sur les cas « facile » et « difficile ». Cela signifie que pour la nouvelle annotation sur les cas « difficiles », le médecin n'a jamais segmenté aucune lésion ayant un IoU > 0,5 avec les lésions de l'annotation originale. Pour ce critère, les FP médians par patient étaient respectivement de 1,0 [0,5, 4,0] et 1,0 [1,0, 1,0] pour les cas « faciles » et « difficiles ». Enfin, pour le critère 3, les sensibilités étaient de 1,0 [0,84, 1,0] et 1,0 [0,5, 1,0], tandis que les FP par patient étaient de 0,0 [0,0, 3,0] et 0,0 [0,0, 1,0] pour les phases « facile » et « difficile ». »cas respectivement. Il convient de noter que l'évolution entre les performances de détection du médecin évaluées par ces trois critères est similaire à celle des quatre réseaux de la section IV-B (Critère 1 > Critère 3 > Critère 2).


D. Variabilité inter-observateur


Neuf cas (tous appartenant à des patients différents) ont été sélectionnés au hasard dans l'ensemble DLBCL-BCCV qui ont été segmentés par deux médecins supplémentaires (médecins 2 et 3). Le coefficient de Fleiss κ moyen sur ces 9 cas était de 0,72, ce qui rentre dans la catégorie d'accord « substantiel » entre les médecins. Ce niveau d'accord souligne la fiabilité et la cohérence de la segmentation de la vérité terrain obtenue à partir de plusieurs annotateurs.


Deuxièmement, nous avons calculé le DSC par paire entre deux médecins pour les 9 cas. Les DSC moyens entre les médecins 1 et 2, 2 et 3 et 1 et 3 étaient de 0,67 ± 0,37, 0,83 ± 0,20 et 0,66 ± 0,37. De plus, le consensus STAPLE [24] pour les trois médecins a été généré pour les 9 cas et les DSC entre les segmentations STAPLE et la vérité terrain ont été calculés pour chaque médecin. Les DSC moyens avec la vérité terrain STAPLE pour les médecins 1, 2 et 3 étaient respectivement de 0,75 ± 0,37, 0,91 ± 0,11 et 0,90 ± 0,16.


Ce papier est disponible sur arxiv sous licence CC 4.0.