Auteurs:  (1) Shadab Ahamed, Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada. Il a également été Mitacs Accelerate Fellow (mai 2022 - avril 2023) auprès de Microsoft AI for Good Lab, Redmond, WA, États-Unis (e-mail : shadabahamed1996@gmail.com) ;  (2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;  (3) Claire Gowdy, Hôpital pour enfants de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;  (4) Joo H. O, St. Mary's Hospital, Séoul, République de Corée ;  (5) Ingrid Bloise, BC Cancer, Vancouver, Colombie-Britannique, Canada ;  (6) Don Wilson, BC Cancer, Vancouver, Colombie-Britannique, Canada ;  (7) Patrick Martineau, BC Cancer, Vancouver, Colombie-Britannique, Canada ;  (8) François Benard, BC Cancer, Vancouver, BC, Canada ;  (9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada ;  (10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;  (11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;  (12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;  (13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada, et Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;  (14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canada, et Université de la Colombie-Britannique, Vancouver, BC, Canada.  Tableau des liens   Résumé et introduction   Travaux connexes   Matériels et méthodes   Résultats   Discussion   Conclusion et références  IV. RÉSULTATS   A. Performances de segmentation  Les performances des quatre réseaux ont été évaluées à l'aide du DSC médian, du FPV et du FNV et du DSC moyen sur des ensembles de tests internes (y compris les performances séparées par différentes cohortes internes) et externes, comme le montre le tableau II. Certaines visualisations des performances des réseaux ont été illustrées sur la Fig. 2,  Le SegResNet présentait le DSC médian le plus élevé sur les ensembles de tests internes et externes avec des médianes de 0,76 [0,27, 0,88] et 0,68 [0,40, 0,78], respectivement. Pour les cohortes individuelles de l'ensemble de tests internes, UNet avait le meilleur DSC sur DLBCL-BCCV et PMBCL-BCCV avec une médiane de 0,72 [0,24, 0,89] et 0,74 [0,02, 0,90], respectivement, tandis que SegResNet avait le meilleur DSC. de 0,78 [0,62, 0,87] sur DLBCLSMHS. SegResNet avait également le meilleur FPV sur les ensembles de tests internes et externes avec des valeurs de 4,55 [1,35, 31,51] ml et 21,46 [6,30, 66,44] ml. Malgré la victoire d'UNet sur DSC pour les ensembles DLBCL-BCCV et PMBCL-BCCV, SegResNet avait le meilleur FPV sur ces deux ensembles avec des valeurs médianes de 5,78 [0,61, 19,97] ml et 2,15 [0,52, 7,18] ml, respectivement, tandis qu'UNet avait le meilleur FPV de 8,71 [1,19, 34,1] ml sur DLBCLSMHS. Enfin, SwinUNETR avait le meilleur FNV médian de 0,0 [0,0, 4,65] ml sur l'ensemble de test interne, tandis que UNet avait le meilleur FNV médian de 0,41 [0,0, 3,88] ml sur l'ensemble de test externe. Sur DLBCL-BCCV et DLBCL-SMHS, SwinUNETR avait la meilleure FNV médiane de 0,09 [0,0, 3,39] ml et 0,0 [0,0, 8,83] ml, respectivement, tandis que sur PMBCL-BCCV, UNet, DynUNet et SwinUNETR étaient à égalité, chacun avec une valeur médiane de 0,0 [0,0, 1,24] ml.  Premièrement, SegResNet et UNet se sont bien généralisés sur l'ensemble de tests externes invisibles, avec une baisse de la moyenne et de la médiane.   performances de 4 % et 8 % et 2 % et 8 %, respectivement, par rapport à l'ensemble de test interne. Bien que les DSC médians de DynUNet et SwinUNETR soient considérablement inférieurs à ceux de SegResNet et UNet sur l'ensemble de tests internes (d'environ 6 à 9 %), ces réseaux avaient des généralisations encore meilleures avec une baisse du DSC médian de seulement 4 % et 6 %, respectivement. , lors du passage des tests internes aux tests externes. Il convient également de noter que les IQR DSC pour tous les réseaux étaient plus importants sur l’ensemble de test interne que sur l’ensemble de test externe. En outre, tous les réseaux ont obtenu un DSC du 75e quantile plus élevé sur l'ensemble de test interne par rapport à l'ensemble de test externe, tout en obtenant un DSC du 25e quantile inférieur sur le test interne par rapport à l'ensemble de test externe (sauf pour SwinUNETR où cette tendance a été inversée. ). De même, pour différentes cohortes de l’ensemble de tests internes, tous les réseaux présentaient le DSC médian et le 25e quantile le plus élevé sur l’ensemble DLBCL-SMHS. Les pires performances ont été obtenues sur la cohorte PMBCL-BCCV avec le plus grand IQR tous réseaux confondus (voir Section IV-A.2 et Fig. 6). Il est intéressant de noter que malgré des performances DSC inférieures sur les ensembles de tests internes et externes (par rapport aux modèles les plus performants), SwinUNETR présentait les meilleures valeurs médianes de FNV parmi les cohortes de l'ensemble de tests internes.   La même analyse a été effectuée sur l'ensemble de tests externes, comme le montre la figure 4. Pour l'ensemble de tests externes, les seules mesures de lésions reproductibles étaient SUVmean par SegResNet et SwinUNETR, le nombre de lésions par SegResNet et TLG par DynUNet. Cela montre que les performances des réseaux en termes de DSC ou d'autres mesures de segmentation traditionnelles ne reflètent pas toujours leur capacité à estimer les mesures des lésions. Les mesures lésionnelles telles que SUVmax, nombre de lésions et Dmax sont généralement difficiles à reproduire par les réseaux. SUVmax était très sensible aux prédictions faussement positives incorrectes dans les régions à forte adoption du SUV. De même, le nombre de lésions était très sensible aux composants déconnectés incorrectement segmentés, et Dmax était très sensible à la présence d'une prédiction faussement positive loin des segmentations de vérité terrain (même si les volumes de telles prédictions faussement positives pouvaient être très faibles, auquel cas cela contribuerait très peu à TMTV ou TLG, comme le montre l'ensemble de tests internes).     Tout d'abord, nous avons calculé les mesures de lésions de vérité terrain pour les ensembles de tests internes et externes, et examiné les performances d'UNet (basées sur DSC) pour chacune de ces mesures et différents ensembles de données. comme présenté sur la figure 6. Les performances ont été réparties en quatre catégories différentes, à savoir (i) l'ensemble de tests global, (ii) les cas avec DSC < 0,2, (iii) les cas avec 0,2 ≤ DSC ≤ 0,75 et (iv) les cas avec DSC > 0,75 dans l’ensemble de test. D'après les figures 6 (a) à (b), il est évident que pour les catégories avec des DSC plus élevés, les valeurs (moyennes et médianes) du niveau de patient SUVmean et SUVmean étaient également plus élevées pour la cohorte interne ainsi que pour les ensembles de tests de cohorte externe. . Les performances globales inférieures sur l’ensemble PMBCL-BCCV peuvent également être attribuées à des moyennes et médianes globales plus faibles, SUVmean et SUVmean. Une tendance similaire a été observée pour le nombre de lésions (Fig. 6 (c)) uniquement sur l'ensemble de tests externes, mais sur aucune des cohortes de tests internes. Notez que le nombre moyen de lésions sur l’ensemble de tests externes était considérablement plus élevé que sur n’importe quel ensemble de tests internes. Pour TMTV et TLG, toutes les cohortes avec des DSC plus élevés avaient également des TMTV ou TLG moyens et médians plus élevés, à l'exception de la cohorte DLBCL-SMHS, où la catégorie DSC <0, 2 avait les TMTV et TLG moyens et médians les plus élevés. Cette anomalie peut être attribuée au fait que, malgré leur grande taille, les lésions des cas de cette catégorie pour cette cohorte étaient faibles, comme le montre les figures 6 (a) à (b). Enfin, pour Dmax, la catégorie 0,2 ≤ DSC ≤ 0,75 avait la Dmax médiane la plus élevée sur toutes les cohortes et la Dmax moyenne la plus élevée sur toutes les cohortes, sauf sur DLBCL-SMHS. Des valeurs plus faibles de Dmax signifient une plus faible propagation de la maladie, ce qui peut correspondre soit à des cas comportant une seule petite lésion, soit à plusieurs (petites ou grandes) lésions situées à proximité. 2) Effet des valeurs de mesure des lésions de vérité terrain sur les performances du réseau :  Deuxièmement, nous avons évalué la performance (DSC médiane) de    B. Performances de détection  Nous avons évalué les performances de nos réseaux sur trois types de métriques de détection, telles que définies dans la section III-D.2. Le critère 1, étant le critère de détection le plus faible, présentait la meilleure sensibilité de détection globale de tous les critères sur tous les réseaux sur les ensembles de tests internes et externes, suivi du critère 3 puis du critère 2 (Fig. 8). À partir du critère 1, UNet, SegResNet, DynUNet et SwinUNETR ont obtenu des sensibilités médianes de 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] et 1,0 [0,66, 1,0] respectivement sur l'ensemble de test interne. , sur le plateau externe, ils ont obtenu respectivement 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] et 0,67 [0,5, 0,86]. Naturellement, il y a eu une baisse des performances lors du passage des tests internes aux tests externes. De plus, le critère 1 a obtenu les meilleures performances sur le nombre de métriques FP, les réseaux obtenant respectivement 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] et 7,0 [3,0, 11,25] FP médians sur l'ensemble de test interne et 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] et 31,0 [21,0, 55,0] FP médians respectivement sur l'ensemble de test externe.   De plus, étant un critère de détection plus difficile, le critère 2 présentait les sensibilités de détection les plus faibles pour tous les réseaux, la médiane étant respectivement de 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] et 0,55 [0,19, 1,0] sur l'ensemble de test interne, et 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] et 0,27 [0,16, 0,5] respectivement sur l'ensemble de test externe. Pour ce critère, la baisse des sensibilités médianes en passant de l'ensemble de tests interne à externe est comparable à celles du critère 1. De même, pour ce critère, les FP médianes par patient étaient de 4,5 [2,0, 8,0], 4,0 [2,0, 8,0 ], 6,0 [4,0, 12,25] et 9,0 [5,0, 13,0] respectivement sur l'ensemble de test interne, et 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] et 44,0 [27,0, 63.0] respectivement sur l'ensemble de test externe. Bien que les sensibilités soient inférieures à celles du critère 1, les FP par patient sont similaires sur les ensembles de tests internes et externes pour le critère 2 (bien que la variation des FP médians entre les critères de l'ensemble de tests externes pour SwinUNETR soit la plus élevée).  Enfin, le critère 3, basé sur la détection du voxel SUVmax des lésions, était un critère intermédiaire entre les critères 1 et 2, puisque la capacité du modèle à détecter les lésions avec précision augmente avec la lésion SUVmax (Section IV-A.2). Pour ce critère, les réseaux avaient des sensibilités médianes de 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] et 0,85 [0,53, 1,0] respectivement sur l'ensemble de test interne, et de 0,5 [0,33, 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] et 0,5 [0,4, 0,75] respectivement sur l'ensemble de test externe. La baisse des sensibilités entre les ensembles de tests internes et externes est comparable aux deux autres critères. De même, les réseaux avaient une FP médiane par patient de 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] et 8,0 [4,0, 12,0] respectivement sur l'ensemble de tests internes, et de 19,0 [12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] et 39,0 [25,0, 58,0] respectivement sur l'ensemble de test externe.   C. Variabilité intra-observateur  Pour effectuer une analyse de variabilité intra-observateur, 60 cas de l'ensemble de la cohorte PMBCL-BCCV (englobant les ensembles d'entraînement, valides et de test) ont été resegmentés par le médecin 4. Ce sous-ensemble comprenait 35 cas « faciles » (cas avec masques prédits UNet (obtention de DSC > 0,75 avec la vérité terrain originale) et 25 cas « difficiles » (DSC < 0,2). Pour éliminer les biais, la sélection de ces cas, à l'exception des critères DSC, a été randomisée, garantissant qu'aucune préférence dans la sélection de cas spécifiques n'a été accordée lors du processus de resegmentation.  Le DSC moyen et médian global entre les segmentations originales et nouvelles du médecin pour les cas « faciles » et « difficiles » combinés était de 0,50 ± 0,33 et 0,49 [0,20, 0,84]. Ici, la moyenne était comparable aux performances de l’ensemble de tests PMBCL-BCCV (0,49 ± 0,42) de UNet, bien que la médiane soit bien inférieure à celle de UNet (0,74 [0,02, 0,9]). Les cas « difficiles » présentaient une reproductibilité plus faible dans la génération d'une vérité terrain cohérente, comme l'indiquent les DSC moyens et médians entre les annotations originales et re-segmentées, qui se sont révélés être respectivement de 0,22 ± 0,18 et 0,20 [0,05, 0,36]. A l’inverse, pour les cas « faciles », les valeurs moyennes et médianes du DSC étaient respectivement de 0,70 ± 0,26 et 0,82 [0,65, 0,87].   Enfin, nous avons également effectué une analyse de détection sur la segmentation originale et la nouvelle, comme illustré sur la figure 10. Pour cette analyse, nous avons traité la segmentation originale comme une vérité terrain et la nouvelle segmentation comme des masques prédits. Pour le critère 1, les sensibilités médianes de détection dans les cas « faciles » et « difficiles » étaient de 1,0 [1,0, 1,0], indiquant que le médecin segmentait toujours au moins un voxel de manière cohérente entre les annotations originales et nouvelles. Ce critère avait des FP médianes par patient de 0,0 [0,0, 2,0] et 0,0 [0,0, 0,0] respectivement sur les cas « faciles » et « difficiles », précisant que pour les cas « difficiles », le médecin n'a jamais segmenté aucune lésion dans un emplacement totalement différent par rapport à leurs masques d’origine. Pour le critère 2, les sensibilités étaient respectivement de 0,67 [0,08, 1,0] et 0,0 [0,0, 0,0] sur les cas « facile » et « difficile ». Cela signifie que pour la nouvelle annotation sur les cas « difficiles », le médecin n'a jamais segmenté aucune lésion ayant un IoU > 0,5 avec les lésions de l'annotation originale. Pour ce critère, les FP médians par patient étaient respectivement de 1,0 [0,5, 4,0] et 1,0 [1,0, 1,0] pour les cas « faciles » et « difficiles ». Enfin, pour le critère 3, les sensibilités étaient de 1,0 [0,84, 1,0] et 1,0 [0,5, 1,0], tandis que les FP par patient étaient de 0,0 [0,0, 3,0] et 0,0 [0,0, 1,0] pour les phases « facile » et « difficile ». »cas respectivement. Il convient de noter que l'évolution entre les performances de détection du médecin évaluées par ces trois critères est similaire à celle des quatre réseaux de la section IV-B (Critère 1 > Critère 3 > Critère 2).   D. Variabilité inter-observateur  Neuf cas (tous appartenant à des patients différents) ont été sélectionnés au hasard dans l'ensemble DLBCL-BCCV qui ont été segmentés par deux médecins supplémentaires (médecins 2 et 3). Le coefficient de Fleiss κ moyen sur ces 9 cas était de 0,72, ce qui rentre dans la catégorie d'accord « substantiel » entre les médecins. Ce niveau d'accord souligne la fiabilité et la cohérence de la segmentation de la vérité terrain obtenue à partir de plusieurs annotateurs.  Deuxièmement, nous avons calculé le DSC par paire entre deux médecins pour les 9 cas. Les DSC moyens entre les médecins 1 et 2, 2 et 3 et 1 et 3 étaient de 0,67 ± 0,37, 0,83 ± 0,20 et 0,66 ± 0,37. De plus, le consensus STAPLE [24] pour les trois médecins a été généré pour les 9 cas et les DSC entre les segmentations STAPLE et la vérité terrain ont été calculés pour chaque médecin. Les DSC moyens avec la vérité terrain STAPLE pour les médecins 1, 2 et 3 étaient respectivement de 0,75 ± 0,37, 0,91 ± 0,11 et 0,90 ± 0,16.  Ce papier est  sous licence CC 4.0.   disponible sur arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

REINFORCEMENT . tech

Leading research and publication in advancing reinforcement machine learning, shaping intelligent systems & automation.

Reinforcement's blog

Cet audio est produit dans la langue originale de l'histoire !

Réseaux de neurones profonds pour détecter et quantifier les lésions de lymphome : résultats

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Guide de l'architecte pour créer une architecture de référence pour un datalake IA/ML

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Valhalla de Floki se joint en tant que sponsor associé de la tournée indienne au Sri Lanka

Guide de l'architecte pour créer une architecture de référence pour un datalake IA/ML

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Valhalla de Floki se joint en tant que sponsor associé de la tournée indienne au Sri Lanka

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps