Auteurs:
(1) Shadab Ahamed, Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada. Il a également été Mitacs Accelerate Fellow (mai 2022 - avril 2023) auprès de Microsoft AI for Good Lab, Redmond, WA, États-Unis (e-mail : [email protected]) ;
(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;
(3) Claire Gowdy, Hôpital pour enfants de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;
(4) Joo H. O, St. Mary's Hospital, Séoul, République de Corée ;
(5) Ingrid Bloise, BC Cancer, Vancouver, Colombie-Britannique, Canada ;
(6) Don Wilson, BC Cancer, Vancouver, Colombie-Britannique, Canada ;
(7) Patrick Martineau, BC Cancer, Vancouver, Colombie-Britannique, Canada ;
(8) François Benard, BC Cancer, Vancouver, BC, Canada ;
(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada ;
(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;
(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;
(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, États-Unis ;
(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada, et Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada ;
(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, Colombie-Britannique, Canada, et Université de la Colombie-Britannique, Vancouver, Colombie-Britannique, Canada.
Dans ce travail, nous avons formé et évalué quatre architectures de réseaux neuronaux distinctes pour automatiser la segmentation des lésions de lymphome à partir d'ensembles de données TEP/CT provenant de trois cohortes différentes. Pour évaluer les performances des modèles, nous avons mené des évaluations complètes sur un ensemble de tests internes provenant de ces trois cohortes et avons montré que SegResNet et UNet surpassaient DynUNet et SwinUNETR sur les métriques DSC (moyenne et médiane) et médiane du FPV, tandis que SwinUNETR avait le meilleur FNV médian. En plus des évaluations internes, nous avons étendu notre analyse pour englober une phase de test externe hors distribution sur un important ensemble de données publiques TEP/CT sur le lymphome. Sur cet ensemble de tests externes également, SegResNet est apparu comme le plus performant en termes de métriques DSC et FPV, soulignant sa robustesse et son efficacité, tandis qu'UNet a affiché les meilleures performances sur FNV.
Il est important de souligner que SegResNet et UNet ont été formés sur des correctifs de plus grandes tailles, spécifiquement (224, 224, 224) et (192, 192, 192) respectivement, tandis que DynUNet et SwinUNETR ont été formés à l'aide de correctifs relativement plus petits, à savoir (160, 160, 160) et (128, 128, 128) respectivement. L'utilisation de patchs de plus grande taille pendant la formation permet aux réseaux de neurones de capturer une compréhension contextuelle plus étendue des données, améliorant ainsi leurs performances dans les tâches de segmentation (17). Cette observation concorde avec nos résultats, où les performances supérieures de SegResNet et UNet peuvent être attribuées à leur exposition à des correctifs de plus grande taille pendant la formation. De plus, des tailles de lots plus grandes permettent un entraînement robuste en estimant avec précision les gradients [17], mais avec les tailles de patch d'entraînement que nous avons choisies, nous n'avons pas pu entraîner SegResNet, DynUNet et SwinUNETR avec nb > 1 en raison de limitations de mémoire (bien que nous puissions accepter nb = 8 pour UNet). Par conséquent, pour une comparaison équitable entre les réseaux, tous les réseaux ont été formés avec nb = 1. Il convient de noter que notre incapacité à former DynUNet et SwinUNETR sur des patchs et des mini-lots plus grands était principalement due aux limitations des ressources informatiques. Cependant, cette limitation ouvre une voie pour des recherches futures, dans lesquelles la formation de ces modèles avec des correctifs et des tailles de lots plus importants pourrait potentiellement apporter de nouvelles améliorations en termes de précision de segmentation.
Nous avons évalué la reproductibilité des mesures des lésions et constaté que sur l'ensemble de tests internes, TMTV et TLG étaient reproductibles sur tous les réseaux, tandis que Dmax n'était reproductible par aucun réseau. SUVmean était reproductible par tous les réseaux sauf UNet, SUVmax uniquement par SegResNet et le nombre de lésions uniquement par UNet et SegResNet. Sur l'ensemble de tests externes, la reproductibilité était plus limitée, seul SUVmean étant reproductible à la fois par SegResNet et SwinUNETR, le nombre de lésions par SegResNet et le TLG par DynUNet (Fig. 3 et 4). De plus, nous avons quantifié l'erreur des réseaux dans l'estimation de la valeur des mesures de lésion à l'aide de MAPE et avons constaté que MAPE diminue généralement en fonction des valeurs de mesure de lésion (pour toutes les mesures de lésion) sur l'ensemble de tests combinés internes et externes (Fig. 5). Les réseaux ont généralement commis des erreurs significatives dans la prédiction précise lorsque les mesures de la vérité terrain sur les lésions étaient très petites. Nous avons également montré qu'en général, sur un ensemble d'images présentant des lésions plus grandes au niveau du patient SUVmean, SUVmean, TMTV et TLG, un réseau est capable de prédire un DSC médian plus élevé, bien que pour des valeurs très élevées de ces mesures de lésion, la performance généralement des plateaux. En revanche, les performances DSC ne sont pas beaucoup affectées par le nombre de lésions, alors que pour un ensemble d'images avec un Dmax plus élevé, les performances diminuent généralement pour tous les réseaux (Fig. 7).
Dans la mesure où une grande partie des données TEP/CT appartiennent à des établissements de santé privés, elles posent des défis importants aux chercheurs lorsqu'il s'agit d'accéder à divers ensembles de données pour former et tester des modèles d'apprentissage profond. Dans un tel scénario, pour améliorer l’interprétabilité des modèles, il est crucial que les chercheurs étudient comment les performances de leurs modèles dépendent des caractéristiques des ensembles de données. En étudiant la corrélation entre les performances du modèle et les caractéristiques de l’image/lésion, les chercheurs peuvent mieux comprendre les forces et les limites de leurs modèles [13].
Parallèlement à l'évaluation des performances de segmentation, nous avons également introduit trois critères de détection distincts, appelés critères 1, 2 et 3. Ces critères avaient un objectif spécifique : évaluer les performances des réseaux par lésion. Cela contraste avec l’évaluation des performances de segmentation, qui se concentre principalement sur la précision des réseaux au niveau voxel. La raison derrière l'introduction de ces critères de détection réside dans la nécessité d'évaluer dans quelle mesure les réseaux identifient et détectent les lésions dans les images, par opposition à simplement évaluer leur capacité à délimiter les limites des lésions au niveau du voxel. La capacité à détecter la présence de lésions (Critère 1) est cruciale, car elle influence directement si un problème de santé potentiel est identifié ou ignoré. La détection d'un seul voxel d'une lésion pourrait déclencher une enquête plus approfondie ou une planification de traitement. Le nombre de lésions et leur localisation précise (critère 2) sont importants pour la planification du traitement et le suivi de la progression de la maladie. Savoir non seulement qu’une lésion existe, mais aussi combien il y en a et où elles se trouvent peut avoir un impact significatif sur les décisions thérapeutiques. Le critère 3, axé sur la segmentation des lésions en fonction des caractéristiques métaboliques des lésions (SUVmax), ajoute une couche supplémentaire de pertinence clinique.
À l'aide de ces métriques de détection, nous avons évalué les sensibilités et les détections FP pour tous les réseaux et avons montré qu'en fonction des critères de détection, un réseau peut avoir une sensibilité très élevée même lorsque les performances DSC étaient faibles. Compte tenu de ces différents critères de détection, un modèle entraîné peut être choisi en fonction de cas d'utilisation clinique spécifiques. Par exemple, certains cas d’utilisation pourraient impliquer de pouvoir détecter toutes les lésions sans être trop prudent quant à la segmentation des limites exactes des lésions, tandis que d’autres cas d’utilisation pourraient rechercher des délimitations plus robustes.
De plus, nous avons évalué la variabilité intra-observateur d'un médecin dans la segmentation des cas « faciles » et « difficiles », notant les difficultés liées à la segmentation cohérente des cas du sous-ensemble « difficile ». Dans la segmentation des lésions du lymphome, la difficulté des cas peut varier en raison de facteurs tels que la taille, la forme et l'emplacement des lésions, ou la qualité de l'image. En identifiant les cas qui sont systématiquement difficiles à segmenter, même pour un médecin expérimenté, nous avons acquis un aperçu de la complexité et des nuances de la tâche de segmentation. Enfin, nous avons également évalué l'accord interobservateur entre trois médecins. Bien que nous ayons déduit qu'il existait un niveau d'accord substantiel entre les trois médecins, l'évaluation n'a été réalisée que sur 9 cas, ce qui entraîne une faible puissance statistique.
Pour améliorer la cohérence de la vérité terrain dans la segmentation des images médicales, un protocole bien défini est essentiel. Ce protocole doit impliquer plusieurs médecins experts de manière indépendante pour délimiter les régions d'intérêt (ROI) ou les lésions dans les images TEP/CT. Au lieu qu'un seul médecin segmente une cohorte de manière indépendante, plusieurs annotateurs devraient segmenter les mêmes images sans connaître le travail de chacun. Les divergences ou désaccords entre médecins peuvent être résolus grâce à des approches structurées telles que des discussions facilitées, des examens d’informations cliniques ou une clarification d’image. Ce processus robuste de vérité terrain améliore la précision de l’accord entre observateurs et renforce la validité des résultats de recherche et des applications cliniques s’appuyant sur ces annotations.
Ce papier est