作者:
(1)Shadab Ahamed,加拿大不列颠哥伦比亚大学,加拿大不列颠哥伦比亚省温哥华,加拿大不列颠哥伦比亚省癌症研究所。他还是美国华盛顿州雷德蒙德微软 AI for Good 实验室的 Mitacs Accelerate 研究员(2022 年 5 月 - 2023 年 4 月)(电子邮件:[email protected]);
(2) 徐一熙,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(3)Claire Gowdy,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省儿童医院
(4) Joo H. O,韩国首尔圣玛丽医院
(5) Ingrid Bloise,加拿大不列颠哥伦比亚省温哥华 BC 癌症中心;
(6)Don Wilson,BC Cancer,加拿大不列颠哥伦比亚省温哥华;
(7)Patrick Martineau,BC 癌症中心,加拿大不列颠哥伦比亚省温哥华
(8) Franc¸ois Benard,BC Cancer,加拿大不列颠哥伦比亚省温哥华
(9)Fereshteh Yousefirizi,加拿大不列颠哥伦比亚省温哥华不列颠哥伦比亚省癌症研究所
(10) Rahul Dodhia,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(11)Juan M. Lavista,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(12)William B. Weeks,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(13) Carlos F. Uribe,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
(14)Arman Rahmim,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
本研究对四种神经网络架构(UNet、SegResNet、DynUNet 和 SwinUNETR)从 PET/CT 图像中分割淋巴瘤病变的效果进行了全面评估。这些网络在包含 611 例病例的多样化多机构数据集上进行了训练、验证和测试。内部测试(88 例病例;总代谢肿瘤体积 (TMTV) 范围为 [0.52, 2300] ml)显示,SegResNet 表现最佳,Dice 相似系数 (DSC) 中位数为 0.76,假阳性体积 (FPV) 中位数为 4.55 ml;所有网络的假阴性体积 (FNV) 中位数均为 0 ml。在未见过的外部测试集(145 例病例,TMTV 范围为:[0.10, 2480] ml)中,SegResNet 实现了最佳中位 DSC 0.68 和 FPV 21.46 ml,而 UNet 的最佳 FNV 为 0.41 ml。我们评估了六种病变测量的可重复性,计算了它们的预测误差,并检查了 DSC 与这些病变测量相关的性能,从而深入了解了分割准确性和临床相关性。此外,我们引入了三种病变检测标准,解决了临床上识别病变、计数病变和根据代谢特征进行分割的需求。我们还进行了专家内部观察者变异性分析,揭示了在“易”和“难”病例之间进行分割的挑战,以协助开发更具弹性的分割算法。最后,我们进行了观察者间一致性评估,强调了涉及多个专家注释者的标准化地面实况分割协议的重要性。代码可在以下位置获得: https://github.com/microsoft/lymphoma-segmentationdnn 。
索引术语——正电子发射断层扫描、计算机断层扫描、深度学习、分割、检测、病变测量、观察者内变异性、观察者间变异性
氟脱氧葡萄糖 (18F-FDG) PET/CT 成像是淋巴瘤患者的标准治疗方法,可提供准确的诊断、分期和治疗反应评估。然而,传统的定性评估,如 Deauville 评分 [1],可能会因观察者在图像解释中的主观性而产生差异。使用结合病变指标(例如平均病变标准化摄取值 (SUVmean)、总代谢肿瘤体积 (TMTV) 和总病变糖酵解 (TLG))的定量 PET 分析,为更可靠的预后决策提供了一条有希望的途径,提高了我们以更高的精度和信心预测淋巴瘤患者预后的能力 [2]。
PET/CT 成像中的定量评估通常依赖于手动病灶分割,这非常耗时,而且容易受到观察者内部和观察者之间差异的影响。传统的基于阈值的自动化技术可能会漏掉低摄取疾病,并在放射性示踪剂生理高摄取区域产生假阳性。因此,深度学习有望实现病灶分割自动化,减少差异性,提高患者吞吐量,并可能有助于检测具有挑战性的病灶 [3]。
尽管前景光明,但深度学习方法也面临着自身的挑战。卷积神经网络 (CNN) 需要大量、注释良好的数据集,而这些数据集可能很难获得。在小型数据集上训练的模型可能不具有普遍性。此外,淋巴瘤病变的大小、形状和代谢活动差异很大,在没有明确定义的先验的情况下,准确训练深度网络具有挑战性。深度学习旨在减少观察者的差异性,但用于训练的不一致的手动注释可能会导致错误持续存在。了解这些挑战对于充分利用这些方法在 PET/CT 定量分析中的潜力至关重要。