作者:
(1)Shadab Ahamed,加拿大不列颠哥伦比亚大学,加拿大不列颠哥伦比亚省温哥华,加拿大不列颠哥伦比亚省癌症研究所。他还是美国华盛顿州雷德蒙德微软 AI for Good 实验室的 Mitacs Accelerate 研究员(2022 年 5 月 - 2023 年 4 月)(电子邮件:[email protected]);
(2) 徐一熙,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(3)Claire Gowdy,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省儿童医院
(4) Joo H. O,韩国首尔圣玛丽医院
(5) Ingrid Bloise,加拿大不列颠哥伦比亚省温哥华 BC 癌症中心;
(6)Don Wilson,BC Cancer,加拿大不列颠哥伦比亚省温哥华
(7)Patrick Martineau,BC 癌症中心,加拿大不列颠哥伦比亚省温哥华;
(8) Franc¸ois Benard,BC Cancer,加拿大不列颠哥伦比亚省温哥华
(9)Fereshteh Yousefirizi,加拿大不列颠哥伦比亚省温哥华不列颠哥伦比亚省癌症研究所
(10) Rahul Dodhia,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(11)Juan M. Lavista,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(12)William B. Weeks,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(13) Carlos F. Uribe,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
(14)Arman Rahmim,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
在这项工作中,我们训练并评估了四种不同的神经网络架构,以自动从来自三个不同队列的 PET/CT 数据集中分割淋巴瘤病变。为了评估模型性能,我们对来自这三个队列的内部测试集进行了全面评估,结果显示 SegResNet 和 UNet 在 DSC(平均值和中位数)和中位 FPV 指标上优于 DynUNet 和 SwinUNETR,而 SwinUNETR 的中位 FNV 最好。除了内部评估之外,我们还扩展了分析范围,以涵盖大型公共淋巴瘤 PET/CT 数据集上的外部分布外测试阶段。在这个外部测试集上,SegResNet 在 DSC 和 FPV 指标方面也表现最佳,突显了其稳健性和有效性,而 UNet 在 FNV 上表现出色。
需要强调的是,SegResNet 和 UNet 是在较大尺寸的块上进行训练的,具体来说分别是 (224, 224, 224) 和 (192, 192, 192),而 DynUNet 和 SwinUNETR 则使用相对较小的块进行训练,具体来说分别是 (160, 160, 160) 和 (128, 128, 128)。在训练期间使用较大的块尺寸可使神经网络获得更广泛的数据上下文理解,从而提高其在分割任务中的表现 [17]。这一观察结果与我们的结果一致,SegResNet 和 UNet 的卓越表现可归因于它们在训练期间接触了较大的块尺寸。此外,较大的批处理大小可以通过准确估计梯度来实现稳健的训练 [17],但对于我们选择的训练补丁大小,由于内存限制,我们无法使用 nb > 1 来训练 SegResNet、DynUNet 和 SwinUNETR(尽管我们可以为 UNet 容纳 nb = 8)。因此,为了公平地比较网络,所有网络都以 nb = 1 进行训练。值得注意的是,我们无法在较大的补丁和小批量大小上训练 DynUNet 和 SwinUNETR 主要是由于计算资源限制。然而,这种限制为未来的研究提供了一条途径,使用更大的补丁和批处理大小训练这些模型可能会进一步提高分割准确性。
我们评估了病变测量的可重复性,发现在内部测试集上,TMTV 和 TLG 可在所有网络中重复,而 Dmax 无法通过任何网络重复。SUVmean 可通过除 UNet 之外的所有网络重复,SUVmax 仅可通过 SegResNet 重复,病变数量仅可通过 UNet 和 SegResNet 重复。在外部测试集上,可重复性更加有限,只有 SUVmean 可通过 SegResNet 和 SwinUNETR 重复,病变数量可通过 SegResNet 重复,TLG 可通过 DynUNet 重复(图 3 和 4)。此外,我们使用 MAPE 量化了网络在估计病变测量值时的误差,发现 MAPE 通常会随着内部和外部组合测试集上病变测量值(对于所有病变测量值)的函数而下降(图 5)。当真实病变测量值非常小时,网络通常会在准确预测中出现重大错误。我们还表明,一般来说,在一组患者水平病变 SUVmean、SUVmean、TMTV 和 TLG 较大的图像上,网络能够预测更高的中位 DSC,尽管对于这些病变测量值的非常高的值,性能通常会稳定下来。另一方面,DSC 性能不会受到病变数量的影响,而对于一组 Dmax 较高的图像,所有网络的性能通常会下降(图 7)。
由于大部分 PET/CT 数据为医疗机构私有,研究人员在获取用于训练和测试深度学习模型的各种数据集时面临巨大挑战。在这种情况下,为了提高模型的可解释性,研究人员必须研究其模型的性能如何取决于数据集特征。通过研究模型性能如何与图像/病变特征相关,研究人员可以深入了解其模型的优势和局限性 [13]。
除了评估分割性能外,我们还引入了三个不同的检测标准,分别称为标准 1、2 和 3。这些标准有一个特定的目的:评估网络在每个病变上的性能。这与分割性能评估形成鲜明对比,后者主要关注网络的体素级准确性。引入这些检测标准的理由在于需要评估网络在图像中识别和检测病变的能力,而不是仅仅评估它们在体素级勾画病变边界的能力。检测病变存在的能力(标准 1)至关重要,因为它直接影响到潜在的健康问题是否被识别或遗漏。即使检测到病变的一个体素也可能引发进一步的调查或治疗计划。病变数量和准确定位(标准 2)对于治疗计划和监测疾病进展非常重要。不仅要知道病变存在,还要知道有多少病变以及病变位于何处,这对治疗决策有重大影响。标准 3 重点关注根据病变代谢特征(SUVmax)对病变进行分割,增加了额外的临床相关性。
利用这些检测指标,我们评估了所有网络的灵敏度和 FP 检测,并表明根据检测标准,即使 DSC 性能较低,网络也可以具有非常高的灵敏度。考虑到这些不同的检测标准,可以根据特定的临床用例选择经过训练的模型。例如,一些用例可能涉及能够检测所有病变,而无需过于谨慎地分割准确的病变边界,而其他一些用例可能正在寻找更稳健的边界描绘。
此外,我们评估了医生在分割“易”和“难”病例时观察者之间的差异,并指出在对“难”病例进行一致分割时存在挑战。在淋巴瘤病变分割中,病例的难度可能因病变的大小、形状和位置或图像质量等因素而有所不同。通过确定哪些病例即使对于经验丰富的医生来说也始终难以分割,我们深入了解了分割任务的复杂性和细微差别。最后,我们还评估了三位医生之间的观察者一致性。虽然我们推断三位医生之间存在相当大的一致性,但评估仅针对 9 个病例进行,导致统计能力低。
为了提高医学图像分割中基本事实的一致性,一个定义明确的协议至关重要。该协议应让多位专家医生独立地描绘 PET/CT 图像中的感兴趣区域 (ROI) 或病变。多位注释者应该在不了解彼此工作的情况下分割相同的图像,而不是由一位医生独立分割一个群组。医生之间的分歧或分歧可以通过结构化方法解决,例如促进讨论、临床信息审查或图像澄清。这种强大的基本事实过程提高了观察者之间的一致性准确性,并增强了依赖这些注释的研究结果和临床应用的有效性。
本文