作者:
(1)Shadab Ahamed,加拿大不列颠哥伦比亚大学,加拿大不列颠哥伦比亚省温哥华,加拿大不列颠哥伦比亚省癌症研究所。他还是美国华盛顿州雷德蒙德微软 AI for Good 实验室的 Mitacs Accelerate 研究员(2022 年 5 月 - 2023 年 4 月)(电子邮件:[email protected]);
(2) 徐一熙,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(3)Claire Gowdy,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省儿童医院
(4) Joo H. O,韩国首尔圣玛丽医院
(5) Ingrid Bloise,加拿大不列颠哥伦比亚省温哥华 BC 癌症中心;
(6)Don Wilson,BC Cancer,加拿大不列颠哥伦比亚省温哥华
(7)Patrick Martineau,BC 癌症中心,加拿大不列颠哥伦比亚省温哥华;
(8) Franc¸ois Benard,BC Cancer,加拿大不列颠哥伦比亚省温哥华
(9)Fereshteh Yousefirizi,加拿大不列颠哥伦比亚省温哥华不列颠哥伦比亚省癌症研究所
(10) Rahul Dodhia,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(11)Juan M. Lavista,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(12)William B. Weeks,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;
(13) Carlos F. Uribe,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
(14)Arman Rahmim,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学
许多研究探索了深度学习方法在 PET/CT 图像中分割淋巴瘤的应用。袁等人 [4] 开发了一种特征融合技术,以利用多模态数据的互补信息。胡等人 [5] 提出融合在体积数据上训练的 3D ResUNet 和在三个正交方向的 2D 切片上训练的三个 2D ResUNet 来增强分割性能。李等人 [6] 提出了以端到端方式训练的 DenseX-Net,将监督和无监督方法相结合用于淋巴瘤检测和分割。刘等人 [7] 介绍了基于块的负样本增强和标签指导等技术,用于训练 3D Residual-UNet 进行淋巴瘤分割。所有这些研究的主要限制在于它们都是在相对较小的数据集(少于 100 张图像)上开发的。此外,大多数这些方法都没有将其提出的方法的性能与其他基线或医生的表现进行比较。
Constantino 等人 [8] 比较了 7 种半自动和 2 种深度学习分割方法的性能,而 Weisman 等人 [9] 比较了 11 种自动分割技术,尽管这两项研究都是在分别大小为 65 和 90 的较小数据集上进行的。Weisman 等人 [10] 比较了自动 3D Deep Medic 方法与医生的分割性能,尽管这项研究也只包括 90 例淋巴瘤病例。除了 [10] 之外,这些研究都没有报告模型在分布外数据集(例如从不同中心收集的数据)上的泛化,从而限制了它们的稳健性量化和外部有效性。Jiang 等人 [11] 使用与上述研究相比相对较大的数据集(297 张图像)来训练 3D UNet。他们甚至对从不同中心收集的 117 张图像进行了分布外测试。据我们所知,迄今为止,用于基于深度学习的病变分割的淋巴瘤 PET/CT 数据集规模最大的是 Blanc-Durand 等人的研究成果 [12],他们使用了 639 张图像进行模型开发,94 张图像用于外部测试;然而,这项研究仅使用了标准分割评估指标,并评估了他们的模型预测准确 TMTV 的能力。[11] 和 [12] 两项研究都存在局限性,因为它们的数据集完全由确诊为弥漫性大 B 细胞淋巴瘤 (DLBCL) 的患者组成,而 DLBCL 仅代表淋巴瘤的单一亚型。
现有的基于深度学习的淋巴瘤分割研究大多报告了其在通用分割指标上的表现,例如 Dice 相似系数 (DSC)、交并比 (IoU)、敏感度等。对于较大的分割病变,非常小的漏诊病变或小的假阳性对 DSC 值的影响不大。因此,有必要报告假阳性和假阴性的数量。评估每个病变的检测性能(检测到的连通分量数量与漏诊的数量)也将有益,因为即使 DSC 较低,自动检测所有病变中的几个体素也可以帮助医生快速找到感兴趣的区域。此外,分割/检测任务的难度通常不通过观察者间或观察者内的一致性分析来评估。
我们的研究旨在解决这些局限性。我们在来自三个队列的淋巴瘤 PET/CT 数据集上训练并验证了四个深度神经网络,涵盖两种不同的淋巴瘤亚型:DLBCL 和原发性纵隔大 B 细胞淋巴瘤 (PMBCL)。(i) 我们执行了内部测试(图像来自与训练/验证集相同的队列)和分布外或外部测试(图像来自未用于训练/验证的第四个队列)以评估我们模型的稳健性。(ii) 我们报告了使用 DSC 的性能、假阳性和假阴性的数量,并评估了性能对六种不同类型病变测量的依赖性。(iii) 我们还评估了我们的网络重现这些基本事实病变测量的能力并计算了网络在预测它们时的误差。(iv) 我们为我们的用例提出了三种类型的检测标准,并评估了模型在这些指标上的性能。 (v)最后,我们评估了观察者内和观察者之间的一致性,以衡量我们数据集上病变分割任务的难度。