paint-brush
深度神经网络检测和量化淋巴瘤病变:材料和方法经过@reinforcement
102 讀數

深度神经网络检测和量化淋巴瘤病变:材料和方法

太長; 讀書

本研究对 PET/CT 图像中淋巴瘤病变分割的四种神经网络架构进行了综合评估。
featured image - 深度神经网络检测和量化淋巴瘤病变:材料和方法
Reinforcement Technology Advancements HackerNoon profile picture
0-item

作者:

(1)Shadab Ahamed,加拿大不列颠哥伦比亚大学,加拿大不列颠哥伦比亚省温哥华,加拿大不列颠哥伦比亚省癌症研究所。他还是美国华盛顿州雷德蒙德微软 AI for Good 实验室的 Mitacs Accelerate 研究员(2022 年 5 月 - 2023 年 4 月)(电子邮件:[email protected]);

(2) 徐一熙,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(3)Claire Gowdy,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省儿童医院

(4) Joo H. O,韩国首尔圣玛丽医院

(5) Ingrid Bloise,加拿大不列颠哥伦比亚省温哥华 BC 癌症中心;

(6)Don Wilson,BC Cancer,加拿大不列颠哥伦比亚省温哥华

(7)Patrick Martineau,BC 癌症中心,加拿大不列颠哥伦比亚省温哥华;

(8) Franc¸ois Benard,BC Cancer,加拿大不列颠哥伦比亚省温哥华

(9)Fereshteh Yousefirizi,加拿大不列颠哥伦比亚省温哥华不列颠哥伦比亚省癌症研究所

(10) Rahul Dodhia,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(11)Juan M. Lavista,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(12)William B. Weeks,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(13) Carlos F. Uribe,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学

(14)Arman Rahmim,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学

链接表

结论和参考文献
III. 材料与方法

A.数据集


1) 描述:在本研究中,我们使用了一个大型、多样化和多机构的全身 PET/CT 数据集,共计 611 例病例。这些扫描来自四个回顾性队列:(i) DLBCL-BCCV:来自加拿大温哥华 BC Cancer 的 79 名 DLBCL 患者的 107 次扫描;(ii) PMBCLBCCV:来自 BC Cancer 的 69 名 PMBCL 患者的 139 次扫描;(iii) DLBCL-SMHS:来自韩国首尔圣玛丽医院的 219 名 DLBCL 患者的 220 次扫描;(iv) AutoPET 淋巴瘤:来自德国图宾根大学医院的 144 名淋巴瘤患者的 145 次扫描 ¨ [14]。表 I 给出了每个队列的扫描次数、患者年龄和性别以及 PET/CT 扫描仪制造商的附加说明。队列 (i)-(iii) 统称为内部队列。对于队列 (i) 和 (ii),UBC BC 癌症研究伦理委员会 (REB) 分别于 2019 年 10 月 30 日和 2019 年 8 月 1 日授予了伦理批准(REB 编号分别为:H19-01866 和 H19-01611)。对于队列 (iii),首尔圣玛丽医院 (REB 编号:KC11EISI0293) 于 2011 年 5 月 2 日授予了批准。到期


表 I 四个不同淋巴瘤组的患者和扫描特征。


由于我们数据的回顾性,这三个队列无需征得患者同意。队列 (iv) 来自公开的 AutoPET 挑战数据集 [14],称为外部队列。


2) 基本事实注释:来自温哥华 BC Cancer、温哥华 BC Children's Hospital 和首尔圣玛丽医院的三名核医学医师(分别称为医师 1、医师 4 和医师 5)分别对 DLBCL-BCCV、PMBCLBCCV 和 DLBCL-SMHS 队列进行了分割。此外,来自 BC Cancer 的另外两名核医学医师(医师 2 和 3)从 DLBCL-BCCV 队列中分割出 9 个病例,用于评估观察者之间的差异(第 IV-D 节)。医师 4 还从 PMBCL-BCCV 队列中重新分割出 60 个病例,用于评估观察者内的差异(第 IV-C 节)。所有这些专家分割均使用 MIM 工作站(MIM 软件,美国俄亥俄州)的半自动梯度分割工具 PETEdge+ 执行。


AutoPET 淋巴瘤 PET/CT 数据及其基本事实分割均来自癌症影像档案。这些注释由德国图宾根大学医院和德国慕尼黑大学医院的两名放射科医生手动完成。


B. 网络、工具和代码


本研究训练了四个网络,即 UNet [15]、SegResNet [16]、DynUNet [17] 和 SwinUNETR [18]。前三个是基于 3D CNN 的网络,而 SwinUNETR 是基于 Transformer 的网络。这些网络的实现改编自 MONAI 库 [19]。这些模型在装有 Ubuntu 16.04 的 Microsoft Azure 虚拟机上进行训练和验证,该虚拟机由 24 个 CPU 核心(448 GiB RAM)和 4 个 NVIDIA Tesla V100 GPU(每个 16 GiB RAM)组成。本研究的代码已根据 MIT 许可证开源,可在此存储库中找到:https://github.com/microsoft/lymphoma-segmentation-dnn。


C. 培训方法


1) 数据分割:队列 (i)-(iii)(内部队列,共 466 例)的数据被随机分割为训练集(302 次扫描)、验证集(76 次扫描)和内部测试集(88 次扫描),而 AutoPET 淋巴瘤队列(145 次扫描)仅用于外部测试。首先在训练集上训练模型,然后在验证集上选择最佳超参数和最佳模型。然后在内部和外部测试集上测试最佳模型。请注意,内部队列的分割是在患者级别进行的,以避免如果训练集和验证/测试集之间恰好共享多个患者的扫描,则训练模型的参数会过度拟合特定患者。


2) 预处理和增强:高分辨率 CT 图像(以亨斯菲尔德单位 (HU) 为单位)被下采样以匹配其对应的 PET/掩模图像的坐标。以 Bq/ml 为单位的 PET 强度值经过衰减校正并转换为 SUV。在训练期间,我们采用了一系列非随机和随机变换来增强网络的输入。非随机变换包括:(i)在 [-154, 325] HU 范围内剪切 CT 强度(代表训练和验证集中病变内 HU 的 [3, 97] 分位数),然后进行最小-最大标准化;(ii)使用 3D 边界框裁剪 PET、CT 和掩模图像中身体外部的区域;(iii)通过对 PET 和 CT 图像进行双线性插值以及对掩模图像进行最近邻插值,将图像重新采样为各向同性体素间距(2.0 mm、2.0 mm、2.0 mm)


另一方面,在每个时期开始时调用随机变换。这些包括(i)从图像中随机裁剪尺寸为(N,N,N)的立方体块,其中立方体以概率pos /(pos + neg)围绕病变体素为中心,或以概率neg /(pos + neg)围绕背景体素,(ii)沿所有三个方向在(-10,10)体素范围内平移,(iii)在(-π/15,π/15)范围内轴向旋转,以及(iv)在所有三个方向上随机缩放1.1。我们设置neg = 1,pos和N分别从UNet的超参数集{1,2,4,6,8,10,12,14,16}和{96,128,160,192,224,256}中选择[20]。经过一系列全面的消融实验,发现 pos = 2 和 N = 224 对 UNet 来说是最佳的。对于其他网络,pos 设置为 2,并选择训练期间可以容纳到 GPU 内存中的最大 N(因为不同 N 值的性能彼此之间没有显著差异,除了 N = 96 与其他 N 值相比明显更差)。因此,SegResNet、DynUNet 和 SwinUNETR 分别使用 N = 192、160 和 128 进行训练。最后,增强的 PET 和 CT 贴片进行通道连接以构建网络的最终输入。



4) 滑动窗口推理和后处理:对于验证/测试集中的图像,我们仅采用非随机变换。使用滑动窗口技术直接对 2 通道(PET 和 CT)全身图像进行预测,立方窗口大小为 (W, W, W),其中 W 是从集合 {96, 128, 160, 192, 224, 256, 288} 中选择的超参数。发现 UNet 的最佳值 W 为 224,SegResNet 和 DynUnet 的最佳值 W 为 192,SwinUNETR 的最佳值 W 为 160。将测试集预测重新采样为原始地面真实掩码的坐标,以计算评估指标。


D.评估指标


1) 分割指标:为了评估分割性能,我们使用了患者级前景 DSC、与真实前景 (FPV) 不重叠的假阳性连通分量的体积,以及与预测分割蒙版 (FNV) 不重叠的真实前景连通分量的体积 [14]。我们在内部和外部测试集上报告了这些指标的中位数和四分位距 (IQR)。我们还报告了平均 DSC 和平均值的标准差。我们选择报告中位数,因为我们的平均指标值容易出现异常值,并且我们的样本中位数对于 DSC(对于 FPV 和 FNV)总是高于(低于)样本平均值。图 1 (a) 给出了 FPV 和 FNV 的图示。



  • 2)检测指标:*除了上面讨论的分割指标之外,我们还通过三个基于检测的指标评估了我们的模型在测试集上的性能,以评估患者体内单个病变的可检测性。


图 1. (a) 两个分割指标假阳性体积 (FPV) 和假阴性体积 (FNV) 的图示。 (b) 通过三个标准定义真正检测的图示,如第 III-D.2 节所述。



虽然检测指标 FP 和 FN 的定义可能与分割指标 FPV 和 FNV 相似,但仔细研究后发现,它们并不相似(图 1 (a) 和 (b))。FPV 和 FNV 指标分别计算在完全错误位置(与真实病变无重叠)或完全遗漏的病变的所有病变的体积总和。因此,这些指标是针对每个患者的体素级别定义的。另一方面,检测指标(标准 1、2 和 3)是针对每个患者的每个病变定义的。




评估这些病变测量值的可重复性可增强分割算法结果的可信度。因此,我们进行了配对学生 t 检验分析,以确定基本事实和预测病变测量值之间分布平均值的差异(第 IV-A.1 节)。此外,还进行了类似的分析以评估观察者内变异性,涉及同一医生对同一组病例做出的两次注释(第 IV-C 节)。


图 2. 8 个代表性案例的冠状最大强度投影视图上不同网络的性能可视化。(a)-(d) 显示所有网络具有相似性能的情况,而 (e)-(h) 显示网络具有不同性能的情况,通常是由于其中一些网络预测了较大的 FPV。一些突出的 FPV 已用蓝色箭头表示。每个图右下角的数字显示 3D 预测掩模和地面实况之间的 DSC。


本文可在 arxiv 上查看根据 CC 4.0 许可。