paint-brush
深度神经网络检测和量化淋巴瘤病变:结果经过@reinforcement
128 讀數

深度神经网络检测和量化淋巴瘤病变:结果

太長; 讀書

本研究对 PET/CT 图像中淋巴瘤病变分割的四种神经网络架构进行了综合评估。
featured image - 深度神经网络检测和量化淋巴瘤病变:结果
Reinforcement Technology Advancements HackerNoon profile picture
0-item

作者:

(1)Shadab Ahamed,加拿大不列颠哥伦比亚大学,加拿大不列颠哥伦比亚省温哥华,加拿大不列颠哥伦比亚省癌症研究所。他还是美国华盛顿州雷德蒙德微软 AI for Good 实验室的 Mitacs Accelerate 研究员(2022 年 5 月 - 2023 年 4 月)(电子邮件:[email protected]);

(2) 徐一熙,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(3)Claire Gowdy,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省儿童医院

(4) Joo H. O,韩国首尔圣玛丽医院

(5) Ingrid Bloise,加拿大不列颠哥伦比亚省温哥华 BC 癌症中心;

(6)Don Wilson,BC Cancer,加拿大不列颠哥伦比亚省温哥华;

(7)Patrick Martineau,BC 癌症中心,加拿大不列颠哥伦比亚省温哥华

(8) Franc¸ois Benard,BC Cancer,加拿大不列颠哥伦比亚省温哥华

(9)Fereshteh Yousefirizi,加拿大不列颠哥伦比亚省温哥华不列颠哥伦比亚省癌症研究所

(10) Rahul Dodhia,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(11)Juan M. Lavista,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(12)William B. Weeks,微软 AI for Good 实验室,美国华盛顿州雷德蒙德;

(13) Carlos F. Uribe,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学

(14)Arman Rahmim,加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚省癌症研究所和加拿大不列颠哥伦比亚省温哥华市不列颠哥伦比亚大学。

链接表

IV. 结果

A. 分割性能


使用中位数 DSC、FPV 和 FNV 以及内部(包括按不同内部队列划分的性能)和外部测试集上的平均 DSC 评估了四个网络的性能,如表 II 所示。图 2 中展示了一些网络性能的可视化。


SegResNet 在内部和外部测试集上均具有最高的中位 DSC,中位数分别为 0.76 [0.27, 0.88] 和 0.68 [0.40, 0.78]。对于内部测试集中的各个队列,UNet 在 DLBCL-BCCV 和 PMBCL-BCCV 上均具有最佳 DSC,中位数分别为 0.72 [0.24, 0.89] 和 0.74 [0.02, 0.90],而 SegResNet 在 DLBCLSMHS 上具有最佳 DSC,为 0.78 [0.62, 0.87]。SegResNet 在内部和外部测试集上也具有最佳 FPV,值为 4.55 [1.35, 31.51] ml 和 21.46 [6.30, 66.44] ml。尽管 UNet 在 DLBCL-BCCV 和 PMBCL-BCCV 集的 DSC 中获胜,但 SegResNet 在这两个集上都具有最佳 FPV,中位数分别为 5.78 [0.61, 19.97] ml 和 2.15 [0.52, 7.18] ml,而 UNet 在 DLBCLSMHS 上具有最佳 FPV,为 8.71 [1.19, 34.1] ml。最后,SwinUNETR 在内部测试集上具有最佳中位 FNV,为 0.0 [0.0, 4.65] ml,而 UNet 在外部测试集上具有最佳中位 FNV,为 0.41 [0.0, 3.88] ml。在 DLBCL-BCCV 和 DLBCL-SMHS 中,SwinUNETR 具有最佳中位 FNV,分别为 0.09 [0.0, 3.39] ml 和 0.0 [0.0, 8.83] ml,而在 PMBCL-BCCV 中,UNet、DynUNet 和 SwinUNETR 并列,每个的中位数均为 0.0 [0.0, 1.24] ml。


首先,SegResNet 和 UNet 在未见过的外部测试集上都表现良好,平均值和中位数有所下降


表二:通过患者水平 DSC、FPV(以 ML 为单位)和 FNV(以 ML 为单位)的中值评估内部(按数据来源和淋巴瘤亚型汇总和分离)和外部测试集上的四个网络的比较。所有中值均已与其 IQRS 一起报告。测试集上的平均患者水平 DSC 值也与相应的标准偏差一起报告。


与内部测试集相比,性能分别降低了 4% 和 8% 以及 2% 和 8%。虽然 DynUNet 和 SwinUNETR 在内部测试集上的中值 DSC 明显低于 SegResNet 和 UNet(约 6-9%),但这些网络的泛化能力甚至更好,从内部测试到外部测试时,中值 DSC 分别仅下降 4% 和 6%。还值得注意的是,与外部测试集相比,所有网络在内部测试集上的 DSC IQR 都更大。此外,与外部测试集相比,所有网络在内部测试集上获得了更高的 75 分位数 DSC,而在内部测试集上获得了与外部测试集相比更低的第 25 分位数 DSC(SwinUNETR 除外,其趋势相反)。同样,对于内部测试集内的不同队列,所有网络在 DLBCL-SMHS 集上都有最高的中位数和第 25 分位数 DSC。 PMBCL-BCCV 队列的表现最差,在所有网络中具有最大的 IQR(见第 IV-A.2 节和图 6)。有趣的是,尽管 SwinUNETR 在内部和外部测试集上的 DSC 性能较低(与表现最佳的模型相比),但在内部测试集中的队列中,其 FNV 中位数最好。




在外部测试集上进行了相同的分析,如图 4 所示。对于外部测试集,唯一可重现的病变测量值是 SegResNet 和 SwinUNETR 的 SUVmean、SegResNet 的病变数量以及 DynUNet 的 TLG。这表明,网络在 DSC 或其他传统分割指标方面的表现并不总是反映它们在估计病变测量值方面的熟练程度。网络通常难以重现 SUVmax、病变数量和 Dmax 等病变测量值。SUVmax 对 SUV 摄取量高的区域中的错误假阳性预测高度敏感。同样,病变数量对错误分割的断开组件高度敏感,Dmax 对远离真实分割的假阳性预测的存在高度敏感(即使这种假阳性预测的量可能非常小,在这种情况下它对 TMTV 或 TLG 的贡献很小,如在内部测试集上所见)。




图 5. 在内部和外部组合测试集 (Ncases = 233) 上,四个网络 UNet、SegResNet、DynUNet 和 SwinUNETR 的 MAPE (%) 与真实病变测量值的关系。一般来说,网络预测病变测量值的百分比误差会随着真实病变测量值的增加而降低。特别是,对于 SUVmax (b)、病变数量 (c)、TMTV (d) 和 TLG (e) 测量,MAPE 在更高范围的真实值下会趋于稳定。


2) 真实病变测量值对网络性能的影响:首先,我们计算内部和外部测试集的真实病变测量值,并查看 UNet(基于 DSC)对每个测量值和不同数据集的性能,如图 6 所示。性能分为四个不同的类别,即 (i) 整体测试集,(ii) DSC < 0.2 的病例,(iii) 0.2 ≤ DSC ≤ 0.75 的病例,以及 (iv) 测试集中 DSC > 0.75 的病例。从图 6 (a)-(b) 可以看出,对于 DSC 较高的类别,内部队列和外部队列测试集的患者水平 SUVmean 和 SUVmean 的 (平均值和中位数) 值也较高。PMBCL-BCCV 集的整体性能较低也可以归因于整体平均值和中位数较低的 SUVmean 和 SUVmean。仅在外部测试集上观察到病变数量的类似趋势(图 6(c)),但在任何内部测试队列中均未观察到。请注意,外部测试集上的平均病变数明显高于任何内部测试集。对于 TMTV 和 TLG,所有具有较高 DSC 的队列也具有较高的平均和中位数 TMTV 或 TLG,但 DLBCL-SMHS 队列除外,其中 DSC < 0.2 类别具有最高的平均和中位数 TMTV 和 TLG。这种异常可以归因于以下事实:尽管该队列中此类病例的病变很大,但它们很微弱,如图 6(a)-(b)所示。最后,对于 Dmax,0.2 ≤ DSC ≤ 0.75 类别在所有队列中具有最高的中位数 Dmax,并且在除 DLBCL-SMHS 之外的所有队列中具有最高的平均 Dmax。 Dmax 值较低表示疾病扩散程度较低,这可能对应于仅有一个小病变的病例,或附近有多个(小或大)病变的病例。


其次,我们评估了


图 6. 不同测试集上不同地面真实病变测量值的 UNet 性能 (DSC) 变化。对于每个测试集,病变测量值分布已呈现为四个不同类别的箱线图,(i) 在整个测试集上,(ii) DSC < 0.2 的情况,(iii) 0.2 ≤ DSC ≤ 0.75,以及 (iv) DSC > 0.75。所有图的 y 轴均为对数刻度,每个箱线的平均值和中值分别表示为白色圆圈和黑色水平线。






B. 检测性能


我们根据第 III-D.2 节中定义的三种检测指标评估了网络的性能。标准 1 是最弱的检测标准,在内部和外部测试集上,它在所有网络的所有标准中具有最佳的整体检测灵敏度,其次是标准 3,然后是标准 2(图 8)。根据标准 1,UNet、SegResNet、DynUNet 和 SwinUNETR 在内部测试集上获得的中位敏感度分别为 1.0 [0.57, 1.0]、1.0 [0.59, 1.0]、1.0 [0.63, 1.0] 和 1.0 [0.66, 1.0],而在外部集上,它们分别获得 0.67 [0.5, 1.0]、0.68 [0.51, 0.89]、0.70 [0.5, 1.0] 和 0.67 [0.5, 0.86]。当然,从内部测试转到外部测试时,性能会有所下降。此外,标准 1 在 FP 指标数量上表现最佳,网络在内部测试集上分别获得 4.0 [1.0, 6.0]、3.0 [2.0, 6.0]、5.0 [2.0, 10.0] 和 7.0 [3.0, 11.25] 中值 FP,在外部测试集上分别获得 16.0 [9.0, 24.0]、10.0 [7.0, 19.0]、18.0 [10.0, 29.0] 和 31.0 [21.0, 55.0] 中值 FP。


图 8. 内部和外部测试集上四个网络通过三个检测标准获得的每位患者的中位检测灵敏度和 FP。框的顶部和底部边缘跨越 IQR,而红色水平线和白色圆圈分别代表中位数和平均值。须线长度设置为 IQR 的 1.5 倍,异常值显示为黑色菱形。


此外,作为一个更难的检测标准,标准 2 对所有网络的检测敏感度最低,在内部测试集上的中位数分别为 0.5 [0.0, 1.0]、0.56 [0.19, 1.0]、0.5 [0.17, 1.0] 和 0.55 [0.19, 1.0],在外部测试集上的中位数分别为 0.25 [0.1, 0.5]、0.25 [0.14, 0.5]、0.25 [0.13, 0.5] 和 0.27 [0.16, 0.5]。对于此标准,从内部测试集到外部测试集的中位敏感度下降与标准 1 的下降相当。同样,对于此标准,在内部测试集上每位患者的中位 FP 分别为 4.5 [2.0, 8.0]、4.0 [2.0, 8.0]、6.0 [4.0, 12.25] 和 9.0 [5.0, 13.0],在外部测试集上每位患者的中位 FP 分别为 22.0 [14.0, 36.0]、17.0 [10.0, 28.0]、25.0 [16.0, 37.0] 和 44.0 [27.0, 63.0]。尽管敏感度低于标准 1,但对于标准 2,每个患者的 FP 在内部和外部测试集上都相似(尽管 SwinUNETR 在外部测试集上标准之间的中位 FP 变化最大)。


最后,基于对病变 SUVmax 体素检测的标准 3 是标准 1 和标准 2 之间的中间标准,因为模型准确检测病变的能力随着病变 SUVmax 的增加而增加(第 IV-A.2 节)。对于此标准,网络在内部测试集上的中位敏感度分别为 0.75 [0.49, 1.0]、0.75 [0.5, 1.0]、0.78 [0.5, 1.0] 和 0.85 [0.53, 1.0],在外部测试集上的中位敏感度分别为 0.5 [0.33, 0.75]、0.53 [0.38, 0.74]、0.5 [0.37, 0.75] 和 0.5 [0.4, 0.75]。内部和外部测试集之间的敏感度下降与其他两个标准相当。同样,在内部测试集上,网络的每位患者中位 FP 分别为 4.0 [1.0, 8.0]、4.0 [2.0, 7.0]、5.0 [3.0, 11.0] 和 8.0 [4.0, 12.0],在外部测试集上,网络的每位患者中位 FP 分别为 19.0 [12.0, 29.0]、14.0 [8.0, 22.0]、22.0 [14.0, 35.0] 和 39.0 [25.0, 58.0]。


C. 观察者内部差异


为了进行观察者内变异性分析,医生 4 对整个 PMBCL-BCCV 队列(包括训练集、有效集和测试集)中的 60 个病例进行了重新分割。该子集由 35 个“简单”病例(使用 UNet 预测掩码获得 DSC > 0.75 的病例与原始基本事实)和 25 个“困难”病例(DSC < 0.2)组成。为了消除偏见,除了 DSC 标准外,这些病例的选择都是随机的,以确保在重新分割过程中不会在选择特定病例时给予任何偏好。


在“简单”和“困难”案例中,医生的原始分割和新分割之间的总体平均值和中位 DSC 分别为 0.50 ± 0.33 和 0.49 [0.20, 0.84]。这里,平均值与 UNet 的 PMBCL-BCCV 测试集性能 (0.49 ± 0.42) 相当,尽管中位数远低于 UNet (0.74 [0.02, 0.9])。“困难”案例在生成一致的基本事实方面表现出较低的可重复性,如原始和重新分割注释之间的平均和中位 DSC 所示,分别为 0.22±0.18 和 0.20 [0.05, 0.36]。相反,对于“简单”情况,平均值和中位 DSC 值分别为 0.70 ± 0.26 和 0.82 [0.65, 0.87]。




图 10. 使用三个检测标准评估 PMBCL-BCCV 队列中 35 个“易”病例和 25 个“难”病例的中位敏感度和每位患者 FP 指标的观察者内(医生 4)变异性。对于此分析,医生 4 的原始分割被视为基本事实,新分割被视为预测掩码。框的顶部和底部边缘跨越 IQR,而红色水平线和白色圆圈分别代表中位数和平均值。须线长度设置为 IQR 的 1.5 倍,异常值显示为黑色菱形。


最后,我们还对原始分割和新分割进行了检测分析,如图 10 所示。在这项分析中,我们将原始分割视为基本事实,将新分割视为预测掩模。对于标准 1,“简单”和“困难”案例的中位检测敏感度均为 1.0 [1.0, 1.0],表明医生在原始注释和新注释之间始终一致地分割至少一个体素。此标准在“简单”和“困难”案例中每位患者的中位 FP 分别为 0.0 [0.0, 2.0] 和 0.0 [0.0, 0.0],表明对于“困难”案例,医生从未在与原始掩模相比完全不同的位置分割任何病变。对于标准 2,在“简单”和“困难”病例中,敏感度分别为 0.67 [0.08, 1.0] 和 0.0 [0.0, 0.0]。这意味着,对于“困难”病例的新注释,医生从未分割过任何与原始注释中的任何病变具有 IoU > 0.5 的病变。对于此标准,在“简单”和“困难”病例中,每位患者的中位 FP 分别为 1.0 [0.5, 4.0] 和 1.0 [1.0, 1.0]。最后,对于标准 3,敏感性为 1.0 [0.84, 1.0] 和 1.0 [0.5, 1.0],而每位患者的 FP 分别为“简单”和“困难”情况的 0.0 [0.0, 3.0] 和 0.0 [0.0, 1.0]。值得注意的是,通过这三个标准评估的医生检测表现之间的趋势与第 IV-B 节中的四个网络的趋势相似(标准 1 > 标准 3 > 标准 2)。


D. 观察者间的差异


从 DLBCL-BCCV 病例集中随机选择了 9 个病例(均属于不同的患者),并由另外两名医生(医生 2 和 3)进行分割。这 9 个病例的平均 Fleiss κ 系数为 0.72,属于医生之间“高度”一致的范畴。这种程度的一致性凸显了从多个注释者那里获得的基本事实分割的可靠性和一致性。


其次,我们计算了所有 9 例病例中每两位医生之间的成对 DSC。医生 1 和 2、2 和 3 以及 1 和 3 之间的平均 DSC 分别为 0.67 ± 0.37、0.83 ± 0.20 和 0.66 ± 0.37。此外,我们为所有 9 例病例生成了三位医生的 STAPLE [24] 共识,并计算了每位医生的 STAPLE 和地面实况分割之间的 DSC。医生 1、2 和 3 与 STAPLE 地面实况的平均 DSC 分别为 0.75±0.37、0.91±0.11 和 0.90±0.16。


本文可在 arxiv 上查看根据 CC 4.0 许可。