paint-brush
림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 결과~에 의해@reinforcement
128 판독값

림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 결과

너무 오래; 읽다

이 연구는 PET/CT 영상에서 림프종 병변 분할을 위한 4가지 신경망 아키텍처에 대한 종합적인 평가를 수행합니다.
featured image - 림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 결과
Reinforcement Technology Advancements HackerNoon profile picture
0-item

저자:

(1) Shadab Ahamed, 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버), BC 암 연구소(캐나다 BC 주 밴쿠버). 그는 또한 미국 워싱턴 주 레드몬드에 있는 Good Lab의 Microsoft AI에서 Mitacs Accelerate Fellow(2022년 5월 - 2023년 4월)였습니다(이메일: [email protected]).

(2) Yixi Xu, Microsoft AI for Good Lab(미국 워싱턴주 레드먼드);

(3) Claire Gowdy, BC 아동 병원, 밴쿠버, BC 주, 캐나다;

(4) 주호(주호), 대한민국 서울 성모병원;

(5) 잉그리드 블로이즈(Ingrid Bloise), BC 캔서, 밴쿠버, BC, 캐나다;

(6) 돈 윌슨(Don Wilson), BC 캔서, 밴쿠버, BC, 캐나다;

(7) 패트릭 마티노(Patrick Martineau), BC 캔서, 밴쿠버, BC, 캐나다;

(8) Francois Benard, BC Cancer, 밴쿠버, BC, 캐나다;

(9) 캐나다 BC 주 밴쿠버 소재 BC 암 연구소의 Fereshteh Yousefirizi;

(10) Rahul Dodhia, Good Lab의 Microsoft AI(미국 워싱턴 주 레드먼드);

(11) Juan M. Lavista, Good Lab의 Microsoft AI, 미국 워싱턴 주 레드몬드;

(12) William B. Weeks, Good Lab을 위한 Microsoft AI, 미국 워싱턴주 레드몬드;

(13) Carlos F. Uribe, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재);

(14) Arman Rahmim, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재).

링크 표

IV. 결과

가. 분할 성능


4개 네트워크의 성능은 표 II에 표시된 대로 내부(다양한 내부 코호트에 의해 분리된 성능 포함) 및 외부 테스트 세트 모두에서 중앙값 DSC, FPV 및 FNV와 평균 DSC를 사용하여 평가되었습니다. 네트워크 성능의 일부 시각화가 그림 2에 설명되어 있습니다.


SegResNet은 내부 및 외부 테스트 세트 모두에서 중앙값이 각각 0.76[0.27, 0.88] 및 0.68[0.40, 0.78]로 가장 높은 DSC 중앙값을 가졌습니다. 내부 테스트 세트 내의 개별 코호트의 경우, UNet은 DLBCL-BCCV 및 PMBCL-BCCV 모두에서 중앙값이 각각 0.72[0.24, 0.89] 및 0.74[0.02, 0.90]로 최고의 DSC를 가졌고 SegResNet은 최고의 DSC를 가졌습니다. DLBCLSMHS에서는 0.78[0.62, 0.87]입니다. SegResNet은 또한 4.55[1.35, 31.51]ml 및 21.46[6.30, 66.44]ml 값으로 내부 및 외부 테스트 세트 모두에서 최고의 FPV를 가졌습니다. DLBCL-BCCV 및 PMBCL-BCCV 세트에 대한 DSC에서 UNet의 승리에도 불구하고 SegResNet은 각각 5.78[0.61, 19.97]ml 및 2.15[0.52, 7.18]ml의 중앙값으로 이 두 세트 모두에서 최고의 FPV를 보인 반면, UNet은 DLBCLSMHS에서 8.71[1.19, 34.1]ml의 최고 FPV입니다. 마지막으로 SwinUNETR은 내부 테스트 세트에서 0.0[0.0, 4.65]ml의 최고 FNV 중앙값을 보인 반면, UNet은 외부 테스트 세트에서 0.41[0.0, 3.88]ml의 최고 FNV 중앙값을 가졌습니다. DLBCL-BCCV 및 DLBCL-SMHS에서 SwinUNETR은 각각 0.09[0.0, 3.39]ml 및 0.0[0.0, 8.83]ml의 FNV 중앙값이 가장 높았으며, PMBCL-BCCV에서는 UNet, DynUNet 및 SwinUNETR이 각각 동점을 이루었습니다. 중앙값은 0.0 [0.0, 1.24] ml입니다.


첫째, SegResNet과 UNet은 모두 보이지 않는 외부 테스트 세트에서 잘 일반화되었으며 평균 및 중앙값이 떨어졌습니다.


표 II는 환자 수준 DSC, FPV(ML 단위) 및 FNV(ML 단위)의 중앙값을 통해 평가된 내부 네트워크(데이터 출처 및 림프종 하위 유형별로 집계 및 분리됨)와 외부 테스트 세트의 4개 네트워크를 비교합니다. 모든 중앙값은 IQRS와 함께 보고되었습니다. 테스트 세트의 평균 환자 수준 DSC 값도 해당 표준 편차와 함께 보고됩니다.


내부 테스트 세트에 비해 각각 4%, 8%, 2%, 8% 성능이 향상되었습니다. DynUNet 및 SwinUNETR의 중앙 DSC는 내부 테스트 세트에서 SegResNet 및 UNet보다 상당히 낮지만(약 6-9%), 이러한 네트워크는 중앙 DSC가 각각 4% 및 6%만 감소하여 훨씬 더 나은 일반화를 가졌습니다. , 내부 테스트에서 외부 테스트로 이동할 때. 모든 네트워크에 대한 DSC IQR이 외부 테스트 세트에 비해 내부 테스트 세트에서 더 컸다는 점도 주목할 가치가 있습니다. 또한 모든 네트워크는 외부 테스트 세트와 비교하여 내부 테스트 세트에서 더 높은 75번째 분위수 DSC를 얻은 반면, 외부 테스트 세트와 비교하여 내부 테스트에서는 더 낮은 25번째 분위수 DSC를 얻었습니다(이 추세가 반전된 SwinUNETR 제외). ). 마찬가지로 내부 테스트 세트 내의 다양한 코호트에 대해 모든 네트워크는 DLBCL-SMHS 세트에서 가장 높은 중앙값과 25번째 분위수 DSC를 가졌습니다. 모든 네트워크에서 가장 큰 IQR을 가진 PMBCL-BCCV 코호트에서 최악의 성능을 얻었습니다(섹션 IV-A.2 및 그림 6 참조). 흥미롭게도 SwinUNETR은 내부 및 외부 테스트 세트 모두에서 DSC 성능이 낮음에도 불구하고(최고 성능 모델에 비해) 내부 테스트 세트의 코호트 전체에서 FNV 중앙값이 가장 좋았습니다.




그림 4와 같이 외부 테스트 세트에 대해 동일한 분석이 수행되었습니다. 외부 테스트 세트의 경우 재현 가능한 유일한 병변 측정값은 SegResNet 및 SwinUNETR의 SUVmean, SegResNet의 병변 수, DynUNet의 TLG였습니다. 이는 DSC 또는 기타 기존 분할 측정 기준 측면에서 네트워크 성능이 병변 측정값 추정에 대한 능숙도를 항상 반영하지는 않는다는 것을 보여줍니다. SUVmax, 병변 수 및 Dmax와 같은 병변 측정은 일반적으로 네트워크에서 재현하기 어렵습니다. SUVmax는 SUV 섭취가 많은 지역에서 잘못된 거짓 긍정 예측에 매우 민감했습니다. 마찬가지로, 병변의 수는 잘못 분할된 단절된 구성 요소에 매우 민감했고, Dmax는 지상 진실 분할에서 멀리 떨어진 거짓 긍정 예측의 존재에 매우 민감했습니다(그러한 거짓 긍정 예측의 양이 매우 작을 수 있음에도 불구하고). 이 경우 내부 테스트 세트에서 볼 수 있듯이 TMTV 또는 TLG에 거의 기여하지 않습니다.




그림 5. 결합된 내부 및 외부 테스트 세트(Ncases = 233)에서 UNet, SegResNet, DynUNet 및 SwinUNETR의 4개 네트워크에 대한 지상 진실 병변 측정의 함수로서의 MAPE(%). 일반적으로 병변 측정값의 네트워크 예측에서 백분율 오류는 지상 진실 병변 측정값이 증가함에 따라 감소합니다. 특히, SUVmax(b), 병변 수(c), TMTV(d) 및 TLG(e) 측정의 경우 MAPE는 더 높은 범위의 지상 진실 값에 대해 정체됩니다.


2) 지상 진실 병변 측정값이 네트워크 성능에 미치는 영향: 먼저 내부 및 외부 테스트 세트에 대한 지상 진실 병변 측정값을 계산하고 이러한 측정값 각각과 다양한 데이터 세트에 대한 UNet(DSC 기반)의 성능을 살펴보았습니다. 성능은 (i) 전체 테스트 세트, (ii) DSC < 0.2인 경우, (iii) 0.2 ≤ DSC ≤ 0.75인 경우, (iv) 다음과 같은 네 가지 범주로 분류되었습니다. 테스트 세트에서는 DSC > 0.75입니다. 그림 6(a)-(b)에서 DSC가 더 높은 범주의 경우 (평균 및 중앙값) 환자 수준 SUVmean 및 SUVmean 값도 외부 코호트 테스트 세트뿐만 아니라 내부 코호트에서도 더 높았다는 것이 분명합니다. . PMBCL-BCCV 세트의 전체 성능이 낮은 것은 전체 평균과 SUVmean 및 SUVmean 중앙값이 낮아졌기 때문일 수도 있습니다. 유사한 경향은 외부 테스트 세트에서만 병변 수(그림 6(c))에 대해 관찰되었으며 내부 테스트 코호트에서는 관찰되지 않았습니다. 외부 테스트 세트의 평균 병변 수는 내부 테스트 세트보다 상당히 높았습니다. TMTV 및 TLG의 경우 DSC가 더 높은 모든 코호트는 평균 및 중앙값 TMTV 또는 TLG가 더 높았습니다. 단, DLBCL-SMHS 코호트를 제외하면 카테고리 DSC < 0.2의 평균 및 중앙값 TMTV 및 TLG가 가장 높았습니다. 이러한 이상은 그림 6(a)-(b)에서 볼 수 있듯이 이 코호트에 대한 이 범주의 사례에 대한 병변이 크음에도 불구하고 희미하다는 사실에 기인할 수 있습니다. 마지막으로, Dmax의 경우 카테고리 0.2 ≤ DSC ≤ 0.75는 모든 코호트에서 가장 높은 중앙값 Dmax를 갖고 DLBCL-SMHS를 제외한 모든 코호트에서 가장 높은 평균 Dmax를 가졌습니다. Dmax의 낮은 값은 질병의 확산이 더 낮다는 것을 의미하며, 이는 단지 하나의 작은 병변이 있는 경우 또는 근처에 여러 개의(작거나 큰) 병변이 있는 경우에 해당할 수 있습니다.


둘째, 우리는 성능(중앙값 DSC)을 평가했습니다.


그림 6. 다양한 테스트 세트에서 다양한 지상 진실 병변 측정값에 대한 UNet 성능(DSC) 변화. 각 테스트 세트에 대해 병변 측정 분포는 (i) 전체 테스트 세트, (ii) DSC < 0.2인 경우, (iii) 0.2 ≤ DSC ≤ 0.75 및 (iv)의 네 가지 범주의 상자 그림으로 표시되었습니다. ) DSC > 0.75. 모든 플롯의 y축은 로그 스케일로 표시되며 각 상자의 평균값과 중앙값은 각각 흰색 원과 검은색 가로선으로 표시됩니다.






B. 탐지 성능


우리는 섹션 III-D.2에 정의된 대로 세 가지 유형의 탐지 지표에 대해 네트워크 성능을 평가했습니다. 가장 약한 탐지 기준인 기준 1은 내부 및 외부 테스트 세트 모두에서 모든 네트워크에 걸쳐 모든 기준의 전체 탐지 감도가 가장 높았고, 그 다음은 기준 3, 기준 2가 그 뒤를 이었습니다(그림 8). 기준 1에서 UNet, SegResNet, DynUNet 및 SwinUNETR은 내부 테스트 세트에서 각각 1.0 [0.57, 1.0], 1.0 [0.59, 1.0], 1.0 [0.63, 1.0] 및 1.0 [0.66, 1.0]의 중앙값 감도를 얻었습니다. , 외부 세트에서는 각각 0.67 [0.5, 1.0], 0.68 [0.51, 0.89], 0.70 [0.5, 1.0] 및 0.67 [0.5, 0.86]을 얻었습니다. 당연히 내부 테스트에서 외부 테스트로 넘어가면서 성능 저하가 있었습니다. 또한 기준 1은 네트워크가 각각 4.0 [1.0, 6.0], 3.0 [2.0, 6.0], 5.0 [2.0, 10.0] 및 7.0 [3.0, 11.25] 중앙값 FP를 획득하여 FP 메트릭 수에 대해 최고의 성능을 보였습니다. 내부 테스트 세트는 각각 16.0 [9.0, 24.0], 10.0 [7.0, 19.0], 18.0 [10.0, 29.0] 및 31.0 [21.0, 55.0] 중앙값 FP는 외부 테스트 세트에 있습니다.


그림 8. 내부 및 외부 테스트 세트의 4개 네트워크에 대한 세 가지 감지 기준을 통한 환자당 중앙값 감지 감도 및 FP. 상자의 상단 및 하단 가장자리는 IQR에 걸쳐 있으며 빨간색 수평선과 흰색 원은 각각 중앙값과 평균을 나타냅니다. 수염 길이는 IQR의 1.5배로 설정되었으며 이상값은 검은색 다이아몬드로 표시되었습니다.


또한 더 어려운 감지 기준인 기준 2는 중앙값이 각각 0.5[0.0, 1.0], 0.56[0.19, 1.0], 0.5[0.17, 1.0] 및 0.55[0.19, 1.0]인 모든 네트워크에 대해 가장 낮은 감지 감도를 가졌습니다. 내부 테스트 세트에서는 각각 0.25 [0.1, 0.5], 0.25 [0.14, 0.5], 0.25 [0.13, 0.5] 및 0.27 [0.16, 0.5] 외부 테스트 세트에서. 이 기준의 경우 내부 테스트 세트에서 외부 테스트 세트로 이동할 때 민감도 중앙값의 하락은 기준 1의 것과 비슷합니다. 마찬가지로, 이 기준의 경우 환자당 중앙값 FP는 4.5[2.0, 8.0], 4.0[2.0, 8.0]이었습니다. ], 6.0 [4.0, 12.25], 9.0 [5.0, 13.0](내부 테스트 세트), 22.0 [14.0, 36.0], 17.0 [10.0, 28.0], 25.0 [16.0, 37.0], 44.0 [27.0, 63.0]을 각각 외부 테스트 세트에 적용합니다. 민감도가 기준 1보다 낮음에도 불구하고 환자당 FP는 기준 2에 대한 내부 및 외부 테스트 세트 모두에서 유사합니다(SwinUNETR에 대한 외부 테스트 세트의 기준 간 중앙값 FP의 변동이 가장 높음).


마지막으로, 병변의 SUVmax 복셀 검출을 기반으로 하는 기준 3은 기준 1과 2 사이의 중간 기준이었습니다. 왜냐하면 모델의 병변 검출 능력이 병변 SUVmax에 따라 정확하게 증가하기 때문입니다(섹션 IV-A.2). 이 기준에 대해 네트워크의 중앙값 민감도는 내부 테스트 세트에서 각각 0.75[0.49, 1.0], 0.75[0.5, 1.0], 0.78[0.5, 1.0], 0.85[0.53, 1.0]이었고 0.5[0.33, 외부 테스트 세트에서는 각각 0.75], 0.53[0.38, 0.74], 0.5[0.37, 0.75], 0.5[0.4, 0.75]입니다. 내부 테스트 세트와 외부 테스트 세트 간의 민감도 감소는 다른 두 기준과 비슷합니다. 마찬가지로 네트워크의 환자당 평균 FP는 내부 테스트 세트에서 각각 4.0[1.0, 8.0], 4.0[2.0, 7.0], 5.0[3.0, 11.0], 8.0[4.0, 12.0]이었고 19.0[12.0, 외부 테스트 세트에서는 각각 29.0], 14.0 [8.0, 22.0], 22.0 [14.0, 35.0] 및 39.0 [25.0, 58.0]입니다.


C. 관찰자 내 변동성


관찰자 내 변동성 분석을 수행하기 위해 전체 PMBCL-BCCV 코호트(트레인, 유효 및 테스트 세트 포함)의 60개 사례를 의사 4가 다시 분할했습니다. 이 하위 집합은 35개의 "쉬운" 사례(UNet 예측 마스크가 있는 사례)로 구성되었습니다. 원래의 지상 진실로 DSC > 0.75 획득) 및 25개의 "하드" 사례(DSC < 0.2). 편향을 제거하기 위해 DSC 기준을 제외하고 이러한 사례를 무작위로 선택하여 재분할 과정에서 특정 사례 선택 시 우선순위가 제공되지 않도록 했습니다.


"쉬움" 및 "어려움" 사례를 합친 것에 대한 의사의 원래 분할과 새 분할 간의 전체 평균 및 중앙값 DSC는 0.50 ± 0.33 및 0.49[0.20, 0.84]였습니다. 여기서 평균은 UNet의 PMBCL-BCCV 테스트 세트 성능(0.49 ± 0.42)과 비슷했지만 중앙값은 UNet(0.74[0.02, 0.9])보다 훨씬 낮았습니다. "하드" 사례는 원본 주석과 재분할된 주석 사이의 평균 및 중앙값 DSC로 표시되는 것처럼 일관된 기준 진실을 생성하는 데 있어 낮은 재현성을 나타냈으며, 이는 각각 0.22±0.18 및 0.20[0.05, 0.36]인 것으로 나타났습니다. 반대로, "쉬운" 경우의 경우 평균 및 중앙값 DSC 값은 각각 0.70 ± 0.26 및 0.82[0.65, 0.87]였습니다.




그림 10. PMBCL-BCCV 코호트의 "쉬운" 사례 35개와 "어려운" 사례 25개에 대한 환자 지표당 중간 민감도 및 FP에 대한 세 가지 탐지 기준을 사용하여 관찰자 내(의사 4) 변동성을 평가합니다. 이 분석을 위해 의사 4의 원래 분할은 Ground Truth로 처리되었고 새로운 분할은 예측 마스크로 처리되었습니다. 상자의 상단 및 하단 가장자리는 IQR에 걸쳐 있으며 빨간색 수평선과 흰색 원은 각각 중앙값과 평균을 나타냅니다. 수염 길이는 IQR의 1.5배로 설정되었으며 이상값은 검은색 다이아몬드로 표시되었습니다.


마지막으로 그림 10과 같이 원본 분할과 새 분할에 대한 탐지 분석도 수행했습니다. 이 분석을 위해 원본 분할을 Ground Truth로 처리하고 새 분할을 예측 마스크로 처리했습니다. 기준 1의 경우 "쉬운" 사례와 "어려운" 사례 모두에 대한 중앙값 감지 민감도는 1.0[1.0, 1.0]이었으며, 이는 의사가 항상 원본 주석과 새 주석 사이에 일관되게 하나 이상의 복셀을 분할했음을 나타냅니다. 이 기준은 "쉬운" 케이스와 "어려운" 케이스에 대해 각각 0.0[0.0, 2.0] 및 0.0[0.0, 0.0]의 환자당 중앙값 FP를 가졌으며, "어려운" 케이스의 경우 의사는 결코 병변을 분할하지 않았다는 것을 나타냅니다. 원래 마스크와 완전히 다른 위치. 기준 2의 경우 "쉬움"과 "어려움"의 경우 민감도는 각각 0.67[0.08, 1.0] 및 0.0[0.0, 0.0]이었습니다. 이는 "하드" 사례에 대한 새 주석의 경우 의사가 원래 주석의 병변과 함께 IoU > 0.5인 병변을 분할하지 않았음을 의미합니다. 이 기준에 대해 환자당 평균 FP는 "쉬움" 및 "어려움" 사례에 대해 각각 1.0[0.5, 4.0] 및 1.0[1.0, 1.0]이었습니다. 마지막으로 기준 3의 경우 민감도는 1.0[0.84, 1.0]과 1.0[0.5, 1.0]이었고 환자당 FP는 "쉬움"과 "어려움"에 대해 0.0[0.0, 3.0] 및 0.0[0.0, 1.0]이었습니다. ”의 경우가 각각 발생합니다. 이 세 가지 기준으로 평가된 의사의 탐지 성능 사이의 추세는 섹션 IV-B의 네 가지 네트워크(기준 1 > 기준 3 > 기준 2)의 추세와 유사하다는 점은 주목할 가치가 있습니다.


D. 관찰자 간 변동성


2명의 추가 의사(의사 2 및 3)에 의해 분할된 DLBCL-BCCV 세트에서 9개 사례(모두 다른 환자에 속함)가 무작위로 선택되었습니다. 이 9개 사례에 대한 평균 Fleiss κ 계수는 0.72였으며 이는 의사 간의 "실질적인" 합의 범주에 속합니다. 이러한 수준의 합의는 여러 주석자로부터 얻은 Ground Truth 분할의 신뢰성과 일관성을 강조합니다.


둘째, 우리는 9개 사례 모두에 대해 의사 두 명 사이의 쌍별 DSC를 계산했습니다. 의사 1과 2, 2와 3, 1과 3 사이의 평균 DSC는 0.67 ± 0.37, 0.83 ± 0.20, 0.66 ± 0.37이었습니다. 더욱이, 3명의 의사에 대한 STAPLE [24] 합의가 모든 9개 사례에 대해 생성되었으며, STAPLE과 Ground Truth 분할 간의 DSC가 각 의사에 대해 계산되었습니다. 의사 1, 2, 3에 대한 STAPLE Ground Truth의 평균 DSC는 각각 0.75±0.37, 0.91±0.11, 0.90±0.16이었습니다.


이 논문은 arxiv에서 사용 가능 CC 4.0 라이센스에 따라.