paint-brush
림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 토론~에 의해@reinforcement

림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 토론

너무 오래; 읽다

이 연구는 PET/CT 영상에서 림프종 병변 분할을 위한 4가지 신경망 아키텍처에 대한 종합적인 평가를 수행합니다.
featured image - 림프종 병변을 탐지하고 정량화하기 위한 심층 신경망: 토론
Reinforcement Technology Advancements HackerNoon profile picture
0-item

저자:

(1) Shadab Ahamed, 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재), BC 암 연구소(캐나다 BC 주 밴쿠버 소재). 그는 또한 미국 워싱턴 주 레드몬드에 있는 Good Lab의 Microsoft AI에서 Mitacs Accelerate Fellow(2022년 5월 - 2023년 4월)였습니다(이메일: [email protected]).

(2) Yixi Xu, Microsoft AI for Good Lab(미국 워싱턴주 레드먼드);

(3) Claire Gowdy, BC 아동 병원, 밴쿠버, BC 주, 캐나다;

(4) 주호(주호), 대한민국 서울 성모병원;

(5) 잉그리드 블로이즈(Ingrid Bloise), BC 캔서, 밴쿠버, BC, 캐나다;

(6) 돈 윌슨(Don Wilson), BC 캔서, 밴쿠버, BC, 캐나다;

(7) 패트릭 마티노(Patrick Martineau), BC 캔서, 밴쿠버, BC, 캐나다;

(8) Francois Benard, BC Cancer, 밴쿠버, BC, 캐나다;

(9) 캐나다 BC 주 밴쿠버 BC 암 연구소의 Fereshteh Yousefirizi;

(10) Rahul Dodhia, Good Lab의 Microsoft AI(미국 워싱턴주 레드먼드);

(11) Juan M. Lavista, Good Lab의 Microsoft AI, 미국 워싱턴주 레드몬드;

(12) William B. Weeks, Microsoft AI for Good Lab, 미국 워싱턴주 레드몬드;

(13) Carlos F. Uribe, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재);

(14) Arman Rahmim, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재).

링크 표

V. 토론

이 작업에서 우리는 세 가지 다른 코호트에서 가져온 PET/CT 데이터 세트에서 림프종 병변의 분할을 자동화하기 위해 네 가지 서로 다른 신경망 아키텍처를 훈련하고 평가했습니다. 모델 성능을 평가하기 위해 우리는 이 세 가지 코호트에서 발생한 내부 테스트 세트에 대한 포괄적인 평가를 수행했으며 SegResNet과 UNet이 DSC(평균 및 중앙값) 및 중앙값 FPV 측정 항목에서 DynUNet 및 SwinUNETR보다 뛰어난 성능을 보인 반면 SwinUNETR은 중앙값 FNV가 가장 높은 것으로 나타났습니다. 내부 평가 외에도 우리는 대규모 공개 림프종 PET/CT 데이터 세트에 대한 외부 배포 외 테스트 단계를 포함하도록 분석을 확장했습니다. 이 외부 테스트 세트에서도 SegResNet은 DSC 및 FPV 지표 측면에서 최고의 성능을 발휘하여 견고성과 효율성을 강조했으며 UNet은 FNV에서 최고의 성능을 보였습니다.


SegResNet과 UNet은 더 큰 크기의 패치, 특히 각각 (224, 224, 224) 및 (192, 192, 192)에서 훈련된 반면, DynUNet 및 SwinUNETR은 상대적으로 작은 패치, 즉 (160, 각각 160, 160) 및 (128, 128, 128). 훈련 중에 더 큰 패치 크기를 활용하면 신경망이 데이터에 대한 보다 광범위한 맥락적 이해를 포착할 수 있으므로 분할 작업의 성능이 향상됩니다[17]. 이 관찰은 SegResNet 및 UNet의 뛰어난 성능이 훈련 중에 더 큰 패치 크기에 노출되었기 때문에 발생할 수 있는 결과와 일치합니다. 더욱이 더 큰 배치 크기는 기울기를 정확하게 추정하여 강력한 훈련을 가능하게 하지만[17], 우리가 선택한 훈련 패치 크기를 사용하면 메모리 제한으로 인해 nb > 1로 SegResNet, DynUNet 및 SwinUNETR을 훈련할 수 없었습니다(nb = 8을 수용할 수 있음에도 불구하고). UNet의 경우). 따라서 네트워크 간의 공정한 비교를 위해 모든 네트워크는 nb = 1로 훈련되었습니다. 더 큰 패치 및 미니 배치 크기에서 DynUNet 및 SwinUNETR을 훈련할 수 없는 것은 주로 계산 리소스 제한 때문이라는 점에 주목할 가치가 있습니다. 그러나 이러한 제한은 더 큰 패치와 배치 크기로 이러한 모델을 교육하면 잠재적으로 세분화 정확도가 더욱 향상될 수 있는 향후 연구의 길을 제시합니다.


우리는 병변 측정의 재현성을 평가하고 내부 테스트 세트에서 TMTV와 TLG가 모든 네트워크에서 재현 가능한 반면 Dmax는 어떤 네트워크에서도 재현 가능하지 않음을 발견했습니다. SUVmean은 UNet을 제외한 모든 네트워크에서 재현 가능했고, SUVmax는 SegResNet에서만 재현 가능했으며 병변 수는 UNet 및 SegResNet에서만 재현 가능했습니다. 외부 테스트 세트에서는 재현성이 더 제한적이었습니다. SegResNet과 SwinUNETR에서는 SUVmean만 재현 가능하고 SegResNet에서는 병변 수, DynUNet에서는 TLG가 재현 가능했습니다(그림 3 및 4). 또한 MAPE를 사용하여 병변 측정 값을 추정할 때 네트워크의 오류를 정량화하고 MAPE가 일반적으로 결합된 내부 및 외부 테스트 세트에서 병변 측정 값(모든 병변 측정에 대해)의 함수로 감소한다는 것을 발견했습니다(그림 5). 네트워크는 일반적으로 지상 진실 병변 측정값이 매우 작을 때 정확한 예측에 심각한 오류를 범했습니다. 우리는 또한 일반적으로 더 큰 환자 수준 병변 SUVmean, SUVmean, TMTV 및 TLG가 있는 이미지 세트에서 네트워크가 더 높은 중앙값 DSC를 예측할 수 있음을 보여주었습니다. 일반적으로 정체됩니다. 반면, DSC 성능은 병변 수에 크게 영향을 받지 않는 반면, Dmax가 높은 이미지 세트의 경우 일반적으로 모든 네트워크에서 성능이 감소합니다(그림 7).


PET/CT 데이터의 대부분은 의료 기관이 개인적으로 소유하고 있기 때문에 연구자가 딥 러닝 모델을 훈련하고 테스트하기 위해 다양한 데이터 세트에 액세스하는 데 상당한 어려움을 겪고 있습니다. 이러한 시나리오에서는 모델의 해석성을 향상시키기 위해 연구자가 모델의 성능이 데이터 세트 특성에 어떻게 의존하는지 조사하는 것이 중요합니다. 모델 성능이 이미지/병변 특성과 어떻게 연관되는지 연구함으로써 연구자들은 모델의 강점과 한계에 대한 통찰력을 얻을 수 있습니다[13].


분할 성능 평가와 함께 기준 1, 2, 3으로 표시된 세 가지 고유한 감지 기준도 도입했습니다. 이러한 기준은 특정 목적, 즉 병변별로 네트워크 성능을 평가하는 데 사용되었습니다. 이는 주로 네트워크의 복셀 수준 정확도에 초점을 맞춘 분할 성능 평가와 대조됩니다. 이러한 감지 기준을 도입하는 근거는 단순히 복셀 수준에서 병변 경계를 묘사하는 능력을 평가하는 것이 아니라 네트워크가 이미지 내 병변을 얼마나 잘 식별하고 감지하는지 평가할 필요성에 있습니다. 병변의 존재를 감지하는 능력(기준 1)은 잠재적인 건강 문제가 확인되거나 누락되는지 여부에 직접적인 영향을 미치기 때문에 매우 중요합니다. 병변의 단일 복셀이라도 감지하면 추가 조사 또는 치료 계획이 촉발될 수 있습니다. 병변 수와 정확한 위치 파악(기준 2)은 치료 계획 및 질병 진행 모니터링에 중요합니다. 병변이 존재한다는 사실뿐 아니라 병변의 개수와 위치를 아는 것은 치료 결정에 큰 영향을 미칠 수 있습니다. 병변 대사 특성(SUVmax)을 기반으로 병변 분할에 초점을 맞춘 기준 3은 임상 관련성에 추가적인 계층을 추가합니다.


이러한 탐지 측정항목을 사용하여 모든 네트워크에 대한 민감도 및 FP 탐지를 평가하고 탐지 기준에 따라 DSC 성능이 낮은 경우에도 네트워크가 매우 높은 민감도를 가질 수 있음을 보여주었습니다. 이러한 다양한 탐지 기준이 주어지면 특정 임상 사용 사례에 따라 훈련된 모델을 선택할 수 있습니다. 예를 들어, 일부 사용 사례에서는 정확한 병변 경계를 분할하는 데 지나치게 주의하지 않고도 모든 병변을 감지할 수 있는 반면, 일부 사용 사례에서는 보다 강력한 경계 묘사를 찾을 수 있습니다.


또한, 우리는 "쉬운" 케이스와 "어려운" 케이스를 모두 분할할 때 의사의 관찰자 내 변동성을 평가하여 "어려운" 하위 집합에서 케이스를 일관되게 분할하는 데 어려움이 있음을 지적했습니다. 림프종 병변 분할에서는 병변의 크기, 모양, 위치 또는 이미지 품질과 같은 요인으로 인해 사례의 난이도가 달라질 수 있습니다. 숙련된 의사라도 분할하기가 지속적으로 어려운 사례를 식별함으로써 분할 작업의 복잡성과 미묘한 차이에 대한 통찰력을 얻었습니다. 마지막으로 우리는 세 명의 의사 사이의 관찰자 간 합의도 평가했습니다. 세 명의 의사 간에 상당한 수준의 합의가 있었던 것으로 추론되었으나 평가는 9개 사례에 대해서만 수행되어 통계적 검정력이 낮았습니다.


의료 영상 분할에서 Ground Truth의 일관성을 향상하려면 잘 정의된 프로토콜이 필수적입니다. 이 프로토콜은 PET/CT 이미지 내의 관심 영역(ROI) 또는 병변을 묘사하는 데 독립적으로 여러 전문 의사를 참여시켜야 합니다. 한 명의 의사가 코호트를 독립적으로 분할하는 대신 여러 주석자가 서로의 작업에 대한 지식 없이 동일한 이미지를 분할해야 합니다. 의사 간의 불일치나 불일치는 촉진된 토론, 임상 정보 검토 또는 이미지 명확화와 같은 구조화된 접근 방식을 통해 해결될 수 있습니다. 이 강력한 지상 진실 프로세스는 관찰자 간 합의 정확도를 향상시키고 이러한 주석에 의존하는 연구 결과 및 임상 적용의 타당성을 강화합니다.


이 논문은 arxiv에서 사용 가능 CC 4.0 라이센스에 따라.