저자:
(1) Shadab Ahamed, 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재), BC 암 연구소(캐나다 BC 주 밴쿠버 소재). 그는 또한 미국 워싱턴 주 레드몬드에 있는 Good Lab의 Microsoft AI에서 Mitacs Accelerate Fellow(2022년 5월 - 2023년 4월)였습니다(이메일: [email protected]).
(2) Yixi Xu, Microsoft AI for Good Lab(미국 워싱턴주 레드먼드);
(3) Claire Gowdy, BC 아동 병원, 밴쿠버, BC 주, 캐나다;
(4) 주호(주호), 대한민국 서울 성모병원;
(5) 잉그리드 블로이즈(Ingrid Bloise), BC 캔서, 밴쿠버, BC, 캐나다;
(6) 돈 윌슨(Don Wilson), BC 캔서, 밴쿠버, BC, 캐나다;
(7) 패트릭 마티노(Patrick Martineau), BC 캔서, 밴쿠버, BC, 캐나다;
(8) Francois Benard, BC Cancer, 밴쿠버, BC, 캐나다;
(9) 캐나다 BC 주 밴쿠버 소재 BC 암 연구소의 Fereshteh Yousefirizi;
(10) Rahul Dodhia, Good Lab의 Microsoft AI(미국 워싱턴주 레드먼드);
(11) Juan M. Lavista, Good Lab의 Microsoft AI, 미국 워싱턴 주 레드몬드;
(12) William B. Weeks, Good Lab을 위한 Microsoft AI, 미국 워싱턴주 레드몬드;
(13) Carlos F. Uribe, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재);
(14) Arman Rahmim, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재).
PET/CT 영상에서 림프종을 분할하기 위한 딥러닝 방법의 적용을 연구한 수많은 연구들이 있습니다. Yuan et al. [4]는 다중 양식 데이터의 보완 정보를 활용하기 위한 특징 융합 기법을 개발했습니다. Huet al. [5]는 분할 성능을 향상시키기 위해 체적 데이터에 대해 훈련된 3D ResUNet과 3개의 직교 방향에서 2D 슬라이스에 대해 훈련된 3개의 2D ResUNet의 조합을 융합할 것을 제안했습니다. Li et al. [6]은 림프종 검출 및 분할을 위한 감독 및 비지도 방법을 통합하는 엔드투엔드 방식으로 훈련된 DenseX-Net을 제안했습니다. Liu et al. [7]은 림프종 세분화를 위한 3D Residual-UNet 훈련을 위한 패치 기반 음성 샘플 확대 및 라벨 안내와 같은 기술을 도입했습니다. 이 모든 작업의 주요 제한점은 상대적으로 작은 크기의 데이터 세트(이미지 100개 미만)에서 개발되었다는 것입니다. 더욱이 이러한 방법의 대부분은 제안된 방법의 성능을 다른 기준선 또는 의사의 성능과 비교하지 않았습니다.
Constantinoet al. [8]은 7가지 반자동 분할 방법과 2가지 딥러닝 분할 방법의 성능을 비교한 반면 Weisman et al. [9]는 11가지 자동 분할 기술을 비교했습니다. 두 연구 모두 각각 크기가 65와 90인 더 작은 데이터 세트에서 수행되었습니다. Weismanet al. [10]은 이 연구에서도 림프종 사례가 90개에 불과했지만 자동화된 3D Deep Medic 방법의 분할 성능을 의사의 분할 성능과 비교했습니다. [10]을 제외하고, 이들 연구 중 어느 것도 분포 외 데이터 세트(예: 다른 센터에서 수집된 데이터)에 대한 모델 일반화를 보고하지 않았으며, 이는 견고성 정량화 및 외부 타당성을 제한했습니다. Jianget al. [11]은 3D UNet을 훈련하기 위해 297개의 이미지가 포함된 위의 연구에 비해 상대적으로 더 큰 데이터 세트를 사용했습니다. 심지어 다른 센터에서 수집한 117개의 이미지에 대해 배포되지 않은 테스트도 수행했습니다. 우리가 아는 한, 지금까지 보고된 딥 러닝 기반 병변 분할을 위한 가장 큰 림프종 PET/CT 데이터 세트는 Blanc-Durand et al.의 작업입니다. [12] 모델 개발에 639개 이미지를 사용하고 외부 테스트에 94개 이미지를 사용했습니다. 그러나 이 연구에서는 표준 분할 평가 측정항목만 사용하고 정확한 TMTV를 예측하는 모델의 능력을 평가했습니다. 연구[11]와 [12] 모두 해당 데이터세트가 림프종의 단일 하위 유형만을 나타내는 미만성 거대 B세포 림프종(DLBCL)으로 진단된 환자로만 구성되었다는 사실로 인해 제한됩니다.
딥러닝 기반 림프종 세분화에 대한 기존 연구의 대부분은 DSC(Dice 유사성 계수), IoU(교차점 결합), 민감도 등과 같은 일반적인 세분화 지표에 대한 성능을 보고합니다. 작은 누락 병변이나 작은 위양성은 DSC 값에 크게 영향을 미치지 않습니다. 따라서 위양성 및 위음성의 양을 보고할 필요가 있습니다. 또한 모든 병변의 몇 가지 복셀만 자동으로 감지하면 의사가 관심 영역을 신속하게 찾는 데 도움이 될 수 있으므로 병변별로(감지된 연결된 구성 요소 수와 누락된 연결 구성 요소 수) 감지 성능을 평가하는 것도 도움이 될 것입니다. DSC가 낮습니다. 더욱이 세분화/탐지 작업의 어려움은 관찰자 간 또는 관찰자 내 합의 분석을 통해 평가되지 않는 경우가 많습니다.
우리의 연구는 이러한 한계를 해결하는 것을 목표로 합니다. 우리는 림프종의 두 가지 하위 유형인 DLBCL과 원발성 종격동 거대 B세포 림프종(PMBCL)을 포함하는 3개 코호트의 림프종 PET/CT 데이터 세트에 대한 4개의 심층 신경망을 훈련하고 검증했습니다. (i) 우리는 모델의 견고성을 평가하기 위해 내부(훈련/검증 세트와 동일한 집단에서 가져온 이미지) 및 배포 외 또는 외부(훈련/검증에 사용되지 않은 네 번째 집단의 이미지) 테스트를 모두 수행했습니다. (ii) 우리는 DSC, 위양성 및 음성의 양을 사용하여 성능을 보고하고 6가지 다른 유형의 병변 측정에 대한 성능 의존성을 평가했습니다. (iii) 우리는 또한 이러한 지상 진실 병변 측정값을 재현하고 이를 예측할 때 네트워크의 오류를 계산하는 네트워크의 능력을 평가했습니다. (iv) 우리는 사용 사례에 대한 세 가지 유형의 탐지 기준을 제안하고 이러한 측정 항목에 대한 모델 성능을 평가했습니다. (v) 마지막으로, 우리는 데이터 세트에 대한 병변 분할 작업의 어려움을 측정하기 위해 관찰자 내 및 관찰자 간 합의를 평가했습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.