작가:
(1) Shadab Ahamed, 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버), BC 암 연구소(캐나다 BC 주 밴쿠버). 그는 또한 미국 워싱턴 주 레드몬드에 있는 Good Lab의 Microsoft AI에서 Mitacs Accelerate Fellow(2022년 5월 - 2023년 4월)였습니다(이메일: [email protected]).
(2) Yixi Xu, Microsoft AI for Good Lab(미국 워싱턴주 레드먼드);
(3) Claire Gowdy, BC 아동 병원, 밴쿠버, BC 주, 캐나다;
(4) 주호(주호), 대한민국 서울 성모병원;
(5) 잉그리드 블로이즈(Ingrid Bloise), BC 캔서, 밴쿠버, BC, 캐나다;
(6) 돈 윌슨(Don Wilson), BC 캔서, 밴쿠버, BC, 캐나다;
(7) 패트릭 마티노(Patrick Martineau), BC 캔서, 밴쿠버, BC, 캐나다;
(8) Francois Benard, BC Cancer, 밴쿠버, BC, 캐나다;
(9) 캐나다 BC 주 밴쿠버 소재 BC 암 연구소의 Fereshteh Yousefirizi;
(10) Rahul Dodhia, Good Lab의 Microsoft AI(미국 워싱턴 주 레드먼드);
(11) Juan M. Lavista, Good Lab의 Microsoft AI, 미국 워싱턴 주 레드몬드;
(12) William B. Weeks, Good Lab을 위한 Microsoft AI, 미국 워싱턴주 레드몬드;
(13) Carlos F. Uribe, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재);
(14) Arman Rahmim, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재).
본 연구에서는 PET/CT 영상의 림프종 병변 분할을 위해 4가지 신경망 아키텍처(UNet, SegResNet, DynUNet 및 SwinUNETR)에 대한 종합적인 평가를 수행합니다. 이러한 네트워크는 611개 사례로 구성된 다양한 다중 기관 데이터 세트에서 훈련, 검증 및 테스트되었습니다. 내부 테스트(88개 사례, 총 대사 종양 부피(TMTV) 범위[0.52, 2300]ml)에서는 SegResNet이 DSC(다이스 유사성 계수) 중앙값이 0.76, FPV(위양성 부피) 중앙값이 4.55ml로 최고 성능을 보인 것으로 나타났습니다. 모든 네트워크의 FNV(위음성 부피) 중앙값은 0ml였습니다. 보이지 않는 외부 테스트 세트(TMTV 범위: [0.10, 2480]ml의 145개 사례)에서 SegResNet은 0.68의 최고 DSC 중앙값과 21.46ml의 FPV를 달성한 반면, UNet은 0.41ml의 최고 FNV를 기록했습니다. 우리는 6개 병변 측정의 재현성을 평가하고, 예측 오류를 계산하고, 이러한 병변 측정과 관련된 DSC 성능을 검사하여 분할 정확도와 임상 관련성에 대한 통찰력을 제공했습니다. 또한 우리는 병변을 식별하고, 개수를 계산하고, 대사 특성에 따라 세분화하는 임상적 필요성을 다루는 세 가지 병변 감지 기준을 도입했습니다. 또한 보다 탄력적인 분할 알고리즘 개발을 지원하기 위해 "쉬운" 사례와 "어려운" 사례를 분할하는 데 따른 어려움을 밝히는 전문 관찰자 내 가변성 분석을 수행했습니다. 마지막으로, 여러 전문가 주석자가 포함된 표준화된 지상 진실 분할 프로토콜의 중요성을 강조하는 관찰자 간 합의 평가를 수행했습니다. 코드는 https://github.com/microsoft/lymphoma-segmentationdnn 에서 확인할 수 있습니다.
색인 용어 — 양전자 방출 단층 촬영, 컴퓨터 단층 촬영, 딥 러닝, 분할, 감지, 병변 측정, 관찰자 내 변동성, 관찰자 간 변동성
F LUORODEOXYGLUCOSE(18F-FDG) PET/CT 영상은 림프종 환자 치료의 표준으로 정확한 진단, 병기 결정 및 치료 반응 평가를 제공합니다. 그러나 Deauville 점수[1]와 같은 전통적인 정성적 평가는 이미지 해석에서 관찰자의 주관성으로 인해 변동성을 초래할 수 있습니다. 평균 병변 표준화 흡수 값(SUVmean), 총 대사 종양 부피(TMTV) 및 총 병변 해당작용(TLG)과 같은 병변 측정값을 통합하는 정량적 PET 분석을 사용하면 보다 신뢰할 수 있는 예후 결정을 내릴 수 있는 유망한 경로를 제공하여 환자 예측 능력을 향상시킵니다. 더욱 정확하고 신뢰도 높은 림프종 결과를 얻을 수 있습니다[2].
PET/CT 영상의 정량적 평가는 종종 수동 병변 분할에 의존하는데, 이는 시간이 많이 걸리고 관찰자 내 및 관찰자 간 변동이 발생하기 쉽습니다. 기존의 임계값 기반 자동화 기술은 흡수가 낮은 질병을 놓치고 생리학적으로 방사성 추적자의 흡수가 높은 영역에서 위양성을 생성할 수 있습니다. 따라서 딥 러닝은 병변 분할 자동화, 변동성 감소, 환자 처리량 증가 및 잠재적으로 까다로운 병변 감지에 도움을 줄 수 있는 가능성을 제공합니다[3].
유망하긴 하지만 딥러닝 방법은 나름대로의 과제에 직면해 있습니다. CNN(컨벌루션 신경망)에는 얻기 어려울 수 있는 주석이 잘 달린 대규모 데이터세트가 필요합니다. 소규모 데이터 세트로 훈련된 모델은 일반화되지 않을 수 있습니다. 더욱이, 림프종 병변은 크기, 모양 및 대사 활동이 상당히 다양하므로 잘 정의된 사전이 없는 경우 심층 네트워크를 정확하게 훈련하는 것이 어렵습니다. 딥 러닝은 관찰자의 가변성을 줄이는 것을 목표로 하지만 훈련에 사용되는 일관성 없는 수동 주석은 오류 영속으로 이어질 수 있습니다. PET/CT 정량 분석에서 이러한 방법의 잠재력을 최대한 활용하려면 이러한 과제를 이해하는 것이 중요합니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.