저자:
(1) Shadab Ahamed, 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재), BC 암 연구소(캐나다 BC 주 밴쿠버 소재). 그는 또한 미국 워싱턴 주 레드몬드에 있는 Good Lab의 Microsoft AI에서 Mitacs Accelerate Fellow(2022년 5월 - 2023년 4월)였습니다(이메일: [email protected]).
(2) Yixi Xu, Microsoft AI for Good Lab(미국 워싱턴주 레드먼드);
(3) Claire Gowdy, BC 아동 병원, 밴쿠버, BC 주, 캐나다;
(4) 주호(주호), 대한민국 서울 성모병원;
(5) 잉그리드 블로이즈(Ingrid Bloise), BC 캔서, 밴쿠버, BC, 캐나다;
(6) 돈 윌슨(Don Wilson), BC 캔서, 밴쿠버, BC, 캐나다;
(7) 패트릭 마티노(Patrick Martineau), BC 캔서, 밴쿠버, BC, 캐나다;
(8) Francois Benard, BC Cancer, 밴쿠버, BC, 캐나다;
(9) 캐나다 BC 주 밴쿠버 BC 암 연구소의 Fereshteh Yousefirizi;
(10) Rahul Dodhia, Good Lab의 Microsoft AI(미국 워싱턴주 레드먼드);
(11) Juan M. Lavista, Good Lab의 Microsoft AI, 미국 워싱턴주 레드몬드;
(12) William B. Weeks, Microsoft AI for Good Lab, 미국 워싱턴주 레드몬드;
(13) Carlos F. Uribe, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재);
(14) Arman Rahmim, BC 암 연구소(캐나다 밴쿠버 소재) 및 브리티시 컬럼비아 대학교(캐나다 BC 주 밴쿠버 소재).
A. 데이터세트
1) 설명: 이 연구에서는 총 611건의 사례가 포함된 크고 다양한 다중 기관 전신 PET/CT 데이터 세트를 사용했습니다. 이 스캔은 4개의 후향적 코호트에서 나왔습니다: (i) DLBCL-BCCV: 캐나다 밴쿠버(BCCV) BC 암 출신의 DLBCL 환자 79명으로부터의 107개 스캔; (ii) PMBCLBCCV: BC 암의 PMBCL 환자 69명으로부터의 139개 스캔; (iii) DLBCL-SMHS: 대한민국 서울성모병원(SMHS)의 DLBCL 환자 219명으로부터 얻은 220개 스캔; (iv) AutoPET 림프종: 독일 튜빙겐 대학 병원의 림프종 환자 144명으로부터 얻은 145개 스캔 ¨[14]. 각 코호트에 대한 스캔 횟수, 환자 연령 및 성별, PET/CT 스캐너 제조업체에 대한 추가 설명은 표 I에 나와 있습니다. 코호트 (i)-(iii)를 집합적으로 내부 코호트라고 합니다. 코호트 (i) 및 (ii)의 경우, 2019년 10월 30일과 2019년 8월 1일에 UBC BC 암 연구 윤리 위원회(REB)(REB 번호: 각각 H19-01866 및 H19-01611)에 의해 윤리 승인이 승인되었습니다. 코호트 (iii)에 대해서는 2011년 5월 2일 서울성모병원(REB 번호: KC11EISI0293)에서 승인을 받았습니다.
데이터의 소급적 특성으로 인해 이 세 코호트에 대한 환자 동의가 포기되었습니다. 코호트(iv)는 공개적으로 사용 가능한 AutoPET 챌린지 데이터 세트[14]에서 획득되었으며 외부 코호트라고 합니다.
2) 근거 정보 주석: DLBCL-BCCV, PMBCLBCCV 및 DLBCL-SMHS 코호트는 BC Cancer, Vancouver, BC Children's의 3명의 핵의학 의사(각각 의사 1, 의사 4 및 의사 5라고 함)에 의해 별도로 분할되었습니다. 밴쿠버 병원과 서울 성모병원. 또한 BC Cancer의 다른 핵의학 의사 2명(의사 2 및 3)은 관찰자 간 변동성을 평가하는 데 사용된 DLBCL-BCCV 코호트에서 9개 사례를 분할했습니다(섹션 IV-D). 의사 4는 관찰자 내 변동성을 평가하는 데 사용된 PMBCL-BCCV 코호트에서 60개 사례를 추가로 재분할했습니다(섹션 IV-C). 이러한 모든 전문가 세분화는 MIM 워크스테이션(MIM 소프트웨어, 미국 오하이오주)의 PETEdge+라는 반자동 그라데이션 기반 세분화 도구를 사용하여 수행되었습니다.
AutoPET 림프종 PET/CT 데이터와 해당 근거 진실 분할 데이터는 The Cancer Imaging Archive에서 획득했습니다. 이러한 주석은 독일 튀빙겐 대학 병원과 독일 LMU 대학 병원의 두 명의 방사선 전문의가 수동으로 수행했습니다.
B. 네트워크, 도구 및 코드
이 작업에서는 UNet [15], SegResNet [16], DynUNet [17] 및 SwinUNETR [18]의 4개 네트워크가 훈련되었습니다. 이전 세 개는 3D CNN 기반 네트워크인 반면 SwinUNETR은 변환기 기반 네트워크입니다. 이러한 네트워크의 구현은 MONAI 라이브러리[19]에서 채택되었습니다. 모델은 24개의 CPU 코어(448GiB RAM)와 4개의 NVIDIA Tesla V100 GPU(각각 16GiB RAM)로 구성된 Ubuntu 16.04가 설치된 Microsoft Azure 가상 머신에서 훈련되고 검증되었습니다. 이 작업의 코드는 MIT 라이선스에 따라 오픈 소스로 제공되었으며 다음 저장소에서 찾을 수 있습니다: https://github.com/microsoft/lymphoma-segmentation-dnn.
다. 훈련 방법론
1) 데이터 분할: 코호트 (i)-(iii)(총 466개 케이스의 내부 코호트)의 데이터를 훈련(302개 스캔), 검증(76개 스캔) 및 내부 테스트(88개 스캔) 세트로 무작위로 분할했습니다. 반면 AutoPET 림프종 코호트(145개 스캔)는 외부 테스트에만 사용되었습니다. 모델은 먼저 훈련 세트에서 훈련되었으며, 검증 세트에서 최적의 하이퍼파라미터와 최상의 모델이 선택되었습니다. 그런 다음 내부 및 외부 테스트 세트에서 상위 모델을 테스트했습니다. 내부 코호트의 분할은 훈련 세트와 검증/테스트 세트 간에 다중 스캔이 공유되는 경우 훈련된 모델의 매개변수가 특정 환자에게 과적합되는 것을 방지하기 위해 환자 수준에서 수행되었습니다.
2) 전처리 및 확대: 고해상도 CT 이미지(Hounsfield 장치(HU))를 해당 PET/마스크 이미지의 좌표와 일치하도록 다운 샘플링했습니다. Bq/ml 단위의 PET 강도 값은 붕괴 보정되어 SUV로 변환되었습니다. 훈련 중에 우리는 일련의 비무작위 변환과 무작위 변환을 사용하여 네트워크에 대한 입력을 강화했습니다. 무작위화되지 않은 변환에는 (i) [-154, 325] HU(훈련 및 검증 세트 전체에서 병변 내 HU의 [3, 97]번째 분위수를 나타냄) 범위의 클리핑 CT 강도와 최소-최대가 포함되었습니다. 정규화, (ii) 3D 경계 상자를 사용하여 PET, CT 및 마스크 이미지에서 신체 외부 영역을 자르고 (iii) 이중선형을 통해 이미지를 등방성 복셀 간격(2.0mm, 2.0mm, 2.0mm)으로 리샘플링합니다. PET 및 CT 이미지에 대한 보간 및 마스크 이미지에 대한 최근접 보간
반면에 무작위 변환은 매 에포크가 시작될 때 호출되었습니다. 여기에는 (i) 이미지에서 차원(N, N, N)의 입방체 패치를 무작위로 자르는 작업이 포함됩니다. 여기서 큐브는 확률 pos/(pos + neg)의 병변 복셀 주위 또는 확률 neg/의 배경 복셀 주위에 집중되어 있습니다. (pos + neg), (ii) 세 방향 모두를 따른 (-10, 10) 복셀 범위의 변환, (iii) 범위 (-π/15, π/15)의 축 회전 및 (iv) 무작위 스케일링 세 방향 모두에서 1.1씩. neg = 1로 설정하고 pos와 N은 각각 하이퍼파라미터 세트 {1, 2, 4, 6, 8, 10, 12, 14, 16} 및 {96, 128, 160, 192, 224, 256}에서 선택되었습니다. UNet [20]의 경우. 일련의 포괄적인 절제 실험 후에 pos = 2 및 N = 224가 UNet에 최적인 것으로 나타났습니다. 다른 네트워크의 경우 pos는 2로 설정되었으며 훈련 중에 GPU 메모리에 수용할 수 있는 가장 큰 N이 선택되었습니다. (N의 서로 다른 값에 대한 성능은 N = 96을 제외하고는 서로 크게 다르지 않았기 때문입니다. N의 다른 값과 비교). 따라서 SegResNet, DynUNet 및 SwinUNETR은 각각 N = 192, 160 및 128을 사용하여 교육되었습니다. 마지막으로, 증강된 PET 및 CT 패치를 채널 연결하여 네트워크에 대한 최종 입력을 구성했습니다.
4) 슬라이딩 윈도우 추론 및 후처리: 검증/테스트 세트의 이미지에 대해 무작위화되지 않은 변환만 사용했습니다. 예측은 크기(W, W, W)의 입방 창을 갖춘 슬라이딩 창 기술을 사용하여 2채널(PET 및 CT) 전신 이미지에서 직접 이루어졌습니다. 여기서 W는 세트에서 선택된 하이퍼 매개변수입니다. , 128, 160, 192, 224, 256, 288}. 최적 값 W는 UNet의 경우 224, SegResNet 및 DynUnet의 경우 192, SwinUNETR의 경우 160으로 나타났습니다. 테스트 세트 예측은 평가 지표를 계산하기 위해 원래의 실제 마스크 좌표로 리샘플링되었습니다.
D. 평가 지표
1) 분할 지표: 분할 성능을 평가하기 위해 환자 수준 전경 DSC, Ground Truth Foreground(FPV)와 겹치지 않는 거짓 긍정 연결 구성 요소의 볼륨, Ground Truth의 전경 연결 구성 요소의 볼륨을 사용했습니다. FNV(예측 분할 마스크)와 겹치지 않습니다[14]. 우리는 내부 및 외부 테스트 세트에 대한 이러한 지표에 대한 중앙값 및 사분위수 범위(IQR)를 보고했습니다. 또한 평균에 대한 표준 편차가 있는 평균 DSC를 보고합니다. 평균 메트릭 값은 이상값이 발생하기 쉽고 샘플 중앙값은 샘플 평균보다 DSC(FPV 및 FNV의 경우)에 대해 항상 더 높거나 낮았기 때문에 중앙값을 보고하기로 선택했습니다. FPV와 FNV의 그림은 그림 1(a)에 나와 있습니다.
탐지 지표 FP 및 FN에 대한 정의는 분할 지표 FPV 및 FNV와 유사하게 나타날 수 있지만 주의 깊게 조사해 보면 그렇지 않습니다(그림 1 (a) 및 (b)). FPV 및 FNV 측정항목은 각각 완전히 잘못된 위치(지상 병변과 중복되지 않음)에서 예측된 모든 병변 또는 완전히 누락된 병변의 부피 합계를 계산합니다. 따라서 이러한 측정항목은 각 환자의 복셀 수준에서 정의됩니다. 반면, 탐지 지표(기준 1, 2, 3)는 각 환자의 병변별로 정의됩니다.
이러한 병변 측정의 재현성을 평가하면 분할 알고리즘 결과에 대한 신뢰도가 향상됩니다. 따라서 우리는 기준 진실과 예측된 병변 측정 사이의 분포 수단의 차이를 확인하기 위해 쌍을 이루는 스튜던트 t-검정 분석을 수행했습니다(섹션 IV-A.1). 또한 동일한 사례 세트에 대해 동일한 의사가 작성한 두 가지 주석을 포함하여 관찰자 내 변동성을 평가하기 위해 유사한 분석이 수행되었습니다(섹션 IV-C).
이 논문은