tác giả:
(1) Shadab Ahamed, Đại học British Columbia, Vancouver, BC, Canada, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada. Anh ấy cũng là Thành viên tăng tốc của Mitacs (tháng 5 năm 2022 - tháng 4 năm 2023) với Microsoft AI cho Good Lab, Redmond, WA, USA (e-mail: [email protected]);
(2) Yixi Xu, Microsoft AI cho Good Lab, Redmond, WA, USA;
(3) Claire Gowdy, Bệnh viện Nhi đồng BC, Vancouver, BC, Canada;
(4) Joo H. O, Bệnh viện St. Mary, Seoul, Hàn Quốc;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canada;
(6) Don Wilson, BC Cancer, Vancouver, BC, Canada;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canada;
(8) Francois Benard, BC Cancer, Vancouver, BC, Canada;
(9) Fereshteh Yousefirizi, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada;
(10) Rahul Dodhia, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;
(11) Juan M. Lavista, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;
(12) William B. Weeks, Microsoft AI cho Good Lab, Redmond, WA, USA;
(13) Carlos F. Uribe, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada;
(14) Arman Rahmim, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada.
A. Bộ dữ liệu
1) Mô tả: Trong nghiên cứu này, chúng tôi đã sử dụng bộ dữ liệu PET/CT toàn thân lớn, đa dạng và đa cơ quan với tổng số 611 trường hợp. Những lần quét này đến từ bốn đoàn hệ hồi cứu: (i) DLBCL-BCCV: 107 lần quét từ 79 bệnh nhân mắc DLBCL từ BC Cancer, Vancouver (BCCV), Canada; (ii) PMBCLBCV: 139 lần quét từ 69 bệnh nhân mắc PMBCL do Ung thư BC; (iii) DLBCL-SMHS: 220 lượt quét từ 219 bệnh nhân mắc DLBCL từ Bệnh viện St. Mary, Seoul (SMHS), Hàn Quốc; (iv) Ung thư hạch AutoPET: 145 lần chụp từ 144 bệnh nhân ung thư hạch từ Bệnh viện Đại học Tubingen, Đức ¨ [14]. Mô tả bổ sung về số lần quét, tuổi và giới tính của bệnh nhân cũng như nhà sản xuất máy chụp PET/CT cho mỗi đoàn hệ được nêu trong Bảng I. Các đoàn hệ (i)-(iii) được gọi chung là đoàn hệ nội bộ. Đối với các nhóm thuần tập (i) và (ii), Ủy ban đạo đức nghiên cứu ung thư UBC BC (REB) (Số REB: H19-01866 và H19-01611 tương ứng) đã cấp phê duyệt về mặt đạo đức vào ngày 30 tháng 10 năm 2019 và ngày 1 tháng 8 năm 2019. Đối với đoàn hệ (iii), bệnh viện St. Mary's, Seoul (Số REB: KC11EISI0293) đã cấp phê duyệt vào ngày 2 tháng 5 năm 2011. Đến hạn
do tính chất hồi cứu của dữ liệu của chúng tôi, sự đồng ý của bệnh nhân đã được miễn cho ba đoàn hệ này. Đoàn hệ (iv) được lấy từ tập dữ liệu thử thách AutoPET có sẵn công khai [14] và được gọi là đoàn hệ bên ngoài.
2) Chú thích sự thật cơ bản: Các nhóm DLBCL-BCCV, PMBCLBCCV và DLBCL-SMHS được phân chia riêng biệt bởi ba bác sĩ y học hạt nhân (được gọi lần lượt là Bác sĩ 1, Bác sĩ 4 và Bác sĩ 5) từ BC Cancer, Vancouver, BC Children's Bệnh viện, Vancouver và Bệnh viện St. Mary, Seoul, tương ứng. Ngoài ra, hai bác sĩ y học hạt nhân khác (Bác sĩ 2 và 3) từ BC Cancer đã phân loại 9 trường hợp từ đoàn hệ DLBCL-BCCV được sử dụng để đánh giá mức độ biến thiên giữa những người quan sát (Phần IV-D). Bác sĩ 4 cũng phân đoạn lại 60 trường hợp từ đoàn hệ PMBCL-BCCV được sử dụng để đánh giá mức độ biến thiên của người quan sát (Phần IV-C). Tất cả các phân đoạn chuyên gia này được thực hiện bằng công cụ phân đoạn dựa trên độ dốc bán tự động có tên PETEdge+ từ máy trạm MIM (phần mềm MIM, Ohio, Hoa Kỳ).
Dữ liệu PET/CT ung thư hạch AutoPET cùng với các phân đoạn thực tế cơ bản của chúng được lấy từ Kho lưu trữ hình ảnh ung thư. Những chú thích này được thực hiện thủ công bởi hai bác sĩ X quang từ Bệnh viện Đại học Tubingen, ¨ Đức và Bệnh viện Đại học LMU, Đức.
B. Mạng, công cụ và mã
Bốn mạng đã được đào tạo về công việc này, đó là UNet [15], SegResNet [16], DynUNet [17] và SwinUNETR [18]. Ba mạng trước là mạng dựa trên CNN 3D, trong khi SwinUNETR là mạng dựa trên máy biến áp. Việc triển khai các mạng này được điều chỉnh từ thư viện MONAI [19]. Các mô hình đã được đào tạo và xác thực trên máy ảo Microsoft Azure với Ubuntu 16.04, bao gồm 24 lõi CPU (RAM 448 GiB) và 4 GPU NVIDIA Tesla V100 (mỗi lõi 16 GiB RAM). Mã cho tác phẩm này có nguồn mở theo Giấy phép MIT và có thể được tìm thấy trong kho lưu trữ này: https://github.com/microsoft/lymphoma-segmentation-dnn.
C. Phương pháp đào tạo
1) Phân chia dữ liệu: Dữ liệu từ đoàn hệ (i)-(iii) (nhóm nội bộ với tổng số 466 trường hợp) được chia ngẫu nhiên thành các bộ huấn luyện (302 lần quét), xác thực (76 lần quét) và bộ kiểm tra nội bộ (88 lần quét) , trong khi đoàn hệ ung thư hạch AutoPET (145 lần quét) chỉ được sử dụng cho thử nghiệm bên ngoài. Các mô hình lần đầu tiên được đào tạo trên tập huấn luyện và các siêu tham số tối ưu cũng như mô hình tốt nhất đã được chọn trên tập xác thực. Sau đó, các mô hình hàng đầu đã được thử nghiệm trên các bộ thử nghiệm bên trong và bên ngoài. Lưu ý rằng việc phân tách đoàn hệ nội bộ được thực hiện ở cấp độ bệnh nhân để tránh trang bị quá mức các thông số của mô hình đã đào tạo cho các bệnh nhân cụ thể nếu nhiều lần quét của họ tình cờ được chia sẻ giữa các tập huấn luyện và xác nhận/kiểm tra.
2) Tiền xử lý và tăng cường: Hình ảnh CT có độ phân giải cao (trong đơn vị Hounsfield (HU)) được lấy mẫu xuống để khớp với tọa độ của hình ảnh PET/mặt nạ tương ứng. Các giá trị cường độ PET tính bằng đơn vị Bq/ml đã được hiệu chỉnh phân rã và chuyển đổi sang SUV. Trong quá trình đào tạo, chúng tôi đã sử dụng một loạt các phép biến đổi ngẫu nhiên và không ngẫu nhiên để tăng cường đầu vào cho mạng. Các biến đổi không ngẫu nhiên bao gồm (i) cắt bớt cường độ CT trong phạm vi [-154, 325] HU (đại diện cho phân vị thứ [3, 97] của HU trong các tổn thương trên các tập huấn luyện và xác nhận) theo sau là tối thiểu-tối đa chuẩn hóa, (ii) cắt vùng bên ngoài cơ thể trong hình ảnh PET, CT và mặt nạ bằng hộp giới hạn 3D và (iii) lấy mẫu lại hình ảnh thành khoảng cách voxel đẳng hướng (2,0 mm, 2,0 mm, 2,0 mm) thông qua song tuyến tính phép nội suy cho hình ảnh PET và CT và phép nội suy lân cận gần nhất cho hình ảnh mặt nạ
Mặt khác, các phép biến đổi ngẫu nhiên được gọi vào đầu mỗi kỷ nguyên. Chúng bao gồm (i) cắt ngẫu nhiên các mảng khối có kích thước (N, N, N) từ hình ảnh, trong đó khối được đặt ở giữa xung quanh điểm ảnh ba chiều tổn thương với xác suất pos/(pos + neg) hoặc xung quanh điểm ảnh ba chiều nền có xác suất phủ định/ (pos + neg), (ii) dịch chuyển trong phạm vi (-10, 10) voxels dọc theo cả ba hướng, (iii) xoay trục trong phạm vi (−π/15, π/15) và (iv) chia tỷ lệ ngẫu nhiên tăng 1,1 theo cả ba hướng. Chúng tôi đặt neg = 1 và pos và N được chọn từ các bộ siêu tham số lần lượt là {1, 2, 4, 6, 8, 10, 12, 14, 16} và {96, 128, 160, 192, 224, 256} cho UNet [20]. Sau một loạt thử nghiệm cắt bỏ toàn diện, pos = 2 và N = 224 được cho là tối ưu cho UNet. Đối với các mạng khác, pos được đặt thành 2 và N lớn nhất có thể được đưa vào bộ nhớ GPU trong quá trình đào tạo đã được chọn (vì hiệu suất cho các giá trị khác nhau của N không khác biệt đáng kể với nhau, ngoại trừ N = 96 tệ hơn đáng kể so với các giá trị khác của N). Do đó, SegResNet, DynUNet và SwinUNETR đã được đào tạo bằng cách sử dụng N = 192, 160 và 128 tương ứng. Cuối cùng, các bản vá PET và CT tăng cường được nối kênh để tạo đầu vào cuối cùng cho mạng.
4) Suy luận cửa sổ trượt và xử lý hậu kỳ: Đối với các hình ảnh trong bộ xác thực/kiểm tra, chúng tôi chỉ sử dụng các phép biến đổi không ngẫu nhiên. Dự đoán được thực hiện trực tiếp trên hình ảnh toàn thân 2 kênh (PET và CT) bằng kỹ thuật cửa sổ trượt với cửa sổ hình khối có kích thước (W, W, W), trong đó W là siêu tham số được chọn từ bộ {96 , 128, 160, 192, 224, 256, 288}. Các giá trị tối ưu W được tìm thấy là 224 cho UNet, 192 cho SegResNet và DynUnet và 160 cho SwinUNETR. Các dự đoán của bộ kiểm tra đã được lấy mẫu lại theo tọa độ của mặt nạ sự thật cơ bản ban đầu để tính toán các số liệu đánh giá.
D. Các thước đo đánh giá
1) Số liệu phân đoạn: Để đánh giá hiệu suất phân đoạn, chúng tôi đã sử dụng DSC nền trước ở cấp độ bệnh nhân, số lượng thành phần được kết nối dương tính giả không trùng với tiền cảnh thực tế (FPV) và số lượng thành phần được kết nối tiền cảnh trong sự thật cơ bản mà không trùng lặp với mặt nạ phân đoạn dự đoán (FNV) [14]. Chúng tôi đã báo cáo phạm vi trung vị và liên vùng phân vị (IQR) cho các số liệu này trên các bộ kiểm tra nội bộ và bên ngoài. Chúng tôi cũng báo cáo DSC trung bình với độ lệch chuẩn trung bình. Chúng tôi đã chọn báo cáo các giá trị trung bình vì các giá trị số liệu trung bình của chúng tôi có xu hướng nằm ngoài các giá trị ngoại lệ và giá trị trung bình mẫu của chúng tôi luôn cao hơn (thấp hơn) đối với DSC (đối với FPV và FNV) so với giá trị trung bình của mẫu. Hình minh họa về FPV và FNV được đưa ra trong Hình 1 (a).
Mặc dù các định nghĩa cho số liệu phát hiện FP và FN có thể xuất hiện tương tự như số liệu phân đoạn FPV và FNV, nhưng khi điều tra cẩn thận, chúng không phải như vậy (Hình 1 (a) và (b)). Số liệu FPV và FNV tính toán tổng thể tích của tất cả các tổn thương được dự đoán ở một vị trí hoàn toàn sai (không trùng lặp với các tổn thương thực tế) hoặc các tổn thương hoàn toàn bị bỏ sót, tương ứng. Do đó, các số liệu này được xác định ở cấp độ voxel cho mỗi bệnh nhân. Mặt khác, các số liệu phát hiện (trong Tiêu chí 1, 2 và 3) được xác định trên cơ sở từng tổn thương cho từng bệnh nhân.
Việc đánh giá khả năng tái tạo của các biện pháp tổn thương này sẽ nâng cao độ tin cậy trong kết quả của thuật toán phân đoạn. Do đó, chúng tôi đã tiến hành phân tích t-test theo cặp của Học sinh để xác định sự chênh lệch về phương tiện phân bổ giữa thực tế cơ bản và các thước đo tổn thương được dự đoán (Phần IV-A.1). Ngoài ra, các phân tích tương tự đã được thực hiện để đánh giá tính biến thiên của người quan sát, liên quan đến hai chú thích do cùng một bác sĩ đưa ra trên cùng một nhóm trường hợp (Phần IV-C).
Giấy này là