tác giả:  (1) Shadab Ahamed, Đại học British Columbia, Vancouver, BC, Canada, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada. Anh ấy cũng là Thành viên tăng tốc của Mitacs (tháng 5 năm 2022 - tháng 4 năm 2023) với Microsoft AI cho Good Lab, Redmond, WA, USA (e-mail: shadabahamed1996@gmail.com);  (2) Yixi Xu, Microsoft AI cho Good Lab, Redmond, WA, USA;  (3) Claire Gowdy, Bệnh viện Nhi đồng BC, Vancouver, BC, Canada;  (4) Joo H. O, Bệnh viện St. Mary, Seoul, Hàn Quốc;  (5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canada;  (6) Don Wilson, BC Cancer, Vancouver, BC, Canada;  (7) Patrick Martineau, BC Cancer, Vancouver, BC, Canada;  (8) Francois Benard, BC Cancer, Vancouver, BC, Canada;  (9) Fereshteh Yousefirizi, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada;  (10) Rahul Dodhia, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;  (11) Juan M. Lavista, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;  (12) William B. Weeks, Microsoft AI cho Good Lab, Redmond, WA, USA;  (13) Carlos F. Uribe, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada;  (14) Arman Rahmim, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada.  Bảng liên kết   Tóm tắt và giới thiệu   Công việc có liên quan   Nguyên liệu và phương pháp   Kết quả   Cuộc thảo luận   Kết luận và tài liệu tham khảo  IV. KẾT QUẢ   A. Hiệu suất phân khúc  Hiệu suất của bốn mạng được đánh giá bằng cách sử dụng DSC, FPV và FNV trung bình và DSC trung bình trên cả nội bộ (bao gồm hiệu suất được phân tách theo các nhóm nội bộ khác nhau) và các bộ thử nghiệm bên ngoài, như được hiển thị trong Bảng II. Một số hình dung về hiệu suất của mạng đã được minh họa trong Hình 2,  SegResNet có DSC trung bình cao nhất trên cả bộ thử nghiệm bên trong và bên ngoài với giá trị trung bình lần lượt là 0,76 [0,27, 0,88] và 0,68 [0,40, 0,78]. Đối với các nhóm riêng lẻ trong bộ thử nghiệm nội bộ, UNet có DSC tốt nhất trên cả DLBCL-BCCV và PMBCL-BCCV với giá trị trung bình lần lượt là 0,72 [0,24, 0,89] và 0,74 [0,02, 0,90], trong khi SegResNet có DSC tốt nhất là 0,78 [0,62, 0,87] trên DLBCLSMHS. SegResNet cũng có FPV tốt nhất trên cả bộ thử nghiệm bên trong và bên ngoài với các giá trị 4,55 [1,35, 31,51] ml và 21,46 [6,30, 66,44] ml. Mặc dù UNet giành chiến thắng trên DSC cho các bộ DLBCL-BCCV và PMBCL-BCCV, SegResNet có FPV tốt nhất trên cả hai bộ này với giá trị trung bình lần lượt là 5,78 [0,61, 19,97] ml và 2,15 [0,52, 7,18] ml, trong khi UNet có FPV tốt nhất là 8,71 [1,19, 34,1] ml trên DLBCLSMHS. Cuối cùng, SwinUNETR có FNV trung bình tốt nhất là 0,0 [0,0, 4,65] ml trên bộ thử nghiệm nội bộ, trong khi UNet có FNV trung bình tốt nhất là 0,41 [0,0, 3,88] ml trên bộ thử nghiệm bên ngoài. Trên DLBCL-BCCV và DLBCL-SMHS, SwinUNETR có FNV trung bình tốt nhất lần lượt là 0,09 [0,0, 3,39] ml và 0,0 [0,0, 8,83] ml, trong khi trên PMBCL-BCCV, UNet, DynUNet và SwinUNETR đều bằng nhau, mỗi bên đều bằng nhau với giá trị trung bình là 0,0 [0,0, 1,24] ml.  Thứ nhất, cả SegResNet và UNet đều khái quát hóa tốt trên tập thử nghiệm bên ngoài không nhìn thấy được, với mức trung bình và trung vị giảm   hiệu suất lần lượt là 4% & 8% và 2% & 8% so với bộ thử nghiệm nội bộ. Mặc dù DSC trung bình của DynUNet và SwinUNETR thấp hơn đáng kể so với SegResNet và UNet trong bộ thử nghiệm nội bộ (khoảng 6-9%), các mạng này thậm chí còn có khả năng khái quát hóa tốt hơn với mức giảm DSC trung bình lần lượt chỉ 4% và 6%. , khi đi từ thử nghiệm nội bộ đến thử nghiệm bên ngoài. Cũng cần lưu ý rằng DSC IQR cho tất cả các mạng trên bộ thử nghiệm nội bộ đều lớn hơn so với bộ thử nghiệm bên ngoài. Ngoài ra, tất cả các mạng đều thu được DSC phân vị thứ 75 cao hơn trên bộ thử nghiệm nội bộ so với bộ thử nghiệm bên ngoài, trong khi thu được DSC phân vị thứ 25 trong thử nghiệm nội bộ thấp hơn so với bộ thử nghiệm bên ngoài (ngoại trừ SwinUNETR khi xu hướng này bị đảo ngược ). Tương tự, đối với các nhóm khác nhau trong bộ thử nghiệm nội bộ, tất cả các mạng đều có DSC phân vị thứ 25 và trung vị cao nhất trên bộ DLBCL-SMHS. Hiệu suất kém nhất đạt được trên nhóm PMBCL-BCCV có IQR lớn nhất trên tất cả các mạng (xem Phần IV-A.2 và Hình 6). Điều thú vị là, mặc dù có hiệu suất thấp hơn trên DSC trên cả bộ thử nghiệm bên trong và bên ngoài (so với các mô hình hoạt động tốt nhất), SwinUNETR có giá trị FNV trung bình tốt nhất trên các nhóm thuần tập trong bộ thử nghiệm nội bộ.   Phân tích tương tự được thực hiện trên bộ thử nghiệm bên ngoài, như trong Hình 4. Đối với bộ thử nghiệm bên ngoài, các thước đo tổn thương duy nhất có thể tái tạo là giá trị trung bình SUV theo SegResNet và SwinUNETR, số lượng tổn thương theo SegResNet và TLG của DynUNet. Điều này cho thấy hiệu suất của mạng theo DSC hoặc các số liệu phân đoạn truyền thống khác không phải lúc nào cũng phản ánh khả năng ước tính các biện pháp tổn thương của chúng. Các biện pháp tổn thương như SUVmax, số lượng tổn thương và Dmax thường khó được mạng tái tạo. SUVmax rất nhạy cảm với những dự đoán dương tính sai không chính xác ở những khu vực có tỷ lệ sử dụng SUV cao. Tương tự, số lượng tổn thương rất nhạy cảm với các thành phần bị ngắt kết nối được phân đoạn không chính xác và Dmax rất nhạy cảm với sự hiện diện của dự đoán dương tính giả cách xa các phân đoạn thực tế (mặc dù số lượng dự đoán dương tính giả như vậy có thể rất nhỏ, trong trường hợp đó nó sẽ đóng góp rất ít cho TMTV hoặc TLG, như đã thấy trên bộ thử nghiệm nội bộ).     Đầu tiên, chúng tôi tính toán các biện pháp đo lường thiệt hại thực tế cơ bản cho các bộ kiểm tra bên trong và bên ngoài, đồng thời xem xét hiệu suất của UNet (dựa trên DSC) cho từng biện pháp này và các bộ dữ liệu khác nhau, như được trình bày trong Hình 6. Hiệu suất được chia thành bốn loại khác nhau, đó là (i) bộ thử nghiệm tổng thể, (ii) các trường hợp có DSC < 0,2, (iii) các trường hợp có 0,2 ≤ DSC ≤ 0,75 và (iv) các trường hợp có DSC > 0,75 trong tập kiểm tra. Từ Hình 6 (a)-(b), rõ ràng là đối với các danh mục có DSC cao hơn, các giá trị của SUVmean và SUVmean ở cấp độ bệnh nhân (trung bình và trung bình) cũng cao hơn đối với đoàn hệ nội bộ cũng như các bộ thử nghiệm đoàn hệ bên ngoài . Hiệu suất tổng thể thấp hơn trên bộ PMBCL-BCCV cũng có thể là do giá trị trung bình tổng thể và giá trị SUV trung bình và giá trị SUV trung bình thấp hơn. Xu hướng tương tự chỉ được quan sát thấy đối với số lượng tổn thương (Hình 6 (c)) trên bộ thử nghiệm bên ngoài, chứ không phải trên bất kỳ nhóm thử nghiệm nội bộ nào. Lưu ý rằng số lượng tổn thương trung bình trên bộ thử nghiệm bên ngoài cao hơn đáng kể so với bất kỳ bộ thử nghiệm nội bộ nào. Đối với TMTV và TLG, tất cả các đoàn hệ có DSC cao hơn cũng có TMTV hoặc TLG trung bình và trung bình cao hơn, ngoại trừ đoàn hệ DLBCL-SMHS, trong đó danh mục DSC < 0,2 có TMTV và TLG trung bình và trung bình cao nhất. Sự bất thường này có thể là do thực tế là mặc dù lớn nhưng các tổn thương ở các trường hợp thuộc loại này đối với đoàn hệ này rất mờ nhạt, như được hiển thị trong Hình 6 (a)-(b). Cuối cùng, đối với Dmax, loại 0,2 ≤ DSC ≤ 0,75 có Dmax trung bình cao nhất trên tất cả các đoàn hệ và Dmax trung bình cao nhất trên tất cả các đoàn hệ ngoại trừ DLBCL-SMHS. Giá trị Dmax thấp hơn biểu thị mức độ lây lan của bệnh thấp hơn, có thể tương ứng với các trường hợp chỉ có một tổn thương nhỏ hoặc một số tổn thương (nhỏ hoặc lớn) nằm gần đó. 2) Ảnh hưởng của các giá trị đo lường tổn thương thực tế cơ bản đến hiệu suất mạng:  Thứ hai, chúng tôi đã đánh giá hiệu suất (DSC trung bình) của    B. Hiệu suất phát hiện  Chúng tôi đã đánh giá hiệu suất của mạng dựa trên ba loại số liệu phát hiện, như được xác định trong Phần III-D.2. Tiêu chí 1, là tiêu chí phát hiện yếu nhất, có độ nhạy phát hiện tổng thể tốt nhất trong tất cả các tiêu chí trên tất cả các mạng trên cả bộ thử nghiệm bên trong và bên ngoài, tiếp theo là Tiêu chí 3 và sau đó là Tiêu chí 2 (Hình 8). Từ Tiêu chí 1, UNet, SegResNet, DynUNet và SwinUNETR thu được độ nhạy trung bình lần lượt là 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] và 1,0 [0,66, 1,0] trên bộ thử nghiệm nội bộ , trong khi ở bộ bên ngoài, họ thu được lần lượt là 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] và 0,67 [0,5, 0,86]. Đương nhiên, hiệu suất đã giảm khi chuyển từ thử nghiệm nội bộ sang thử nghiệm bên ngoài. Hơn nữa, Tiêu chí 1 có hiệu suất tốt nhất về số lượng chỉ số FP với các mạng lần lượt đạt được FP trung bình 4.0 [1.0, 6.0], 3.0 [2.0, 6.0], 5.0 [2.0, 10.0] và 7.0 [3.0, 11.25] trên bộ thử nghiệm nội bộ và FP trung bình lần lượt là 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] và 31,0 [21,0, 55,0] trên bộ thử nghiệm bên ngoài.   Hơn nữa, là tiêu chí phát hiện khó hơn, Tiêu chí 2 có độ nhạy phát hiện thấp nhất đối với tất cả các mạng với giá trị trung bình lần lượt là 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] và 0,55 [0,19, 1,0] trên bộ kiểm tra nội bộ và 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] và 0,27 [0,16, 0,5] tương ứng trên bộ kiểm tra bên ngoài. Đối với tiêu chí này, mức giảm độ nhạy trung bình khi chuyển từ bộ xét nghiệm bên trong sang bên ngoài có thể so sánh với tiêu chí của Tiêu chí 1. Tương tự, đối với tiêu chí này, FP trung bình trên mỗi bệnh nhân là 4,5 [2,0, 8,0], 4,0 [2,0, 8,0] ], 6,0 [4,0, 12,25] và 9,0 [5,0, 13,0] tương ứng trên bộ thử nghiệm nội bộ và 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] và 44,0 [27,0, 63.0] tương ứng trên bộ thử nghiệm bên ngoài. Mặc dù độ nhạy thấp hơn trong Tiêu chí 1, nhưng FP trên mỗi bệnh nhân là tương tự nhau trên cả bộ xét nghiệm nội bộ và bên ngoài đối với Tiêu chí 2 (mặc dù mức độ biến thiên của FP trung bình giữa các tiêu chí trên bộ xét nghiệm bên ngoài đối với SwinUNETR là cao nhất).  Cuối cùng, Tiêu chí 3, dựa trên việc phát hiện điểm ảnh ba chiều SUVmax của các tổn thương, là tiêu chí trung gian giữa Tiêu chí 1 và 2, vì khả năng phát hiện các tổn thương của mô hình tăng lên cùng với tổn thương SUVmax (Phần IV-A.2). Đối với tiêu chí này, các mạng có độ nhạy trung bình lần lượt là 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] và 0,85 [0,53, 1,0] trên bộ thử nghiệm nội bộ và 0,5 [0,33, 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] và 0,5 [0,4, 0,75] tương ứng trên bộ kiểm tra bên ngoài. Sự giảm độ nhạy giữa các bộ thử nghiệm bên trong và bên ngoài có thể so sánh với hai tiêu chí còn lại. Tương tự, các mạng có FP trung bình trên mỗi bệnh nhân lần lượt là 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] và 8,0 [4,0, 12,0] trên bộ thử nghiệm nội bộ và 19,0 [12,0, 29.0], 14.0 [8.0, 22.0], 22.0 [14.0, 35.0] và 39.0 [25.0, 58.0] lần lượt trên bộ thử nghiệm bên ngoài.   C. Sự biến đổi của người quan sát nội bộ  Để thực hiện phân tích mức độ biến thiên của người quan sát, 60 trường hợp từ toàn bộ nhóm PMBCL-BCCV (bao gồm các tập hợp xe lửa, hợp lệ và kiểm tra) đã được Bác sĩ 4 phân đoạn lại. Tập hợp con này bao gồm 35 trường hợp “dễ” (các trường hợp có mặt nạ dự đoán UNet đạt DSC > 0,75 với sự thật cơ bản ban đầu) và 25 trường hợp “khó” (DSC < 0,2). Để loại bỏ sai lệch, việc lựa chọn các trường hợp này, ngoại trừ tiêu chí DSC, được chọn ngẫu nhiên, đảm bảo không có ưu tiên nào trong việc lựa chọn các trường hợp cụ thể trong quá trình phân đoạn lại.  Giá trị trung bình tổng thể và DSC trung bình giữa các phân đoạn ban đầu và mới của bác sĩ đối với các trường hợp “dễ” và “khó” cộng lại là 0,50 ± 0,33 và 0,49 [0,20, 0,84]. Ở đây, giá trị trung bình tương đương với hiệu suất của bộ thử nghiệm PMBCL-BCCV (0,49 ± 0,42) của UNet, mặc dù giá trị trung bình thấp hơn nhiều so với UNet (0,74 [0,02, 0,9]). Các trường hợp “cứng” thể hiện khả năng tái tạo thấp hơn trong việc tạo ra sự thật cơ bản nhất quán, được biểu thị bằng DSC trung bình và trung vị giữa các chú thích gốc và chú thích được phân đoạn lại, được tìm thấy lần lượt là 0,22±0,18 và 0,20 [0,05, 0,36]. Ngược lại, đối với các trường hợp “dễ”, giá trị DSC trung bình và trung vị lần lượt là 0,70 ± 0,26 và 0,82 [0,65, 0,87].   Cuối cùng, chúng tôi cũng thực hiện phân tích phát hiện trên phân đoạn ban đầu và phân đoạn mới, như minh họa trong Hình 10. Đối với phân tích này, chúng tôi coi phân đoạn ban đầu là sự thật cơ bản và phân đoạn mới như mặt nạ dự đoán. Đối với Tiêu chí 1, độ nhạy phát hiện trung bình trên cả trường hợp “dễ” và “khó” là 1,0 [1,0, 1,0], cho biết bác sĩ luôn phân đoạn ít nhất một điểm ảnh ba chiều một cách nhất quán giữa chú thích ban đầu và chú thích mới. Tiêu chí này có FP trung bình trên mỗi bệnh nhân lần lượt là 0,0 [0,0, 2,0] và 0,0 [0,0, 0,0] đối với các trường hợp “dễ” và “khó”, cho biết rằng đối với các trường hợp “khó”, bác sĩ không bao giờ phân chia bất kỳ tổn thương nào trong một tiêu chí. vị trí hoàn toàn khác so với mặt nạ ban đầu của họ. Đối với Tiêu chí 2, độ nhạy lần lượt là 0,67 [0,08, 1,0] và 0,0 [0,0, 0,0] đối với trường hợp “dễ” và “khó”. Điều này có nghĩa là đối với chú thích mới trên các trường hợp “khó”, bác sĩ không bao giờ phân đoạn bất kỳ tổn thương nào có IoU > 0,5 với bất kỳ tổn thương nào từ chú thích ban đầu. Đối với tiêu chí này, FP trung bình trên mỗi bệnh nhân lần lượt là 1,0 [0,5, 4,0] và 1,0 [1,0, 1,0] đối với các trường hợp “dễ” và “khó”. Cuối cùng, đối với Tiêu chí 3, độ nhạy là 1,0 [0,84, 1,0] và 1,0 [0,5, 1,0], trong khi FP trên mỗi bệnh nhân là 0,0 [0,0, 3,0] và 0,0 [0,0, 1,0] đối với mức độ “dễ” và “khó”. ” trường hợp tương ứng. Điều đáng chú ý là xu hướng giữa hiệu suất phát hiện của bác sĩ được đánh giá theo ba tiêu chí này tương tự như xu hướng của bốn mạng trong Phần IV-B (Tiêu chí 1 > Tiêu chí 3 > Tiêu chí 2).   D. Sự biến thiên giữa những người quan sát  Chín trường hợp (tất cả thuộc về các bệnh nhân khác nhau) được chọn ngẫu nhiên từ bộ DLBCL-BCCV được phân đoạn bởi hai bác sĩ bổ sung (Bác sĩ 2 và 3). Hệ số Fleiss κ trung bình trong 9 trường hợp này là 0,72, thuộc loại được các bác sĩ đồng ý “đáng kể”. Mức độ đồng ý này nhấn mạnh độ tin cậy và tính nhất quán của việc phân đoạn sự thật cơ bản thu được từ nhiều người chú thích.  Thứ hai, chúng tôi tính toán DSC theo cặp giữa hai bác sĩ cho tất cả 9 trường hợp. Giá trị DSC trung bình giữa Bác sĩ 1 & 2, 2 & 3 và 1 & 3 là 0,67 ± 0,37, 0,83 ± 0,20 và 0,66 ± 0,37. Hơn nữa, sự đồng thuận STAPLE [24] cho ba bác sĩ đã được tạo ra cho tất cả 9 trường hợp và DSC giữa STAPLE và phân đoạn sự thật cơ bản đã được tính toán cho mỗi bác sĩ. Giá trị DSC trung bình với chân lý cơ bản STAPLE dành cho Bác sĩ 1, 2 và 3 lần lượt là 0,75±0,37, 0,91±0,11 và 0,90±0,16.  Giấy này là  theo giấy phép CC 4.0.   có sẵn trên arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

REINFORCEMENT . tech

Leading research and publication in advancing reinforcement machine learning, shaping intelligent systems & automation.

Reinforcement's blog

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Mạng lưới thần kinh sâu để phát hiện và định lượng tổn thương ung thư hạch: Kết quả

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

189 Stories To Learn About Reading Books

128 Stories To Learn About Charles Dickens

223 Stories To Learn About Science

85 Stories To Learn About Productivity Hacks

189 Stories To Learn About Reading Books

128 Stories To Learn About Charles Dickens

223 Stories To Learn About Science

85 Stories To Learn About Productivity Hacks

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps