tác giả:
(1) Shadab Ahamed, Đại học British Columbia, Vancouver, BC, Canada, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada. Anh ấy cũng là Thành viên tăng tốc của Mitacs (tháng 5 năm 2022 - tháng 4 năm 2023) với Microsoft AI cho Good Lab, Redmond, WA, USA (e-mail: [email protected]);
(2) Yixi Xu, Microsoft AI cho Good Lab, Redmond, WA, USA;
(3) Claire Gowdy, Bệnh viện Nhi đồng BC, Vancouver, BC, Canada;
(4) Joo H. O, Bệnh viện St. Mary, Seoul, Hàn Quốc;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canada;
(6) Don Wilson, BC Cancer, Vancouver, BC, Canada;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canada;
(8) Francois Benard, BC Cancer, Vancouver, BC, Canada;
(9) Fereshteh Yousefirizi, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada;
(10) Rahul Dodhia, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;
(11) Juan M. Lavista, Microsoft AI cho Good Lab, Redmond, WA, Hoa Kỳ;
(12) William B. Weeks, Microsoft AI cho Good Lab, Redmond, WA, USA;
(13) Carlos F. Uribe, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada;
(14) Arman Rahmim, Viện Nghiên cứu Ung thư BC, Vancouver, BC, Canada và Đại học British Columbia, Vancouver, BC, Canada.
Trong công việc này, chúng tôi đã đào tạo và đánh giá bốn kiến trúc mạng thần kinh riêng biệt để tự động hóa việc phân đoạn các tổn thương ung thư hạch từ bộ dữ liệu PET/CT có nguồn gốc từ ba nhóm thuần tập khác nhau. Để đánh giá hiệu suất của mô hình, chúng tôi đã tiến hành đánh giá toàn diện trên bộ thử nghiệm nội bộ bắt nguồn từ ba nhóm thuần tập này và cho thấy rằng SegResNet và UNet vượt trội hơn DynUNet và SwinUNETR trên các số liệu DSC (trung bình và trung bình) và FPV trung bình, trong khi SwinUNETR có FNV trung bình tốt nhất. Ngoài các đánh giá nội bộ, chúng tôi đã mở rộng phân tích của mình để bao gồm giai đoạn thử nghiệm ngoài phân phối bên ngoài trên bộ dữ liệu PET/CT về ung thư hạch công cộng khá lớn. Cũng trong bộ thử nghiệm bên ngoài này, SegResNet nổi lên là công ty có hiệu suất cao nhất về chỉ số DSC và FPV, nhấn mạnh tính mạnh mẽ và hiệu quả của nó, trong khi UNet thể hiện hiệu suất tốt nhất trên FNV.
Điều quan trọng cần nhấn mạnh là SegResNet và UNet đã được đào tạo trên các bản vá có kích thước lớn hơn, cụ thể là (224, 224, 224) và (192, 192, 192), trong khi DynUNet và SwinUNETR được đào tạo bằng cách sử dụng các bản vá tương đối nhỏ hơn, cụ thể là (160, 160, 160) và (128, 128, 128) tương ứng. Việc sử dụng kích thước bản vá lớn hơn trong quá trình đào tạo cho phép các mạng thần kinh nắm bắt được sự hiểu biết theo ngữ cảnh sâu rộng hơn về dữ liệu, từ đó nâng cao hiệu suất của nó trong các nhiệm vụ phân đoạn [17]. Quan sát này phù hợp với kết quả của chúng tôi, trong đó hiệu suất vượt trội của SegResNet và UNet có thể là do chúng tiếp xúc với kích thước bản vá lớn hơn trong quá trình đào tạo. Hơn nữa, kích thước lô lớn hơn cho phép đào tạo mạnh mẽ bằng cách ước tính chính xác độ dốc [17], nhưng với kích thước bản vá đào tạo đã chọn, chúng tôi không thể đào tạo SegResNet, DynUNet và SwinUNETR với nb > 1 do hạn chế về bộ nhớ (mặc dù chúng tôi có thể đáp ứng nb = 8 cho UNet). Do đó, để so sánh công bằng giữa các mạng, tất cả các mạng đều được huấn luyện với nb = 1. Điều đáng chú ý là việc chúng tôi không thể huấn luyện DynUNet và SwinUNETR trên các bản vá lớn hơn và kích thước lô nhỏ chủ yếu là do hạn chế về tài nguyên tính toán. Tuy nhiên, hạn chế này mở ra con đường cho nghiên cứu trong tương lai, trong đó việc đào tạo các mô hình này với các bản vá và quy mô lô lớn hơn có thể mang lại những cải thiện hơn nữa về độ chính xác của phân đoạn.
Chúng tôi đã đánh giá khả năng tái tạo của các biện pháp tổn thương và nhận thấy rằng trên bộ thử nghiệm nội bộ, TMTV và TLG có thể tái tạo trên tất cả các mạng, trong khi Dmax không thể tái tạo bởi bất kỳ mạng nào. SUVmean có thể được tái tạo bởi tất cả các mạng ngoại trừ UNet, SUVmax chỉ bởi SegResNet và số lượng tổn thương chỉ bởi UNet và SegResNet. Trên bộ thử nghiệm bên ngoài, khả năng tái tạo bị hạn chế hơn, chỉ có SUVmean là có thể tái tạo được bởi cả SegResNet và SwinUNETR, số lượng tổn thương bởi SegResNet và TLG của DynUNet (Hình 3 và 4). Hơn nữa, chúng tôi đã định lượng lỗi của mạng trong việc ước tính giá trị của các thước đo tổn thương bằng MAPE và nhận thấy rằng MAPE thường giảm theo hàm của các giá trị đo tổn thương (đối với tất cả các thước đo tổn thương) trên bộ kiểm tra bên trong và bên ngoài kết hợp (Hình 5). Các mạng thường mắc phải những lỗi đáng kể trong việc dự đoán chính xác khi các thước đo tổn thương thực tế cơ bản là rất nhỏ. Nói chung, chúng tôi cũng chỉ ra rằng, trên một tập hợp hình ảnh có tổn thương cấp độ bệnh nhân lớn hơn SUVmean, SUVmean, TMTV và TLG, mạng có thể dự đoán DSC trung vị cao hơn, mặc dù đối với các giá trị rất cao của các thước đo tổn thương này, hiệu suất nói chung là cao nguyên. Mặt khác, hiệu suất DSC không bị ảnh hưởng nhiều bởi số lượng tổn thương, trong khi đối với một tập hợp hình ảnh có Dmax cao hơn, hiệu suất thường giảm đối với tất cả các mạng (Hình 7).
Do phần lớn dữ liệu PET/CT thuộc sở hữu tư nhân của các tổ chức chăm sóc sức khỏe nên nó đặt ra những thách thức đáng kể cho các nhà nghiên cứu trong việc truy cập các bộ dữ liệu đa dạng để đào tạo và thử nghiệm các mô hình học sâu. Trong trường hợp như vậy, để cải thiện khả năng diễn giải của các mô hình, điều quan trọng đối với các nhà nghiên cứu là phải điều tra xem hiệu suất của các mô hình của họ phụ thuộc như thế nào vào các đặc điểm của tập dữ liệu. Bằng cách nghiên cứu mối tương quan giữa hiệu suất mô hình với đặc điểm hình ảnh/tổn thương, các nhà nghiên cứu có thể hiểu rõ hơn về điểm mạnh và hạn chế của mô hình của họ [13].
Bên cạnh việc đánh giá hiệu suất phân đoạn, chúng tôi cũng đưa ra ba tiêu chí phát hiện riêng biệt, được ký hiệu là Tiêu chí 1, 2 và 3. Các tiêu chí này phục vụ một mục đích cụ thể: đánh giá hiệu suất của mạng trên cơ sở từng tổn thương. Điều này trái ngược với đánh giá hiệu suất phân đoạn, vốn chủ yếu tập trung vào độ chính xác ở cấp độ voxel của mạng. Lý do đằng sau việc đưa ra các tiêu chí phát hiện này nằm ở nhu cầu đánh giá mức độ các mạng xác định và phát hiện các tổn thương trong hình ảnh, trái ngược với việc chỉ đánh giá khả năng phân định ranh giới tổn thương ở cấp độ voxel của chúng. Khả năng phát hiện sự hiện diện của các tổn thương (Tiêu chí 1) là rất quan trọng vì nó ảnh hưởng trực tiếp đến việc xác định hay bỏ sót mối lo ngại tiềm ẩn về sức khỏe. Việc phát hiện ngay cả một điểm ảnh ba chiều của tổn thương cũng có thể kích hoạt việc điều tra hoặc lập kế hoạch điều trị sâu hơn. Số lượng tổn thương và xác định vị trí chính xác (Tiêu chí 2) rất quan trọng trong việc lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Việc biết không chỉ sự tồn tại của một tổn thương mà còn biết có bao nhiêu tổn thương và vị trí của chúng có thể ảnh hưởng đáng kể đến các quyết định điều trị. Tiêu chí 3 tập trung vào việc phân đoạn các tổn thương dựa trên các đặc điểm chuyển hóa của tổn thương (SUVmax), bổ sung thêm một lớp liên quan đến lâm sàng.
Bằng cách sử dụng các số liệu phát hiện này, chúng tôi đã đánh giá độ nhạy và khả năng phát hiện FP cho tất cả các mạng và cho thấy rằng tùy thuộc vào tiêu chí phát hiện, mạng có thể có độ nhạy rất cao ngay cả khi hiệu suất DSC thấp. Với các tiêu chí phát hiện khác nhau này, một mô hình đã được đào tạo có thể được chọn dựa trên các trường hợp sử dụng lâm sàng cụ thể. Ví dụ: một số trường hợp sử dụng có thể liên quan đến khả năng phát hiện tất cả các tổn thương mà không quá thận trọng trong việc phân chia ranh giới tổn thương chính xác, trong khi một số trường hợp sử dụng khác có thể tìm kiếm các ranh giới rõ ràng hơn.
Hơn nữa, chúng tôi đã đánh giá khả năng thay đổi của người quan sát nội bộ của một bác sĩ trong việc phân chia cả các trường hợp “dễ” và “khó”, lưu ý những thách thức trong việc phân chia nhất quán các trường hợp từ tập hợp con “khó”. Trong phân đoạn tổn thương ung thư hạch, các trường hợp có thể gặp khó khăn khác nhau do các yếu tố như kích thước, hình dạng và vị trí của tổn thương hoặc chất lượng hình ảnh. Bằng cách xác định những trường hợp nào luôn khó phân chia ngay cả với một bác sĩ có kinh nghiệm, chúng tôi đã hiểu rõ hơn về mức độ phức tạp và sắc thái của nhiệm vụ phân chia. Cuối cùng, chúng tôi cũng đánh giá sự thỏa thuận giữa các quan sát viên giữa ba bác sĩ. Mặc dù, chúng tôi suy luận rằng có mức độ đồng ý đáng kể giữa ba bác sĩ, việc đánh giá chỉ được thực hiện trên 9 trường hợp, dẫn đến độ tin cậy thống kê thấp.
Để cải thiện tính nhất quán của thông tin cơ bản trong phân đoạn hình ảnh y tế, cần phải có một giao thức được xác định rõ ràng. Giao thức này cần có sự tham gia độc lập của nhiều bác sĩ chuyên gia trong việc phân định các vùng quan tâm (ROI) hoặc tổn thương trong hình ảnh PET/CT. Thay vì một bác sĩ phân đoạn một nhóm một cách độc lập, nhiều người chú thích sẽ phân đoạn các hình ảnh giống nhau mà không biết về công việc của nhau. Những khác biệt hoặc bất đồng giữa các bác sĩ có thể được giải quyết thông qua các phương pháp tiếp cận có cấu trúc như thảo luận có điều kiện, đánh giá thông tin lâm sàng hoặc làm rõ hình ảnh. Quy trình xác thực cơ bản mạnh mẽ này nâng cao độ chính xác của thỏa thuận giữa những người quan sát và củng cố tính hợp lệ của các kết quả nghiên cứu và ứng dụng lâm sàng dựa trên các chú thích này.
Giấy này là