Авторы:
(1) Шадаб Ахамед, Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада. Он также был научным сотрудником Mitacs Accelerate (май 2022 г. – апрель 2023 г.) в Microsoft AI for Good Lab, Редмонд, Вашингтон, США (электронная почта: [email protected]);
(2) Иси Сюй, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(3) Клэр Гауди, Детская больница Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(4) Джу Х. О, Больница Святой Марии, Сеул, Республика Корея;
(5) Ингрид Блуаз, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(6) Дон Уилсон, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(7) Патрик Мартино, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(8) Франсуа Бенар, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(9) Ферештех Юсефиризи, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(10) Рахул Додиа, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(11) Хуан М. Лависта, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(12) Уильям Б. Уикс, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(13) Карлос Ф. Урибе, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(14) Арман Рахмим, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада.
А. Производительность сегментации
Производительность четырех сетей оценивалась с использованием медианного значения DSC, FPV и FNV, а также среднего значения DSC как для внутренних (включая показатели, разделенные по различным внутренним когортам), так и для внешних наборов тестов, как показано в Таблице II. Некоторая визуализация характеристик сетей представлена на рис. 2.
У SegResNet был самый высокий медианный DSC как на внутренних, так и на внешних наборах тестов: медианы 0,76 [0,27, 0,88] и 0,68 [0,40, 0,78] соответственно. Для отдельных групп во внутренней тестовой выборке у UNet был лучший DSC как по DLBCL-BCCV, так и по PMBCL-BCCV со средним значением 0,72 [0,24, 0,89] и 0,74 [0,02, 0,90] соответственно, тогда как у SegResNet был лучший DSC. 0,78 [0,62, 0,87] на DLBCLSMHS. SegResNet также показал лучший FPV как на внутренних, так и на внешних наборах тестов со значениями 4,55 [1,35, 31,51] мл и 21,46 [6,30, 66,44] мл. Несмотря на победу UNet в DSC для наборов DLBCL-BCCV и PMBCL-BCCV, у SegResNet был лучший FPV на обоих этих наборах со средними значениями 5,78 [0,61, 19,97] мл и 2,15 [0,52, 7,18] мл соответственно, в то время как UNet лучший FPV 8,71 [1,19, 34,1] мл по DLBCLSMHS. Наконец, SwinUNETR имел лучший медианный показатель FNV 0,0 [0,0, 4,65] мл на внутреннем наборе тестов, тогда как UNet имел лучший медианный показатель FNV 0,41 [0,0, 3,88] мл на внешнем наборе тестов. На DLBCL-BCCV и DLBCL-SMHS SwinUNETR имел лучшую медиану FNV 0,09 [0,0, 3,39] мл и 0,0 [0,0, 8,83] мл соответственно, в то время как на PMBCL-BCCV UNet, DynUNet и SwinUNETR были равны, каждый при медианном значении 0,0 [0,0, 1,24] мл.
Во-первых, как SegResNet, так и UNet хорошо обобщали результаты невидимого внешнего тестового набора с падением среднего и медианного значения.
производительность на 4% и 8% и 2% и 8% соответственно по сравнению с внутренним тестовым набором. Хотя медианные значения DSC DynUNet и SwinUNETR значительно ниже, чем SegResNet и UNet на внутреннем тестовом наборе (примерно на 6–9%), эти сети показали еще лучшие обобщения с падением медианного DSC всего на 4% и 6% соответственно. , при переходе от внутреннего тестирования к внешнему. Также стоит отметить, что IQR DSC для всех сетей были больше на внутреннем наборе тестов по сравнению с внешним набором тестов. Кроме того, все сети получили более высокий 75-й квантиль DSC на внутреннем тестовом наборе по сравнению с внешним тестовым набором, в то время как получив более низкий 25-й квантиль DSC на внутреннем тесте по сравнению с внешним тестовым набором (за исключением SwinUNETR, где эта тенденция была обратной). ). Аналогичным образом, для разных когорт внутри внутреннего тестового набора все сети имели самую высокую медиану и 25-й квантиль DSC в наборе DLBCL-SMHS. Наихудшие результаты были получены в когорте PMBCL-BCCV с самым большим IQR во всех сетях (см. раздел IV-A.2 и рис. 6). Интересно, что, несмотря на более низкую производительность DSC как на внутренних, так и на внешних наборах тестов (по сравнению с наиболее эффективными моделями), SwinUNETR имел лучшие медианные значения FNV в когортах во внутреннем наборе тестов.
Тот же анализ был проведен на внешнем тестовом наборе, как показано на рис. 4. Для внешнего тестового набора единственными воспроизводимыми показателями поражения были SUVmean по SegResNet и SwinUNETR, количество поражений по SegResNet и TLG по DynUNet. Это показывает, что производительность сетей с точки зрения DSC или других традиционных показателей сегментации не всегда отражает их способность оценивать показатели повреждения. Такие показатели поражения, как SUVmax, количество поражений и Dmax, обычно трудно воспроизвести в сетях. SUVmax был очень чувствителен к неверным ложноположительным прогнозам в регионах с высоким спросом на внедорожники. Аналогичным образом, количество поражений было очень чувствительным к неправильно сегментированным разъединенным компонентам, а Dmax был очень чувствителен к наличию ложноположительного прогноза, находящегося далеко от основной истинной сегментации (даже несмотря на то, что объемы таких ложноположительных прогнозов могли быть очень небольшими). в этом случае это будет очень мало способствовать TMTV или TLG, как видно на внутреннем тестовом наборе).
2) Влияние значений основных показателей повреждения на производительность сети: во-первых, мы рассчитали основные показатели повреждения для внутренних и внешних тестовых наборов и рассмотрели производительность UNet (на основе DSC) для каждого из этих показателей и различных наборов данных. как показано на рисунке 6. Характеристики были разделены на четыре различные категории, а именно (i) общий набор тестов, (ii) случаи с DSC < 0,2, (iii) случаи с 0,2 ≤ DSC ≤ 0,75 и (iv) случаи с ДСК > 0,75 в тестовом наборе. Из рис. 6 (a)-(b) видно, что для категорий с более высокими DSC значения (среднего и медианного) уровня пациентов SUVmean и SUVmean также были выше для внутренней когорты, а также для наборов тестов внешней когорты. . Более низкую общую производительность набора PMBCL-BCCV также можно объяснить более низким общим средним значением и медианным значением SUVmean и SUVmean. Аналогичная тенденция наблюдалась для количества поражений (рис. 6 (в)) только на внешнем тестовом наборе, но не ни на одной из внутренних тестовых когорт. Обратите внимание, что среднее количество поражений во внешнем наборе тестов было значительно выше, чем в любом из внутренних наборов тестов. Что касается TMTV и TLG, все когорты с более высокими DSC также имели более высокие средние и медианные TMTV или TLG, за исключением когорты DLBCL-SMHS, где категория DSC <0,2 имела самые высокие средние и медианные TMTV и TLG. Эту аномалию можно объяснить тем фактом, что, несмотря на большие размеры, поражения в случаях этой категории для этой когорты были слабыми, как показано на рис. 6 (a)-(b). Наконец, что касается Dmax, категория 0,2 ≤ DSC ≤ 0,75 имела самую высокую медиану Dmax во всех когортах и самое высокое среднее значение Dmax во всех когортах, за исключением DLBCL-SMHS. Более низкие значения Dmax означают более низкое распространение заболевания, что может соответствовать случаям как с одним небольшим очагом, так и с несколькими (маленькими или крупными) очагами, расположенными рядом.
Во-вторых, мы оценили производительность (медиана DSC)
Б. Производительность обнаружения
Мы оценили производительность наших сетей по трем типам показателей обнаружения, как определено в разделе III-D.2. Критерий 1, будучи самым слабым критерием обнаружения, имел лучшую общую чувствительность обнаружения среди всех критериев во всех сетях как на внутренних, так и на внешних наборах тестов, за ним следовал критерий 3, а затем критерий 2 (рис. 8). По критерию 1 UNet, SegResNet, DynUNet и SwinUNETR получили медианную чувствительность 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] и 1,0 [0,66, 1,0] соответственно на внутреннем тестовом наборе. , а на внешнем наборе — 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] и 0,67 [0,5, 0,86] соответственно. Естественно, при переходе от внутреннего тестирования к внешнему наблюдалось падение производительности. Кроме того, критерий 1 показал наилучшие результаты по количеству показателей FP: сети получили 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] и 7,0 [3,0, 11,25] медианных FP соответственно на внутренний тестовый набор и 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] и 31,0 [21,0, 55,0] медианные FP соответственно на внешнем тестовом наборе.
Кроме того, будучи более сложным критерием обнаружения, Критерий 2 имел самую низкую чувствительность обнаружения для всех сетей со средним значением 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] и 0,55 [0,19, 1,0] соответственно. на внутреннем тестовом наборе и 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] и 0,27 [0,16, 0,5] соответственно на внешнем тестовом наборе. Для этого критерия падение медианной чувствительности при переходе от внутреннего набора тестов к внешнему сопоставимо с таковым для критерия 1. Аналогично, для этого критерия медианные FP на одного пациента составили 4,5 [2,0, 8,0], 4,0 [2,0, 8,0]. ], 6,0 [4,0, 12,25] и 9,0 [5,0, 13,0] соответственно на внутреннем тестовом наборе и 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] и 44,0 [27,0, 63.0] соответственно на внешнем тестовом наборе. Несмотря на то, что чувствительность ниже, чем в Критерии 1, FP на одного пациента аналогичны как на внутренних, так и на внешних наборах тестов для Критерия 2 (хотя разброс медианных FP между критериями на внешнем наборе тестов для SwinUNETR является самым высоким).
Наконец, критерий 3, основанный на обнаружении воксела SUVmax поражений, был промежуточным критерием между критериями 1 и 2, поскольку способность модели точно обнаруживать поражения увеличивается с увеличением SUVmax поражения (раздел IV-A.2). По этому критерию сети имели медианную чувствительность 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] и 0,85 [0,53, 1,0] соответственно на внутреннем тестовом наборе и 0,5 [0,33, 1,0] соответственно. 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] и 0,5 [0,4, 0,75] соответственно на внешнем тестовом наборе. Падение чувствительности между внутренними и внешними наборами тестов сопоставимо с двумя другими критериями. Аналогичным образом, сети имели средний FP на пациента 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] и 8,0 [4,0, 12,0] соответственно на внутреннем тестовом наборе и 19,0 [12,0, 12,0] соответственно. 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] и 39,0 [25,0, 58,0] соответственно на внешнем тестовом наборе.
C. Вариабельность внутри наблюдателя
Для проведения анализа вариабельности внутри наблюдателя врач 4 повторно сегментировал 60 случаев из всей когорты PMBCL-BCCV (включая обучающие, валидные и тестовые наборы). Эта подгруппа состояла из 35 «простых» случаев (случаев с масками, предсказанными UNet). получение DSC > 0,75 с исходной истинностью) и 25 «сложных» случаев (DSC < 0,2). Чтобы исключить предвзятость, выбор этих случаев, за исключением критериев DSC, был рандомизированным, гарантируя, что в процессе повторной сегментации предпочтения при выборе конкретных случаев не отдавались.
Общее среднее и медианное значение DSC между первоначальной и новой сегментацией врача по «легким» и «тяжелым» случаям вместе взятым составило 0,50 ± 0,33 и 0,49 [0,20, 0,84]. Здесь среднее значение было сопоставимо с производительностью тестового набора PMBCL-BCCV (0,49 ± 0,42) UNet, хотя медиана была намного ниже, чем у UNet (0,74 [0,02, 0,9]). «Сложные» случаи продемонстрировали более низкую воспроизводимость при получении согласованной основной истины, о чем свидетельствуют средние и медианные значения DSC между исходными и повторно сегментированными аннотациями, которые оказались равными 0,22 ± 0,18 и 0,20 [0,05, 0,36] соответственно. И наоборот, для «легких» случаев среднее и медианное значения ДСК составляли 0,70 ± 0,26 и 0,82 [0,65, 0,87] соответственно.
Наконец, мы также выполнили анализ обнаружения исходной и новой сегментации, как показано на рис. 10. Для этого анализа мы рассматривали исходную сегментацию как основную истину, а новую сегментацию как предсказанные маски. Для критерия 1 медианная чувствительность обнаружения как в «простых», так и в «сложных» случаях составляла 1,0 [1,0, 1,0], что указывает на то, что врач всегда последовательно сегментировал хотя бы один воксель между исходными и новыми аннотациями. Этот критерий имел медианное значение FP на одного пациента 0,0 [0,0, 2,0] и 0,0 [0,0, 0,0] в «легких» и «тяжелых» случаях соответственно, что указывает на то, что в «тяжелых» случаях врач никогда не сегментировал какое-либо поражение в совершенно другое расположение по сравнению с их оригинальными масками. Для критерия 2 чувствительность составила 0,67 [0,08, 1,0] и 0,0 [0,0, 0,0] в «легком» и «сложном» случаях соответственно. Это означает, что в новой аннотации для «тяжелых» случаев врач никогда не сегментировал ни одно поражение с IoU > 0,5 с какими-либо поражениями из исходной аннотации. Для этого критерия медианные значения FP на одного пациента составляли 1,0 [0,5, 4,0] и 1,0 [1,0, 1,0] для «легких» и «тяжелых» случаев соответственно. Наконец, для критерия 3 чувствительность составляла 1,0 [0,84, 1,0] и 1,0 [0,5, 1,0], тогда как FP на одного пациента составляли 0,0 [0,0, 3,0] и 0,0 [0,0, 1,0] для «легкого» и «тяжелого» случаев соответственно. Стоит отметить, что тенденция между эффективностью обнаружения врачами, оцененной по этим трем критериям, аналогична тенденции по четырем сетям в Разделе IV-B (Критерий 1 > Критерий 3 > Критерий 2).
D. Вариативность между наблюдателями
Девять случаев (все принадлежали разным пациентам) были случайным образом выбраны из набора DLBCL-BCCV, который был сегментирован двумя дополнительными врачами (врачи 2 и 3). Средний коэффициент Фляйсса κ для этих 9 случаев составил 0,72, что попадает в категорию «существенного» согласия между врачами. Такой уровень согласия подчеркивает надежность и последовательность основной сегментации, полученной от нескольких аннотаторов.
Во-вторых, мы рассчитали попарный DSC между каждыми двумя врачами для всех 9 случаев. Средние значения DSC между врачами 1 и 2, 2 и 3 и 1 и 3 составляли 0,67 ± 0,37, 0,83 ± 0,20 и 0,66 ± 0,37. Кроме того, для всех 9 случаев был получен консенсус STAPLE [24] для трех врачей, и для каждого врача были рассчитаны DSC между сегментами STAPLE и основной истинностью. Средние значения DSC с основной истиной STAPLE для врачей 1, 2 и 3 составили 0,75±0,37, 0,91±0,11 и 0,90±0,16 соответственно.
Этот документ