Авторы:
(1) Шадаб Ахамед, Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада. Он также был научным сотрудником Mitacs Accelerate (май 2022 г. – апрель 2023 г.) в Microsoft AI for Good Lab, Редмонд, Вашингтон, США (электронная почта: [email protected]);
(2) Иси Сюй, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(3) Клэр Гауди, Детская больница Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(4) Джу Х. О, Больница Святой Марии, Сеул, Республика Корея;
(5) Ингрид Блуаз, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(6) Дон Уилсон, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(7) Патрик Мартино, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(8) Франсуа Бенар, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(9) Ферештех Юсефиризи, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(10) Рахул Додиа, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(11) Хуан М. Лависта, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(12) Уильям Б. Уикс, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(13) Карлос Ф. Урибе, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(14) Арман Рахмим, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада.
В этой работе мы обучили и оценили четыре различные архитектуры нейронных сетей для автоматизации сегментации поражений лимфомы на основе наборов данных ПЭТ/КТ, полученных из трех разных когорт. Чтобы оценить производительность моделей, мы провели комплексную оценку внутреннего набора тестов, полученного из этих трех когорт, и показали, что SegResNet и UNet превзошли DynUNet и SwinUNETR по DSC (среднему и медианному) и медианным показателям FPV, в то время как SwinUNETR имел лучший медианный FNV. В дополнение к внутренним оценкам мы расширили наш анализ, включив в него этап внешнего внераспределительного тестирования на значительном общедоступном наборе данных ПЭТ/КТ по лимфомам. В этом внешнем наборе тестов SegResNet также оказался лучшим по показателям DSC и FPV, что подчеркивает его надежность и эффективность, в то время как UNet показал лучшую производительность по FNV.
Важно подчеркнуть, что SegResNet и UNet обучались на патчах большего размера, а именно (224, 224, 224) и (192, 192, 192) соответственно, тогда как DynUNet и SwinUNETR обучались с использованием патчей относительно меньшего размера, а именно (160, 192, 192, 192) соответственно. 160, 160) и (128, 128, 128) соответственно. Использование патчей большего размера во время обучения позволяет нейронным сетям захватывать более обширное контекстуальное понимание данных, тем самым повышая их производительность в задачах сегментации [17]. Это наблюдение согласуется с нашими результатами, согласно которым превосходную производительность SegResNet и UNet можно объяснить воздействием на них патчей большего размера во время обучения. Более того, большие размеры пакетов обеспечивают надежное обучение за счет точной оценки градиентов [17], но с выбранными нами размерами обучающих патчей мы не смогли обучить SegResNet, DynUNet и SwinUNETR с nb > 1 из-за ограничений памяти (хотя мы могли бы приспособить nb = 8 для UNet). Следовательно, для справедливого сравнения сетей все сети были обучены с nb = 1. Стоит отметить, что наша неспособность обучить DynUNet и SwinUNETR на больших размерах патчей и мини-пакетов была в первую очередь связана с ограничениями вычислительных ресурсов. Однако это ограничение открывает возможности для будущих исследований, в которых обучение этих моделей с использованием более крупных фрагментов и размеров пакетов потенциально может привести к дальнейшему повышению точности сегментации.
Мы оценили воспроизводимость показателей повреждений и обнаружили, что на внутреннем тестовом наборе TMTV и TLG воспроизводились во всех сетях, тогда как Dmax не воспроизводился ни в одной сети. SUVmean воспроизводился всеми сетями, кроме UNet, SUVmax - только SegResNet, а число повреждений - только UNet и SegResNet. На внешнем наборе тестов воспроизводимость была более ограниченной: только SUVmean воспроизводился как SegResNet, так и SwinUNETR, количество поражений - SegResNet и TLG - DynUNet (рис. 3 и 4). Кроме того, мы количественно оценили ошибку сетей при оценке значения показателей поражения с использованием MAPE и обнаружили, что MAPE обычно уменьшается в зависимости от значений меры поражения (для всех показателей поражения) на комбинированном внутреннем и внешнем наборе тестов (рис. 5). Сети обычно допускали значительные ошибки в точном прогнозировании, когда основные показатели ущерба были очень малы. Мы также показали, что в целом на наборе изображений с более крупными поражениями на уровне пациента SUVmean, SUVmean, TMTV и TLG сеть способна предсказать более высокую медиану DSC, хотя для очень высоких значений этих показателей поражения производительность обычно плато. С другой стороны, на производительность ДСК не сильно влияет количество поражений, тогда как для набора изображений с более высоким Dmax производительность в целом снижается для всех сетей (рис. 7).
Поскольку большая часть данных ПЭТ/КТ находится в частной собственности медицинских учреждений, это создает серьезные проблемы для исследователей в доступе к разнообразным наборам данных для обучения и тестирования моделей глубокого обучения. В таком сценарии, чтобы улучшить интерпретируемость моделей, исследователям крайне важно выяснить, как производительность их моделей зависит от характеристик набора данных. Изучая, как производительность модели коррелирует с характеристиками изображения/поражения, исследователи могут получить представление о сильных сторонах и ограничениях своих моделей [13].
Наряду с оценкой эффективности сегментации мы также ввели три отдельных критерия обнаружения, обозначенных как Критерий 1, 2 и 3. Эти критерии служили конкретной цели: оценить производительность сетей для каждого поражения. Это контрастирует с оценкой эффективности сегментации, которая в первую очередь фокусируется на точности сетей на уровне вокселей. Смысл введения этих критериев обнаружения заключается в необходимости оценить, насколько хорошо сети идентифицируют и обнаруживают поражения на изображениях, а не просто оценивать их способность очерчивать границы поражений на уровне вокселей. Способность обнаруживать наличие поражений (критерий 1) имеет решающее значение, поскольку от нее напрямую зависит, будет ли выявлена или пропущена потенциальная проблема со здоровьем. Обнаружение даже одного вокселя поражения может привести к дальнейшему исследованию или планированию лечения. Количество очагов поражения и точная локализация (критерий 2) важны для планирования лечения и мониторинга прогрессирования заболевания. Знание не только о том, что поражение существует, но также о том, сколько их и где они расположены, может существенно повлиять на терапевтические решения. Критерий 3, ориентированный на сегментацию поражений на основе метаболических характеристик поражения (SUVmax), добавляет дополнительный уровень клинической значимости.
Используя эти метрики обнаружения, мы оценили чувствительность и обнаружение FP для всех сетей и показали, что в зависимости от критериев обнаружения сеть может иметь очень высокую чувствительность, даже если производительность DSC была низкой. Учитывая эти различные критерии обнаружения, обученную модель можно выбрать на основе конкретных случаев клинического использования. Например, некоторые варианты использования могут включать возможность обнаружения всех поражений без чрезмерной осторожности при сегментировании точных границ поражений, в то время как в некоторых других случаях может потребоваться более четкое определение границ.
Кроме того, мы оценили вариабельность действий врача внутри наблюдателя при сегментировании как «легких», так и «тяжелых» случаев, отметив проблемы с последовательной сегментацией случаев из «тяжелой» подгруппы. При сегментации поражений лимфомы случаи могут различаться по сложности в зависимости от таких факторов, как размер, форма и расположение поражений или качество изображения. Определив, какие случаи всегда сложно сегментировать даже опытному врачу, мы получили представление о сложностях и нюансах задачи сегментации. Наконец, мы также оценили соглашение между тремя врачами. Хотя мы пришли к выводу, что между тремя врачами существовал существенный уровень согласия, оценка была проведена только в 9 случаях, что привело к низкой статистической мощности.
Чтобы улучшить согласованность достоверных данных при сегментации медицинских изображений, необходим четко определенный протокол. Этот протокол должен независимо привлекать нескольких врачей-экспертов к определению областей интереса (ROI) или поражений на изображениях ПЭТ/КТ. Вместо того, чтобы один врач независимо сегментировал когорту, несколько аннотаторов должны сегментировать одни и те же изображения, не зная о работе друг друга. Расхождения или разногласия среди врачей могут быть разрешены с помощью структурированных подходов, таких как фасилитированные дискуссии, обзоры клинической информации или разъяснение изображений. Этот надежный процесс проверки достоверности данных повышает точность соглашений между наблюдателями и усиливает достоверность результатов исследований и клинических применений, основанных на этих аннотациях.
Этот документ