Авторы:
(1) Шадаб Ахамед, Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада. Он также был научным сотрудником Mitacs Accelerate (май 2022 г. – апрель 2023 г.) в Microsoft AI for Good Lab, Редмонд, Вашингтон, США (электронная почта: [email protected]);
(2) Иси Сюй, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(3) Клэр Гауди, Детская больница Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(4) Джу Х. О, Больница Святой Марии, Сеул, Республика Корея;
(5) Ингрид Блуаз, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(6) Дон Уилсон, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(7) Патрик Мартино, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(8) Франсуа Бенар, Британская Колумбия, Рак, Ванкувер, Британская Колумбия, Канада;
(9) Ферештех Юсефиризи, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(10) Рахул Додиа, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(11) Хуан М. Лависта, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(12) Уильям Б. Уикс, Microsoft AI for Good Lab, Редмонд, Вашингтон, США;
(13) Карлос Ф. Урибе, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада;
(14) Арман Рахмим, Институт онкологических исследований Британской Колумбии, Ванкувер, Британская Колумбия, Канада, и Университет Британской Колумбии, Ванкувер, Британская Колумбия, Канада.
А. Набор данных
1) Описание: В этой работе мы использовали большой, разнообразный и многоинституциональный набор данных ПЭТ/КТ всего тела, включающий в общей сложности 611 случаев. Эти сканы были получены из четырех ретроспективных когорт: (i) DLBCL-BCCV: 107 сканирований от 79 пациентов с DLBCL от рака BC, Ванкувер (BCCV), Канада; (ii) PMBCLBCCV: 139 сканирований от 69 пациентов с PMBCL от рака BC; (iii) DLBCL-SMHS: 220 сканирований 219 пациентов с DLBCL из больницы Святой Марии, Сеул (SMHS), Южная Корея; (iv) АутоПЭТ-лимфома: 145 сканирований 144 пациентов с лимфомой из Университетской больницы Тюбингена, Германия ¨ [14]. Дополнительное описание количества сканирований, возраста и пола пациентов, а также производителей ПЭТ/КТ-сканеров для каждой группы приведено в Таблице I. Когорты (i)-(iii) вместе называются внутренней когортой. Для когорт (i) и (ii) одобрение этики было предоставлено Советом по этике исследований рака UBC Британской Колумбии (REB) (номера REB: H19-01866 и H19-01611 соответственно) 30 октября 2019 г. и 1 августа 2019 г. соответственно. Для когорты (iii) разрешение было предоставлено больницей Святой Марии в Сеуле (номер REB: KC11EISI0293) 2 мая 2011 г.
Учитывая ретроспективный характер наших данных, в этих трех когортах согласие пациентов было отказано. Когорта (iv) была получена из общедоступного набора данных испытаний AutoPET [14] и называется внешней когортой.
2) Аннотация к основной истине: когорты DLBCL-BCCV, PMBCLBCCV и DLBCL-SMHS были отдельно сегментированы тремя врачами ядерной медицины (называемыми «Врач 1», «Врач 4» и «Врач 5» соответственно) из BC Cancer, Ванкувера и детской больницы BC. Больница Ванкувера и Больница Святой Марии в Сеуле соответственно. Кроме того, два других врача ядерной медицины (врачи 2 и 3) из BC Cancer сегментировали 9 случаев из когорты DLBCL-BCCV, которые использовались для оценки вариабельности между наблюдателями (Раздел IV-D). Врач 4 дополнительно повторно сегментировал 60 случаев из когорты PMBCL-BCCV, которые использовались для оценки вариабельности внутри наблюдателя (раздел IV-C). Все эти экспертные сегментации были выполнены с использованием полуавтоматического инструмента сегментации на основе градиента под названием PETEdge+ с рабочей станции MIM (программное обеспечение MIM, Огайо, США).
Данные ПЭТ/КТ лимфомы AutoPET вместе с их достоверной сегментацией были получены из Архива изображений рака. Эти аннотации были выполнены вручную двумя рентгенологами из Университетской больницы Тюбингена, Германия, и Университетской больницы LMU, Германия.
Б. Сети, инструменты и код
В этой работе были обучены четыре сети, а именно: UNet [15], SegResNet [16], DynUNet [17] и SwinUNETR [18]. Первые три представляют собой сети на основе 3D CNN, а SwinUNETR — сеть на основе трансформаторов. Реализации для этих сетей были адаптированы из библиотеки MONAI [19]. Модели были обучены и проверены на виртуальной машине Microsoft Azure с Ubuntu 16.04, которая состояла из 24 ядер ЦП (448 ГиБ ОЗУ) и 4 графических процессоров NVIDIA Tesla V100 (16 ГиБ ОЗУ каждый). Код для этой работы был открыт в соответствии с лицензией MIT, и его можно найти в этом репозитории: https://github.com/microsoft/lymphoma-segmentation-dnn.
С. Методика обучения
1) Разделение данных: данные из когорт (i)–(iii) (внутренняя когорта с общим числом 466 случаев) были случайным образом разделены на наборы для обучения (302 сканирования), проверки (76 сканирований) и внутреннего тестирования (88 сканирований). , в то время как группа лимфом AutoPET (145 сканирований) использовалась исключительно для внешнего тестирования. Модели сначала обучались на обучающем наборе, а на проверочном наборе отбирались оптимальные гиперпараметры и лучшие модели. Затем лучшие модели были протестированы на внутренних и внешних тестовых наборах. Обратите внимание, что разделение внутренней когорты было выполнено на уровне пациентов, чтобы избежать переподбора параметров обученной модели для конкретных пациентов, если их множественные сканы будут использоваться совместно между обучающим и проверочным/тестовым наборами.
2) Предварительная обработка и увеличение: КТ-изображения высокого разрешения (в единице Хаунсфилда (HU)) были подвергнуты уменьшению выборки, чтобы соответствовать координатам соответствующих изображений ПЭТ/маски. Значения интенсивности ПЭТ в единицах Бк/мл были скорректированы за распад и преобразованы в SUV. Во время обучения мы использовали серию нерандомизированных и рандомизированных преобразований, чтобы увеличить входные данные в сеть. Нерандомизированные преобразования включали (i) обрезку интенсивностей CT в диапазоне [-154, 325] HU (представляющих [3, 97]-й квантиль HU в очагах поражения в наборах обучения и проверки) с последующим мин-максным преобразованием. нормализация, (ii) обрезка области вне тела на изображениях ПЭТ, КТ и маски с использованием трехмерной ограничивающей рамки и (iii) повторная выборка изображений до изотропного интервала вокселей (2,0 мм, 2,0 мм, 2,0 мм) с помощью билинейного интерполяция для изображений ПЭТ и КТ и интерполяция по ближайшему соседу для изображений маски
С другой стороны, рандомизированные преобразования вызывались в начале каждой эпохи. К ним относятся (i) случайное вырезание кубических фрагментов размеров (N, N, N) из изображений, где куб был сосредоточен вокруг вокселя поражения с вероятностью pos/(pos + neg) или вокруг фонового вокселя с вероятностью neg/ (pos + neg), (ii) перемещения в диапазоне (-10, 10) вокселей вдоль всех трех направлений, (iii) осевые вращения в диапазоне (-π/15, π/15) и (iv) случайное масштабирование на 1,1 во всех трех направлениях. Мы установили neg = 1, а pos и N были выбраны из наборов гиперпараметров {1, 2, 4, 6, 8, 10, 12, 14, 16} и {96, 128, 160, 192, 224, 256} соответственно. для UNet [20]. После серии всесторонних экспериментов по абляции pos = 2 и N = 224 оказались оптимальными для UNet. Для других сетей pos было установлено равным 2, и было выбрано наибольшее N, которое можно было разместить в памяти графического процессора во время обучения (поскольку производительность для разных значений N существенно не отличалась друг от друга, за исключением N = 96, которое было значительно хуже по сравнению с другими значениями N). Следовательно, SegResNet, DynUNet и SwinUNETR были обучены с использованием N = 192, 160 и 128 соответственно. Наконец, расширенные патчи ПЭТ и КТ были объединены по каналам для создания окончательного входа в сеть.
4) Вывод скользящего окна и постобработка: для изображений в наборе проверки/тестирования мы использовали только нерандомизированные преобразования. Прогнозирование осуществлялось непосредственно на двухканальных (ПЭТ и КТ) изображениях всего тела с использованием метода скользящего окна с кубическим размером окна (W, W, W), где W — гиперпараметр, выбранный из набора {96 , 128, 160, 192, 224, 256, 288}. Оптимальные значения W оказались равными 224 для UNet, 192 для SegResNet и DynUnet и 160 для SwinUNETR. Прогнозы тестового набора были преобразованы в координаты исходных масок истинности для расчета показателей оценки.
D. Показатели оценки
1) Метрики сегментации: для оценки эффективности сегментации мы использовали DSC переднего плана на уровне пациента, объемы ложноположительных связанных компонентов, которые не перекрываются с основным истинным передним планом (FPV), и объем передних связанных компонентов в основной истине, которые не перекрываются с предсказанной маской сегментации (FNV) [14]. Мы сообщили о медиане и межквартильном размахе (IQR) для этих показателей на внутренних и внешних наборах тестов. Мы также сообщаем среднее значение DSC со стандартным отклонением среднего значения. Мы решили указать медианные значения, поскольку наши средние значения показателей были склонны к выбросам, а медиана нашей выборки всегда была выше (ниже) для DSC (для FPV и FNV), чем среднее значение выборки. Иллюстрация FPV и FNV представлена на рис. 1 (а).
Хотя определения показателей обнаружения FP и FN могут показаться похожими на показатели сегментации FPV и FNV, при тщательном исследовании это не так (рис. 1 (a) и (b)). Метрики FPV и FNV вычисляют сумму объемов всех поражений, которые предсказаны в совершенно неправильном месте (без совпадения с фактическими поражениями) или поражений, которые полностью пропущены, соответственно. Следовательно, эти показатели определяются на уровне вокселей для каждого пациента. С другой стороны, показатели обнаружения (в Критериях 1, 2 и 3) определяются для каждого поражения отдельно для каждого пациента.
Оценка воспроизводимости этих показателей поражения повышает уверенность в результатах алгоритма сегментации. Поэтому мы провели парный анализ t-критерия Стьюдента, чтобы определить несоответствие в средствах распределений между фактическими и прогнозируемыми показателями поражения (раздел IV-A.1). Кроме того, аналогичный анализ был проведен для оценки вариабельности внутри наблюдателя с использованием двух аннотаций, сделанных одним и тем же врачом по одному и тому же набору случаев (Раздел IV-C).
Этот документ