paint-brush
Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Materiais e Métodospor@reinforcement
102 leituras

Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Materiais e Métodos

Muito longo; Para ler

Este estudo realiza avaliação abrangente de quatro arquiteturas de redes neurais para segmentação de lesões de linfoma a partir de imagens PET/CT.
featured image - Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Materiais e Métodos
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidade da Colúmbia Britânica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. Ele também foi Mitacs Accelerate Fellow (maio de 2022 - abril de 2023) no Microsoft AI for Good Lab, Redmond, WA, EUA (e-mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EUA;

(3) Claire Gowdy, Hospital Infantil BC, Vancouver, BC, Canadá;

(4) Joo HO, Hospital St. Mary, Seul, República da Coreia;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) François Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EUA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EUA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EUA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá.

Tabela de links

Conclusão e Referências
III. MATERIAIS E MÉTODOS

A. Conjunto de dados


1) Descrição: Neste trabalho, utilizamos um conjunto de dados PET/CT de corpo inteiro grande, diversificado e multiinstitucional com um total de 611 casos. Esses exames vieram de quatro coortes retrospectivas: (i) DLBCL-BCCV: 107 exames de 79 pacientes com DLBCL do BC Cancer, Vancouver (BCCV), Canadá; (ii) PMBCLBCCV: 139 exames de 69 pacientes com PMBCL de BC Cancer; (iii) DLBCL-SMHS: 220 exames de 219 pacientes com DLBCL do St. Mary's Hospital, Seul (SMHS), Coreia do Sul; (iv) Linfoma AutoPET: 145 exames de 144 pacientes com linfoma do Hospital Universitário de Tubingen, Alemanha ¨ [14]. Uma descrição adicional sobre o número de exames, idade e sexo do paciente e fabricantes de scanners PET/CT para cada coorte é fornecida na Tabela I. As coortes (i)-(iii) são coletivamente denominadas coorte interna. Para as coortes (i) e (ii), a aprovação ética foi concedida pelo Conselho de Ética em Pesquisa do Câncer da UBC BC (REB) (Números REB: H19-01866 e H19-01611 respectivamente) em 30 de outubro de 2019 e 1 de agosto de 2019, respectivamente. Para a coorte (iii), a aprovação foi concedida pelo St. Mary's Hospital, Seul (Número REB: KC11EISI0293) em 2 de maio de 2011. Devido


TABELA DE CARACTERÍSTICAS DE IPATIENTE E VARREDURA EM QUATRO COORTES DE LINFOMA DIFERENTES.


devido à natureza retrospectiva dos nossos dados, o consentimento do paciente foi dispensado para essas três coortes. A coorte (iv) foi obtida do conjunto de dados de desafio AutoPET disponível publicamente [14] e é chamada de coorte externa.


2) Anotação da verdade básica: As coortes DLBCL-BCCV, PMBCLBCCV e DLBCL-SMHS foram segmentadas separadamente por três médicos de medicina nuclear (referidos como Médico 1, Médico 4 e Médico 5, respectivamente) de BC Cancer, Vancouver, BC Children's Hospital, Vancouver e St. Mary's Hospital, Seul, respectivamente. Além disso, dois outros médicos de medicina nuclear (Médicos 2 e 3) do BC Cancer segmentaram 9 casos da coorte DLBCL-BCCV que foram utilizados para avaliar a variabilidade interobservador (Seção IV-D). O médico 4 adicionalmente segmentou novamente 60 casos da coorte PMBCL-BCCV que foram utilizados para avaliar a variabilidade intra-observador (Seção IV-C). Todas essas segmentações especializadas foram realizadas usando a ferramenta de segmentação semiautomática baseada em gradiente chamada PETEdge + da estação de trabalho MIM (software MIM, Ohio, EUA).


Os dados PET/CT do linfoma AutoPET, juntamente com suas segmentações reais, foram adquiridos do The Cancer Imaging Archive. Essas anotações foram realizadas manualmente por dois radiologistas do Hospital Universitário de Tubingen, ¨ Alemanha, e do Hospital Universitário da LMU, Alemanha.


B. Redes, ferramentas e código


Quatro redes foram treinadas neste trabalho, a saber, UNet [15], SegResNet [16], DynUNet [17] e SwinUNETR [18]. As três primeiras são redes 3D baseadas em CNN, enquanto a SwinUNETR é uma rede baseada em transformador. As implementações para essas redes foram adaptadas da biblioteca MONAI [19]. Os modelos foram treinados e validados em máquina virtual Microsoft Azure com Ubuntu 16.04, que consistia em 24 núcleos de CPU (448 GiB RAM) e 4 GPUs NVIDIA Tesla V100 (16 GiB RAM cada). O código deste trabalho foi de código aberto sob a licença MIT e pode ser encontrado neste repositório: https://github.com/microsoft/lymphoma-segmentation-dnn.


C. Metodologia de treinamento


1) Divisão de dados: Os dados das coortes (i)-(iii) (coorte interna com um total de 466 casos) foram divididos aleatoriamente em conjuntos de treinamento (302 varreduras), validação (76 varreduras) e teste interno (88 varreduras). , enquanto a coorte de linfoma AutoPET (145 exames) foi usada exclusivamente para testes externos. Os modelos foram primeiro treinados no conjunto de treinamento, e os hiperparâmetros ideais e os melhores modelos foram selecionados no conjunto de validação. Os principais modelos foram então testados nos conjuntos de testes internos e externos. Observe que a divisão da coorte interna foi realizada no nível do paciente para evitar o ajuste excessivo dos parâmetros do modelo treinado para pacientes específicos, caso suas múltiplas varreduras fossem compartilhadas entre conjuntos de treinamento e validação/teste.


2) Pré-processamento e aumentos: As imagens de tomografia computadorizada de alta resolução (na unidade Hounsfield (HU)) foram amostradas para corresponder às coordenadas de suas imagens PET/máscara correspondentes. Os valores de intensidade de PET em unidades de Bq/ml foram corrigidos por decaimento e convertidos em SUV. Durante o treinamento, empregamos uma série de transformações não aleatórias e aleatórias para aumentar a entrada na rede. As transformações não aleatórias incluíram (i) recorte de intensidades de CT na faixa de [-154, 325] HU (representando o [3, 97] quantil de HUs dentro das lesões nos conjuntos de treinamento e validação) seguido por min-max normalização, (ii) cortar a região fora do corpo em imagens PET, CT e máscara usando uma caixa delimitadora 3D e (iii) reamostrar as imagens para um espaçamento de voxel isotrópico de (2,0 mm, 2,0 mm, 2,0 mm) via bilinear interpolação para imagens PET e CT e interpolação do vizinho mais próximo para imagens de máscara


Por outro lado, as transformadas aleatórias foram chamadas no início de cada época. Isso incluiu (i) cortar aleatoriamente pedaços cúbicos de dimensões (N, N, N) das imagens, onde o cubo estava centrado em torno de um voxel de lesão com probabilidade pos/(pos + neg), ou em torno de um voxel de fundo com probabilidade neg/ (pos + neg), (ii) translações no intervalo (-10, 10) voxels ao longo de todas as três direções, (iii) rotações axiais no intervalo (−π/15, π/15) e (iv) escala aleatória por 1,1 em todas as três direções. Definimos neg = 1, e pos e N foram escolhidos dos conjuntos de hiperparâmetros {1, 2, 4, 6, 8, 10, 12, 14, 16} e {96, 128, 160, 192, 224, 256} respectivamente para UNet [20]. Após uma série de experimentos de ablação abrangentes, pos = 2 e N = 224 foram considerados ideais para UNet. Para outras redes, pos foi definido como 2, e o maior N que poderia ser acomodado na memória da GPU durante o treinamento foi escolhido (uma vez que o desempenho para diferentes valores de N não foram significativamente diferentes entre si, exceto N = 96 que foi significativamente pior em comparação com outros valores de N). Conseqüentemente, SegResNet, DynUNet e SwinUNETR foram treinados usando N = 192, 160 e 128, respectivamente. Finalmente, os patches PET e CT aumentados foram concatenados em canais para construir a entrada final para a rede.



4) Inferência e pós-processamento em janela deslizante: Para as imagens no conjunto de validação/teste, empregamos apenas as transformadas não aleatórias. A predição foi feita diretamente nas imagens de corpo inteiro de 2 canais (PET e CT) usando a técnica de janela deslizante com janela cúbica de tamanho (W, W, W), onde W foi um hiperparâmetro escolhido do conjunto {96 , 128, 160, 192, 224, 256, 288}. Os valores ótimos W foram encontrados em 224 para UNet, 192 para SegResNet e DynUnet e 160 para SwinUNETR. As previsões do conjunto de testes foram reamostradas para as coordenadas das máscaras de verdade originais para calcular as métricas de avaliação.


D. Métricas de avaliação


1) Métricas de segmentação: para avaliar o desempenho da segmentação, usamos DSC de primeiro plano no nível do paciente, os volumes de componentes conectados falsos positivos que não se sobrepõem ao primeiro plano verdadeiro (FPV) e o volume de componentes conectados de primeiro plano na verdade básica que não se sobrepõe à máscara de segmentação prevista (FNV) [14]. Relatamos a mediana e o intervalo interquartil (IQR) para essas métricas nos conjuntos de testes internos e externos. Também relatamos DSC médio com desvio padrão da média. Optamos por relatar os valores medianos, uma vez que nossos valores médios métricos eram propensos a valores discrepantes e nossa mediana amostral era sempre maior (menor) para DSC (para FPV e FNV) do que a média amostral. Uma ilustração de FPV e FNV é dada na Figura 1 (a).



  • 2) Métricas de detecção:* Além das métricas de segmentação discutidas acima, também avaliamos o desempenho de nossos modelos nos conjuntos de testes por meio de três métricas baseadas em detecção para avaliar a detectabilidade de lesões individuais em um paciente.


Figura 1. (a) Ilustração para as métricas de duas segmentações volume falso positivo (FPV) e volume falso negativo (FNV). (b) Ilustração para definir uma detecção verdadeiramente positiva através de três critérios, conforme explicado na Seção III-D.2.



Embora as definições para as métricas de detecção FP e FN possam parecer semelhantes às métricas de segmentação FPV e FNV, após uma investigação cuidadosa, elas não são (Fig. 1 (a) e (b)). As métricas FPV e FNV calculam a soma dos volumes de todas as lesões que são previstas em um local totalmente errado (sem sobreposição com lesões reais) ou lesões que são totalmente perdidas, respectivamente. Assim, essas métricas são definidas no nível do voxel para cada paciente. Por outro lado, as métricas de detecção (nos Critérios 1, 2 e 3) são definidas por lesão para cada paciente.




Avaliar a reprodutibilidade destas medidas de lesão aumenta a confiança nos resultados do algoritmo de segmentação. Portanto, realizamos análises de teste t de Student pareado para determinar a disparidade nas médias das distribuições entre a verdade fundamental e as medidas de lesão prevista (Seção IV-A.1). Além disso, análises semelhantes foram realizadas para avaliar a variabilidade intraobservador, envolvendo duas anotações feitas pelo mesmo médico no mesmo conjunto de casos (Seção IV-C).


Figura 2. Visualização do desempenho de diferentes redes nas projeções de intensidade máxima coronal para 8 casos representativos. (a)-(d) mostram casos em que todas as redes tiveram desempenhos semelhantes, enquanto (e)-(h) mostram casos em que as redes tiveram desempenhos diferentes, muitas vezes devido a algumas delas preverem grandes FPVs. Alguns dos FPSV proeminentes foram indicados com setas azuis. O número na parte inferior direita de cada gráfico mostra o DSC entre a máscara prevista em 3D e a verdade básica.


Este artigo é disponível no arxiv sob licença CC 4.0.