paint-brush
Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Resultadospor@reinforcement
128 leituras

Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Resultados

Muito longo; Para ler

Este estudo realiza avaliação abrangente de quatro arquiteturas de redes neurais para segmentação de lesões de linfoma a partir de imagens PET/CT.
featured image - Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Resultados
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidade da Colúmbia Britânica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. Ele também foi Mitacs Accelerate Fellow (maio de 2022 - abril de 2023) no Microsoft AI for Good Lab, Redmond, WA, EUA (e-mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EUA;

(3) Claire Gowdy, Hospital Infantil BC, Vancouver, BC, Canadá;

(4) Joo HO, Hospital St. Mary, Seul, República da Coreia;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) François Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EUA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EUA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EUA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá.

Tabela de Links

4. RESULTADOS

A. Desempenho de segmentação


O desempenho das quatro redes foi avaliado usando mediana de DSC, FPV e FNV e média de DSC em conjuntos de testes internos (incluindo desempenhos segregados por diferentes coortes internas) e externos, conforme mostrado na Tabela II. Algumas visualizações do desempenho das redes foram ilustradas na Fig.


O SegResNet teve a mediana mais alta de DSC em conjuntos de testes internos e externos, com medianas de 0,76 [0,27, 0,88] e 0,68 [0,40, 0,78], respectivamente. Para as coortes individuais dentro do conjunto de testes internos, a UNet teve o melhor DSC em DLBCL-BCCV e PMBCL-BCCV com uma mediana de 0,72 [0,24, 0,89] e 0,74 [0,02, 0,90], respectivamente, enquanto SegResNet teve o melhor DSC de 0,78 [0,62, 0,87] em DLBCLSMHS. O SegResNet também teve o melhor FPV em conjuntos de testes internos e externos, com valores de 4,55 [1,35, 31,51] ml e 21,46 [6,30, 66,44] ml. Apesar da vitória da UNet no DSC para os conjuntos DLBCL-BCCV e PMBCL-BCCV, o SegResNet teve o melhor FPV em ambos os conjuntos com valores medianos de 5,78 [0,61, 19,97] ml e 2,15 [0,52, 7,18] ml, respectivamente, enquanto o UNet teve o melhor FPV de 8,71 [1,19, 34,1] ml no DLBCLSMHS. Finalmente, o SwinUNETR teve a melhor mediana de FNV de 0,0 [0,0, 4,65] ml no conjunto de teste interno, enquanto o UNet teve a melhor mediana de FNV de 0,41 [0,0, 3,88] ml no conjunto de teste externo. Em DLBCL-BCCV e DLBCL-SMHS, SwinUNETR teve a melhor mediana de FNV de 0,09 [0,0, 3,39] ml e 0,0 [0,0, 8,83] ml, respectivamente, enquanto em PMBCL-BCCV, UNet, DynUNet e SwinUNETR estavam empatados, cada com valor mediano de 0,0 [0,0; 1,24] ml.


Em primeiro lugar, tanto o SegResNet quanto o UNet generalizaram bem no conjunto de testes externos não vistos, com uma queda na média e mediana


TABELA IICOMPARAÇÃO DAS QUATRO REDES INTERNAS (AMBAS AGREGADAS E SEGREGADAS POR ORIGENS DE DADOS E SUBTIPOS DE LINFOMA) E CONJUNTOS DE TESTE EXTERNOS AVALIADOS VIA VALORES MÉDIOS DE DSC, FPV (EM ML) E FNV (EM ML) NO NÍVEL DO PACIENTE. TODOS OS VALORES MEDIANOS FORAM RELATADOS JUNTO COM SEUS IQRS. OS VALORES MÉDIOS DE DSC A NÍVEL DO PACIENTE NOS CONJUNTOS DE TESTE TAMBÉM SÃO RELATADOS COM OS DESVIOS PADRÃO CORRESPONDENTES.


desempenho em 4% e 8% e 2% e 8%, respectivamente, em comparação com o conjunto de teste interno. Embora o DSC mediano de DynUNet e SwinUNETR seja consideravelmente inferior ao SegResNet e UNet no conjunto de teste interno (em cerca de 6-9%), essas redes tiveram generalizações ainda melhores com uma queda no DSC mediano de apenas 4% e 6%, respectivamente , ao passar de testes internos para externos. Também é importante notar que os IQRs DSC para todas as redes foram maiores no conjunto de testes interno em comparação com o conjunto de testes externo. Além disso, todas as redes obtiveram um DSC de 75º quantil mais alto no conjunto de teste interno em comparação com o conjunto de teste externo, enquanto obtiveram um DSC de 25º quantil mais baixo no teste interno em comparação com o conjunto de teste externo (exceto para SwinUNETR onde esta tendência foi revertida ). Da mesma forma, para diferentes coortes dentro do conjunto de teste interno, todas as redes tiveram a mediana mais alta e o DSC do 25º quantil no conjunto DLBCL-SMHS. O pior desempenho foi obtido na coorte PMBCL-BCCV com o maior IQR em todas as redes (ver Seção IV-A.2 e Figura 6). Curiosamente, apesar de ter um desempenho inferior no DSC em conjuntos de testes internos e externos (em comparação com os modelos de melhor desempenho), o SwinUNETR teve os melhores valores medianos de FNV entre as coortes no conjunto de testes interno.




A mesma análise foi realizada no conjunto de teste externo, conforme mostrado na Fig. 4. Para o conjunto de teste externo, as únicas medidas de lesão que foram reproduzíveis foram SUVmean por SegResNet e SwinUNETR, número de lesões por SegResNet e TLG por DynUNet. Isto mostra que o desempenho das redes em termos de DSC ou outras métricas de segmentação tradicionais nem sempre reflecte a sua capacidade em estimar medidas de lesão. Medidas de lesão como SUVmax, número de lesões e Dmax são geralmente difíceis de reproduzir pelas redes. O SUVmax foi altamente sensível a previsões incorretas de falsos positivos em regiões de alta captação de SUV. Da mesma forma, o número de lesões foi altamente sensível a componentes desconectados segmentados incorretamente, e o Dmax foi altamente sensível à presença de uma previsão de falso positivo longe das segmentações verdadeiras (mesmo que os volumes de tais previsões de falso positivo pudessem ser muito pequenos, nesse caso, contribuiria muito pouco para TMTV ou TLG, como visto no conjunto de testes interno).




5. MAPE (%) em função das medidas de lesão da verdade terrestre para as quatro redes, UNet, SegResNet, DynUNet e SwinUNETR no conjunto de testes interno e externo combinado (Ncases = 233). O erro percentual na previsão da rede de medidas de lesão, em geral, diminui com o aumento dos valores das medidas de lesão verdadeira. Em particular, para medidas de SUVmax (b), número de lesões (c), TMTV (d) e TLG (e), o MAPE estabiliza para uma faixa mais alta de valores reais.


2) Efeito dos valores das medidas de lesão verdadeira no desempenho da rede: primeiro, calculamos medidas de lesão verdadeira para os conjuntos de testes internos e externos e analisamos o desempenho da UNet (com base em DSC) para cada uma dessas medidas e diferentes conjuntos de dados, conforme apresentado na Figura 6. O desempenho foi segregado em quatro categorias diferentes, a saber (i) conjunto de teste geral, (ii) casos com DSC <0,2, (iii) casos com 0,2 ≤ DSC ≤ 0,75 e (iv) casos com DSC > 0,75 no conjunto de teste. 6 (a)-(b), é evidente que para as categorias com DSCs mais elevados, os valores (médio e mediano) do nível do paciente SUVmédio e SUVmédio também foram maiores para a coorte interna, bem como para os conjuntos de testes da coorte externa . O menor desempenho geral no conjunto PMBCL-BCCV também pode ser atribuído à menor média geral e mediana do SUVmédio e do SUVmédio. Uma tendência semelhante foi observada para o número de lesões (Fig. 6 (c)) apenas no conjunto de testes externo, mas não em nenhuma das coortes de testes internos. Observe que o número médio de lesões no conjunto de testes externo foi consideravelmente maior do que qualquer um dos conjuntos de testes internos. Para TMTV e TLG, todas as coortes com DSCs mais elevados também apresentaram maiores médias e medianas de TMTVs ou TLGs, exceto na coorte DLBCL-SMHS, onde a categoria DSC < 0,2 apresentou maior média e mediana de TMTV e TLG. Essa anomalia pode ser atribuída ao fato de que, apesar de grandes, as lesões dos casos desta categoria para esta coorte eram fracas, conforme mostrado na Figura 6 (a)-(b). Finalmente, para Dmax, a categoria 0,2 ≤ DSC ≤ 0,75 teve a maior mediana de Dmax em todas as coortes e a maior média de Dmax em todas as coortes, exceto em DLBCL-SMHS. Valores mais baixos de Dmax significam menor propagação da doença, que pode corresponder a casos com apenas uma lesão pequena ou a várias lesões (pequenas ou grandes) localizadas nas proximidades.


Em segundo lugar, avaliamos o desempenho (DSC mediano) de


6. Variações de desempenho da UNet (DSC) para diferentes medidas de lesão de verdade em diferentes conjuntos de testes. Para cada conjunto de teste, as distribuições de medidas de lesão foram apresentadas como boxplots em quatro categorias diferentes, (i) no conjunto de teste geral, (ii) em casos com DSC < 0,2, (iii) 0,2 ≤ DSC ≤ 0,75 e (iv) ) DSC > 0,75. Os eixos y para todos os gráficos estão em escala logarítmica, e os valores médios e medianos para cada caixa foram representados como círculos brancos e linhas horizontais pretas, respectivamente.






B. Desempenho de detecção


Avaliamos o desempenho de nossas redes em três tipos de métricas de detecção, conforme definido na Seção III-D.2. O critério 1, sendo o critério de detecção mais fraco, teve a melhor sensibilidade geral de detecção de todos os critérios em todas as redes em conjuntos de testes internos e externos, seguido pelo critério 3 e depois pelo critério 2 (Fig. 8). A partir do Critério 1, UNet, SegResNet, DynUNet e SwinUNETR obtiveram sensibilidades medianas de 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] e 1,0 [0,66, 1,0] respectivamente no conjunto de teste interno , enquanto no conjunto externo obtiveram 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] e 0,67 [0,5, 0,86] respectivamente. Naturalmente, houve uma queda no desempenho ao passar dos testes internos para os externos. Além disso, o Critério 1 teve o melhor desempenho no número de métricas de FP com as redes obtendo 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] e 7,0 [3,0, 11,25] FPs medianos respectivamente em o conjunto de teste interno e 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] e 31,0 [21,0, 55,0] FPs medianos, respectivamente, no conjunto de teste externo.


8. Sensibilidade mediana de detecção e FP por paciente através dos três critérios de detecção para as quatro redes nos conjuntos de testes internos e externos. As bordas superior e inferior das caixas abrangem o IQR, enquanto as linhas horizontais vermelhas e os círculos brancos representam a mediana e a média, respectivamente. O comprimento dos bigodes é definido como 1,5 vezes o IQR e os valores discrepantes foram mostrados como diamantes negros.


Além disso, sendo um critério de detecção mais difícil, o Critério 2 teve as sensibilidades de detecção mais baixas para todas as redes, com mediana sendo 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] e 0,55 [0,19, 1,0] respectivamente no conjunto de teste interno e 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] e 0,27 [0,16, 0,5] respectivamente no conjunto de teste externo. Para este critério, a queda nas sensibilidades medianas ao passar do conjunto de testes interno para o externo é comparável às do Critério 1. Da mesma forma, para este critério, os FPs medianos por paciente foram 4,5 [2,0, 8,0], 4,0 [2,0, 8,0]. ], 6,0 [4,0, 12,25] e 9,0 [5,0, 13,0] respectivamente no conjunto de teste interno e 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] e 44,0 [27,0, 63,0] respectivamente no conjunto de teste externo. Apesar das sensibilidades serem mais baixas do que no Critério 1, os FPs por paciente são semelhantes nos conjuntos de testes internos e externos para o Critério 2 (embora a variação dos FPs medianos entre os critérios no conjunto de testes externo para SwinUNETR seja a mais alta).


Por fim, o Critério 3, baseado na detecção do voxel SUVmax das lesões, foi um critério intermediário entre os Critérios 1 e 2, uma vez que a capacidade do modelo de detectar lesões com precisão aumenta com o SUVmax da lesão (Seção IV-A.2). Para este critério, as redes tiveram sensibilidades medianas de 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] e 0,85 [0,53, 1,0] respectivamente no conjunto de teste interno, e 0,5 [0,33, 1,0], respectivamente, no conjunto de teste interno. 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] e 0,5 [0,4, 0,75] respectivamente no conjunto de teste externo. A queda nas sensibilidades entre conjuntos de testes internos e externos é comparável aos outros dois critérios. Da mesma forma, as redes tiveram FP mediano por paciente de 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] e 8,0 [4,0, 12,0] respectivamente no conjunto de teste interno, e 19,0 [12,0, 12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] e 39,0 [25,0, 58,0] respectivamente no conjunto de teste externo.


C. Variabilidade intra-observador


Para realizar a análise de variabilidade intra-observador, 60 casos de toda a coorte PMBCL-BCCV (abrangendo conjuntos de trem, válidos e de teste) foram ressegmentados pelo Médico 4. Este subconjunto era composto por 35 casos “fáceis” (casos com máscaras previstas pela UNet obtendo DSC > 0,75 com a verdade fundamental original) e 25 casos “difíceis” (DSC < 0,2). Para eliminar viés, a seleção desses casos, exceto pelos critérios do DSC, foi randomizada, garantindo que nenhuma preferência na seleção de casos específicos fosse dada durante o processo de ressegmentação.


A média geral e a mediana do DSC entre as segmentações originais e novas do médico nos casos “fáceis” e “difíceis” combinados foi de 0,50 ± 0,33 e 0,49 [0,20, 0,84]. Aqui, a média foi comparável ao desempenho do conjunto de testes PMBCL-BCCV (0,49 ± 0,42) da UNet, embora a mediana tenha sido muito inferior à da UNet (0,74 [0,02, 0,9]). Os casos “difíceis” exibiram menor reprodutibilidade na geração de verdades consistentes, conforme indicado pelos DSCs médios e medianos entre as anotações originais e re-segmentadas, que foram de 0,22±0,18 e 0,20 [0,05, 0,36], respectivamente. Por outro lado, para os casos “fáceis”, os valores médios e medianos do DSC foram 0,70 ± 0,26 e 0,82 [0,65, 0,87], respectivamente.




10. Avaliação da variabilidade intra-observador (Médico 4) usando os três critérios de detecção de sensibilidade mediana e métricas de FPs por paciente para os 35 casos “fáceis” e 25 “difíceis” da coorte PMBCL-BCCV. Para esta análise, a segmentação original do Médico 4 foi tratada como a verdade fundamental e as novas segmentações foram tratadas como as máscaras previstas. As bordas superior e inferior das caixas abrangem o IQR, enquanto as linhas horizontais vermelhas e os círculos brancos representam a mediana e a média, respectivamente. O comprimento dos bigodes é definido como 1,5 vezes o IQR e os valores discrepantes foram mostrados como diamantes negros.


Finalmente, também realizamos análises de detecção na segmentação original e nova, conforme ilustrado na Fig. 10. Para esta análise, tratamos a segmentação original como verdade fundamental e a nova segmentação como máscaras previstas. Para o Critério 1, as sensibilidades medianas de detecção nos casos “fáceis” e “difíceis” foram de 1,0 [1,0, 1,0], afirmando que o médico sempre segmentou pelo menos um voxel de forma consistente entre as anotações originais e as novas. Este critério teve PFs medianos por paciente de 0,0 [0,0, 2,0] e 0,0 [0,0, 0,0] nos casos “fáceis” e “difíceis”, respectivamente, afirmando que para os casos “difíceis”, o médico nunca segmentou nenhuma lesão em um localização totalmente diferente em comparação com suas máscaras originais. Para o Critério 2, as sensibilidades foram de 0,67 [0,08, 1,0] e 0,0 [0,0, 0,0] nos casos “fácil” e “difícil”, respectivamente. Isso significa que para a nova anotação nos casos “difíceis”, o médico nunca segmentou qualquer lesão que tivesse IoU > 0,5 com qualquer lesão da anotação original. Para este critério, a mediana dos FPs por paciente foi de 1,0 [0,5, 4,0] e 1,0 [1,0, 1,0] para os casos “fácil” e “difícil”, respectivamente. Finalmente, para o Critério 3, as sensibilidades foram 1,0 [0,84, 1,0] e 1,0 [0,5, 1,0], enquanto os FPs por paciente foram 0,0 [0,0, 3,0] e 0,0 [0,0, 1,0] para o “fácil” e “difícil”. ”casos respectivamente. Vale ressaltar que a tendência entre o desempenho de detecção do médico avaliado por esses três critérios é semelhante àquela das quatro redes da Seção IV-B (Critério 1 > Critério 3 > Critério 2).


D. Variabilidade interobservador


Nove casos (todos pertencentes a pacientes diferentes) foram selecionados aleatoriamente do conjunto DLBCL-BCCV que foram segmentados por dois médicos adicionais (Médicos 2 e 3). O coeficiente κ de Fleiss médio nesses 9 casos foi de 0,72, o que se enquadra na categoria de concordância “substancial” entre os médicos. Este nível de concordância ressalta a confiabilidade e a consistência da segmentação da verdade obtida de vários anotadores.


Em segundo lugar, calculamos o DSC pareado entre cada dois médicos para todos os 9 casos. As médias de DSCs entre os Médicos 1 e 2, 2 e 3 e 1 e 3 foram 0,67 ± 0,37, 0,83 ± 0,20 e 0,66 ± 0,37. Além disso, o consenso STAPLE [24] para os três médicos foi gerado para todos os 9 casos e os DSCs entre o STAPLE e as segmentações da verdade foram calculados para cada médico. As médias de DSCs com a verdade fundamental do STAPLE para os Médicos 1, 2 e 3 foram 0,75±0,37, 0,91±0,11 e 0,90±0,16, respectivamente.


Este artigo é disponível no arxiv sob licença CC 4.0.