paint-brush
Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Discussãopor@reinforcement

Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Discussão

Muito longo; Para ler

Este estudo realiza avaliação abrangente de quatro arquiteturas de redes neurais para segmentação de lesões de linfoma a partir de imagens PET/CT.
featured image - Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Discussão
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidade da Colúmbia Britânica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. Ele também foi Mitacs Accelerate Fellow (maio de 2022 - abril de 2023) no Microsoft AI for Good Lab, Redmond, WA, EUA (e-mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EUA;

(3) Claire Gowdy, Hospital Infantil BC, Vancouver, BC, Canadá;

(4) Joo HO, Hospital St. Mary, Seul, República da Coreia;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) François Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EUA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EUA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EUA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá.

Tabela de Links

V. DISCUSSÃO

Neste trabalho, treinamos e avaliamos quatro arquiteturas distintas de redes neurais para automatizar a segmentação de lesões de linfoma a partir de conjuntos de dados PET/CT provenientes de três coortes diferentes. Para avaliar o desempenho dos modelos, conduzimos avaliações abrangentes no conjunto de testes internos originados dessas três coortes e mostramos que SegResNet e UNet superaram DynUNet e SwinUNETR nas métricas DSC (média e mediana) e FPV mediana, enquanto SwinUNETR teve o melhor FNV mediano. Além das avaliações internas, estendemos nossa análise para abranger uma fase externa de testes fora de distribuição em um conjunto de dados público considerável de PET/CT de linfoma. Também neste conjunto de testes externos, o SegResNet emergiu como o melhor desempenho em termos de métricas DSC e FPV, ressaltando sua robustez e eficácia, enquanto o UNet apresentou o melhor desempenho em FNV.


É importante destacar que SegResNet e UNet foram treinados em patches de tamanhos maiores, especificamente (224, 224, 224) e (192, 192, 192) respectivamente, enquanto DynUNet e SwinUNETR foram treinados usando patches relativamente menores, a saber (160, 160, 160) e (128, 128, 128) respectivamente. A utilização de tamanhos de patches maiores durante o treinamento permite que as redes neurais capturem uma compreensão contextual mais extensa dos dados, melhorando assim seu desempenho em tarefas de segmentação [17]. Esta observação está alinhada com nossos resultados, onde o desempenho superior do SegResNet e UNet pode ser atribuído à sua exposição a patches maiores durante o treinamento. Além disso, tamanhos de lote maiores permitem um treinamento robusto, estimando com precisão os gradientes [17], mas com os tamanhos de patches de treinamento escolhidos, não poderíamos treinar SegResNet, DynUNet e SwinUNETR com nb> 1 devido a limitações de memória (embora pudéssemos acomodar nb = 8 para UNet). Portanto, para uma comparação justa entre redes, todas as redes foram treinadas com nb = 1. É importante notar que nossa incapacidade de treinar DynUNet e SwinUNETR em patches maiores e tamanhos de minilotes se deveu principalmente a limitações de recursos computacionais. No entanto, esta limitação apresenta um caminho para pesquisas futuras, onde o treinamento desses modelos com patches e tamanhos de lote maiores poderia potencialmente produzir melhorias adicionais na precisão da segmentação.


Avaliamos a reprodutibilidade das medidas das lesões e descobrimos que no conjunto de testes interno, TMTV e TLG foram reproduzíveis em todas as redes, enquanto o Dmax não foi reproduzível por nenhuma rede. SUVmean foi reproduzível por todas as redes exceto UNet, SUVmax apenas por SegResNet e número de lesões apenas por UNet e SegResNet. No conjunto de testes externo, a reprodutibilidade foi mais limitada, com apenas SUVmean sendo reproduzível tanto pelo SegResNet quanto pelo SwinUNETR, número de lesões pelo SegResNet e TLG pelo DynUNet (Fig. 3 e 4). Além disso, quantificamos o erro das redes na estimativa do valor das medidas de lesão usando MAPE e descobrimos que o MAPE geralmente diminui em função dos valores de medida de lesão (para todas as medidas de lesão) no conjunto de testes interno e externo combinado (Fig. 5). As redes geralmente cometiam erros significativos na previsão precisa quando as medidas reais de lesão eram muito pequenas. Também mostramos que, em geral, em um conjunto de imagens com lesão maior no nível do paciente SUVmean, SUVmean, TMTV e TLG, uma rede é capaz de prever uma mediana de DSC mais alta, embora para valores muito altos dessas medidas de lesão, o desempenho geralmente planaltos. Por outro lado, o desempenho do DSC não é muito afetado pelo número de lesões, enquanto para um conjunto de imagens com maior Dmax o desempenho geralmente diminui para todas as redes (Fig. 7).


Como muitos dos dados PET/CT são de propriedade privada de instituições de saúde, isso representa desafios significativos para os pesquisadores no acesso a diversos conjuntos de dados para treinamento e teste de modelos de aprendizagem profunda. Nesse cenário, para melhorar a interpretabilidade dos modelos, é crucial que os pesquisadores investiguem como o desempenho dos seus modelos depende das características do conjunto de dados. Ao estudar como o desempenho do modelo se correlaciona com as características da imagem/lesão, os pesquisadores podem obter insights sobre os pontos fortes e limitações de seus modelos [13].


Juntamente com a avaliação do desempenho da segmentação, também introduzimos três critérios de detecção distintos, denominados Critério 1, 2 e 3. Esses critérios serviram a um propósito específico: avaliar o desempenho das redes por lesão. Isto contrasta com a avaliação do desempenho da segmentação, que se concentra principalmente na precisão do nível de voxel das redes. A lógica por trás da introdução destes critérios de detecção reside na necessidade de avaliar quão bem as redes identificam e detectam lesões dentro das imagens, em vez de meramente avaliar a sua capacidade de delinear limites de lesões ao nível do voxel. A capacidade de detectar a presença de lesões (Critério 1) é crucial, pois influencia diretamente se um potencial problema de saúde é identificado ou ignorado. A detecção de até mesmo um único voxel de uma lesão pode desencadear investigações adicionais ou planejamento de tratamento. A contagem de lesões e a localização precisa (Critério 2) são importantes para o planejamento do tratamento e monitoramento da progressão da doença. Saber não apenas que existe uma lesão, mas também quantas existem e onde estão localizadas pode impactar significativamente as decisões terapêuticas. O critério 3, que se concentrou na segmentação das lesões com base nas características metabólicas da lesão (SUVmax), acrescenta uma camada adicional de relevância clínica.


Usando essas métricas de detecção, avaliamos as sensibilidades e as detecções de FP para todas as redes e mostramos que dependendo dos critérios de detecção, uma rede pode ter uma sensibilidade muito alta mesmo quando o desempenho do DSC era baixo. Dados esses diferentes critérios de detecção, um modelo treinado pode ser escolhido com base em casos de uso clínico específicos. Por exemplo, alguns casos de uso podem envolver a capacidade de detectar todas as lesões sem ser excessivamente cauteloso ao segmentar os limites exatos da lesão, enquanto alguns outros casos de uso podem procurar delineações de limites mais robustas.


Além disso, avaliamos a variabilidade intra-observador de um médico na segmentação de casos “fáceis” e “difíceis”, observando desafios na segmentação consistente de casos do subconjunto “difícil”. Na segmentação de lesões de linfoma, os casos podem variar em dificuldade devido a fatores como tamanho, formato e localização das lesões ou qualidade da imagem. Ao identificar quais casos são consistentemente difíceis de segmentar, mesmo para um médico experiente, obtivemos insights sobre as complexidades e nuances da tarefa de segmentação. Por fim, avaliamos também a concordância interobservador entre três médicos. Embora tenhamos inferido que houve um nível substancial de concordância entre os três médicos, a avaliação foi realizada apenas em nove casos, resultando em baixo poder estatístico.


Para melhorar a consistência da verdade básica na segmentação de imagens médicas, é essencial um protocolo bem definido. Este protocolo deve envolver vários médicos especialistas de forma independente no delineamento de regiões de interesse (ROIs) ou lesões em imagens PET/CT. Em vez de um único médico segmentar uma coorte de forma independente, vários anotadores deveriam segmentar as mesmas imagens sem conhecimento do trabalho uns dos outros. Discrepâncias ou divergências entre médicos podem ser resolvidas por meio de abordagens estruturadas, como discussões facilitadas, revisões de informações clínicas ou esclarecimentos de imagens. Este processo robusto de verdade aumenta a precisão do acordo entre observadores e fortalece a validade dos resultados da pesquisa e das aplicações clínicas que dependem dessas anotações.


Este artigo é disponível no arxiv sob licença CC 4.0.