paint-brush
Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Trabalho Relacionadopor@reinforcement

Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Trabalho Relacionado

Muito longo; Para ler

Este estudo realiza avaliação abrangente de quatro arquiteturas de redes neurais para segmentação de lesões de linfoma a partir de imagens PET/CT.
featured image - Redes Neurais Profundas para Detectar e Quantificar Lesões de Linfoma: Trabalho Relacionado
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidade da Colúmbia Britânica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. Ele também foi Mitacs Accelerate Fellow (maio de 2022 - abril de 2023) no Microsoft AI for Good Lab, Redmond, WA, EUA (e-mail: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EUA;

(3) Claire Gowdy, Hospital Infantil BC, Vancouver, BC, Canadá;

(4) Joo HO, Hospital St. Mary, Seul, República da Coreia;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) François Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EUA;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EUA;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EUA;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá.

Tabela de links

II. TRABALHO RELATADO

Numerosos trabalhos exploraram a aplicação de métodos de aprendizagem profunda para segmentar linfoma em imagens PET/CT. Yuan et al. [4] desenvolveram uma técnica de fusão de recursos para utilizar informações complementares de dados multimodais. Hu et al. [5] propuseram a fusão de uma combinação de ResUNet 3D treinado em dados volumétricos e três ResUNet 2D treinados em fatias 2D de três direções ortogonais para melhorar o desempenho da segmentação. Li et al. [6] propuseram o DenseX-Net treinado de ponta a ponta, integrando métodos supervisionados e não supervisionados para detecção e segmentação de linfoma. Liu et al. [7] introduziram técnicas como aumento de amostra negativa baseado em patch e orientação de rótulo para treinar uma UNet residual 3D para segmentação de linfoma. Uma grande limitação de todos esses trabalhos foi que foram desenvolvidos em conjuntos de dados de tamanho relativamente menor (menos de 100 imagens). Além disso, a maioria desses métodos não comparou o desempenho dos métodos propostos com outras linhas de base ou com o desempenho dos médicos.


Constantino et al. [8] compararam o desempenho de 7 métodos de segmentação de aprendizagem semiautomática e 2 de aprendizagem profunda, enquanto Weisman et al. [9] compararam 11 técnicas de segmentação automatizada, embora ambos os estudos tenham sido realizados em conjuntos de dados menores de tamanhos 65 e 90, respectivamente. Weisman et al. [10] compararam o desempenho de segmentação do método automatizado 3D Deep Medic com o do médico, embora mesmo este estudo tenha incluído apenas 90 casos de linfoma. Exceto [10], nenhum desses estudos relatou generalização do modelo em conjuntos de dados fora de distribuição (como em dados coletados de diferentes centros), limitando sua quantificação de robustez e validade externa. Jiang et al. [11] usaram um conjunto de dados relativamente maior em comparação com os estudos acima com 297 imagens para treinar uma UNet 3D. Eles até realizaram testes fora de distribuição em 117 imagens coletadas de um centro diferente. Até onde sabemos, o maior conjunto de dados de PET/CT de linfoma para segmentação de lesões baseada em aprendizagem profunda já relatado é o trabalho de Blanc-Durand et al. [12] que utilizaram 639 imagens para desenvolvimento de modelo e 94 para testes externos; no entanto, este estudo utilizou apenas métricas de avaliação de segmentação padrão e avaliou a capacidade do seu modelo para prever TMTV preciso. Ambos os estudos [11] e [12] são limitados pelo fato de que seus conjuntos de dados consistiam exclusivamente de pacientes com diagnóstico de linfoma difuso de grandes células B (DLBCL), representando apenas um único subtipo de linfoma.


A maioria dos estudos existentes sobre segmentação de linfoma baseada em aprendizagem profunda relatam seu desempenho em métricas genéricas de segmentação, como coeficiente de similaridade de dados (DSC), interseção sobre união (IoU), sensibilidade, etc. pequenas lesões perdidas ou pequenos falsos positivos não contribuem muito para o valor do DSC. Portanto, há necessidade de relatar os volumes de falsos positivos e falsos negativos. Também será benéfico avaliar o desempenho da detecção por lesão (número de componentes conectados detectados versus perdidos), uma vez que a detecção automatizada de até mesmo alguns voxels de todas as lesões pode ajudar os médicos a localizar rapidamente as regiões de interesse, mesmo que o O DSC está baixo. Além disso, a dificuldade da tarefa de segmentação/detecção muitas vezes não é avaliada através da análise de concordância inter ou intraobservador.



Nosso estudo visa abordar essas limitações. Treinamos e validamos quatro redes neurais profundas em conjuntos de dados PET/CT de linfoma de três coortes, abrangendo dois subtipos distintos de linfoma: DLBCL e linfoma primário de grandes células B do mediastino (PMBCL). (i) Realizamos testes tanto em (imagens provenientes das mesmas coortes do conjunto de treinamento/validação) quanto fora de distribuição ou externos (imagens de uma quarta coorte não usadas para treinamento/validação) para avaliar a robustez de nossos modelos. (ii) Relatamos o desempenho usando DSC, volumes de falsos positivos e negativos, e avaliamos a dependência do desempenho em seis tipos diferentes de medidas de lesão. (iii) Também avaliamos a capacidade de nossas redes de reproduzir essas medidas de lesão reais e o erro das redes computadas em predizê-las. (iv) Propusemos três tipos de critérios de detecção para nosso caso de uso e avaliamos o desempenho do modelo nessas métricas. (v) Finalmente, avaliamos a concordância intra e interobservador para dar uma medida da dificuldade da tarefa de segmentação de lesões em nossos conjuntos de dados.


Este artigo está disponível no arxiv sob licença CC 4.0.