Autores:
(1) Shadab Ahamed, Universidade da Colúmbia Britânica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. Ele também foi Mitacs Accelerate Fellow (maio de 2022 - abril de 2023) no Microsoft AI for Good Lab, Redmond, WA, EUA (e-mail: [email protected]);
(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EUA;
(3) Claire Gowdy, Hospital Infantil BC, Vancouver, BC, Canadá;
(4) Joo HO, Hospital St. Mary, Seul, República da Coreia;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;
(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;
(8) François Benard, BC Cancer, Vancouver, BC, Canadá;
(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;
(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EUA;
(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EUA;
(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EUA;
(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá;
(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, e Universidade da Colúmbia Britânica, Vancouver, BC, Canadá.
A. Desempenho de segmentação
O desempenho das quatro redes foi avaliado usando mediana de DSC, FPV e FNV e média de DSC em conjuntos de testes internos (incluindo desempenhos segregados por diferentes coortes internas) e externos, conforme mostrado na Tabela II. Algumas visualizações do desempenho das redes foram ilustradas na Fig.
O SegResNet teve a mediana mais alta de DSC em conjuntos de testes internos e externos, com medianas de 0,76 [0,27, 0,88] e 0,68 [0,40, 0,78], respectivamente. Para as coortes individuais dentro do conjunto de testes internos, a UNet teve o melhor DSC em DLBCL-BCCV e PMBCL-BCCV com uma mediana de 0,72 [0,24, 0,89] e 0,74 [0,02, 0,90], respectivamente, enquanto SegResNet teve o melhor DSC de 0,78 [0,62, 0,87] em DLBCLSMHS. O SegResNet também teve o melhor FPV em conjuntos de testes internos e externos, com valores de 4,55 [1,35, 31,51] ml e 21,46 [6,30, 66,44] ml. Apesar da vitória da UNet no DSC para os conjuntos DLBCL-BCCV e PMBCL-BCCV, o SegResNet teve o melhor FPV em ambos os conjuntos com valores medianos de 5,78 [0,61, 19,97] ml e 2,15 [0,52, 7,18] ml, respectivamente, enquanto o UNet teve o melhor FPV de 8,71 [1,19, 34,1] ml no DLBCLSMHS. Finalmente, o SwinUNETR teve a melhor mediana de FNV de 0,0 [0,0, 4,65] ml no conjunto de teste interno, enquanto o UNet teve a melhor mediana de FNV de 0,41 [0,0, 3,88] ml no conjunto de teste externo. Em DLBCL-BCCV e DLBCL-SMHS, SwinUNETR teve a melhor mediana de FNV de 0,09 [0,0, 3,39] ml e 0,0 [0,0, 8,83] ml, respectivamente, enquanto em PMBCL-BCCV, UNet, DynUNet e SwinUNETR estavam empatados, cada com valor mediano de 0,0 [0,0; 1,24] ml.
Em primeiro lugar, tanto o SegResNet quanto o UNet generalizaram bem no conjunto de testes externos não vistos, com uma queda na média e mediana
desempenho em 4% e 8% e 2% e 8%, respectivamente, em comparação com o conjunto de teste interno. Embora o DSC mediano de DynUNet e SwinUNETR seja consideravelmente inferior ao SegResNet e UNet no conjunto de teste interno (em cerca de 6-9%), essas redes tiveram generalizações ainda melhores com uma queda no DSC mediano de apenas 4% e 6%, respectivamente , ao passar de testes internos para externos. Também é importante notar que os IQRs DSC para todas as redes foram maiores no conjunto de testes interno em comparação com o conjunto de testes externo. Além disso, todas as redes obtiveram um DSC de 75º quantil mais alto no conjunto de teste interno em comparação com o conjunto de teste externo, enquanto obtiveram um DSC de 25º quantil mais baixo no teste interno em comparação com o conjunto de teste externo (exceto para SwinUNETR onde esta tendência foi revertida ). Da mesma forma, para diferentes coortes dentro do conjunto de teste interno, todas as redes tiveram a mediana mais alta e o DSC do 25º quantil no conjunto DLBCL-SMHS. O pior desempenho foi obtido na coorte PMBCL-BCCV com o maior IQR em todas as redes (ver Seção IV-A.2 e Figura 6). Curiosamente, apesar de ter um desempenho inferior no DSC em conjuntos de testes internos e externos (em comparação com os modelos de melhor desempenho), o SwinUNETR teve os melhores valores medianos de FNV entre as coortes no conjunto de testes interno.
A mesma análise foi realizada no conjunto de teste externo, conforme mostrado na Fig. 4. Para o conjunto de teste externo, as únicas medidas de lesão que foram reproduzíveis foram SUVmean por SegResNet e SwinUNETR, número de lesões por SegResNet e TLG por DynUNet. Isto mostra que o desempenho das redes em termos de DSC ou outras métricas de segmentação tradicionais nem sempre reflecte a sua capacidade em estimar medidas de lesão. Medidas de lesão como SUVmax, número de lesões e Dmax são geralmente difíceis de reproduzir pelas redes. O SUVmax foi altamente sensível a previsões incorretas de falsos positivos em regiões de alta captação de SUV. Da mesma forma, o número de lesões foi altamente sensível a componentes desconectados segmentados incorretamente, e o Dmax foi altamente sensível à presença de uma previsão de falso positivo longe das segmentações verdadeiras (mesmo que os volumes de tais previsões de falso positivo pudessem ser muito pequenos, nesse caso, contribuiria muito pouco para TMTV ou TLG, como visto no conjunto de testes interno).
2) Efeito dos valores das medidas de lesão verdadeira no desempenho da rede: primeiro, calculamos medidas de lesão verdadeira para os conjuntos de testes internos e externos e analisamos o desempenho da UNet (com base em DSC) para cada uma dessas medidas e diferentes conjuntos de dados, conforme apresentado na Figura 6. O desempenho foi segregado em quatro categorias diferentes, a saber (i) conjunto de teste geral, (ii) casos com DSC <0,2, (iii) casos com 0,2 ≤ DSC ≤ 0,75 e (iv) casos com DSC > 0,75 no conjunto de teste. 6 (a)-(b), é evidente que para as categorias com DSCs mais elevados, os valores (médio e mediano) do nível do paciente SUVmédio e SUVmédio também foram maiores para a coorte interna, bem como para os conjuntos de testes da coorte externa . O menor desempenho geral no conjunto PMBCL-BCCV também pode ser atribuído à menor média geral e mediana do SUVmédio e do SUVmédio. Uma tendência semelhante foi observada para o número de lesões (Fig. 6 (c)) apenas no conjunto de testes externo, mas não em nenhuma das coortes de testes internos. Observe que o número médio de lesões no conjunto de testes externo foi consideravelmente maior do que qualquer um dos conjuntos de testes internos. Para TMTV e TLG, todas as coortes com DSCs mais elevados também apresentaram maiores médias e medianas de TMTVs ou TLGs, exceto na coorte DLBCL-SMHS, onde a categoria DSC < 0,2 apresentou maior média e mediana de TMTV e TLG. Essa anomalia pode ser atribuída ao fato de que, apesar de grandes, as lesões dos casos desta categoria para esta coorte eram fracas, conforme mostrado na Figura 6 (a)-(b). Finalmente, para Dmax, a categoria 0,2 ≤ DSC ≤ 0,75 teve a maior mediana de Dmax em todas as coortes e a maior média de Dmax em todas as coortes, exceto em DLBCL-SMHS. Valores mais baixos de Dmax significam menor propagação da doença, que pode corresponder a casos com apenas uma lesão pequena ou a várias lesões (pequenas ou grandes) localizadas nas proximidades.
Em segundo lugar, avaliamos o desempenho (DSC mediano) de
B. Desempenho de detecção
Avaliamos o desempenho de nossas redes em três tipos de métricas de detecção, conforme definido na Seção III-D.2. O critério 1, sendo o critério de detecção mais fraco, teve a melhor sensibilidade geral de detecção de todos os critérios em todas as redes em conjuntos de testes internos e externos, seguido pelo critério 3 e depois pelo critério 2 (Fig. 8). A partir do Critério 1, UNet, SegResNet, DynUNet e SwinUNETR obtiveram sensibilidades medianas de 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] e 1,0 [0,66, 1,0] respectivamente no conjunto de teste interno , enquanto no conjunto externo obtiveram 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] e 0,67 [0,5, 0,86] respectivamente. Naturalmente, houve uma queda no desempenho ao passar dos testes internos para os externos. Além disso, o Critério 1 teve o melhor desempenho no número de métricas de FP com as redes obtendo 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] e 7,0 [3,0, 11,25] FPs medianos respectivamente em o conjunto de teste interno e 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] e 31,0 [21,0, 55,0] FPs medianos, respectivamente, no conjunto de teste externo.
Além disso, sendo um critério de detecção mais difícil, o Critério 2 teve as sensibilidades de detecção mais baixas para todas as redes, com mediana sendo 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] e 0,55 [0,19, 1,0] respectivamente no conjunto de teste interno e 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] e 0,27 [0,16, 0,5] respectivamente no conjunto de teste externo. Para este critério, a queda nas sensibilidades medianas ao passar do conjunto de testes interno para o externo é comparável às do Critério 1. Da mesma forma, para este critério, os FPs medianos por paciente foram 4,5 [2,0, 8,0], 4,0 [2,0, 8,0]. ], 6,0 [4,0, 12,25] e 9,0 [5,0, 13,0] respectivamente no conjunto de teste interno e 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] e 44,0 [27,0, 63,0] respectivamente no conjunto de teste externo. Apesar das sensibilidades serem mais baixas do que no Critério 1, os FPs por paciente são semelhantes nos conjuntos de testes internos e externos para o Critério 2 (embora a variação dos FPs medianos entre os critérios no conjunto de testes externo para SwinUNETR seja a mais alta).
Por fim, o Critério 3, baseado na detecção do voxel SUVmax das lesões, foi um critério intermediário entre os Critérios 1 e 2, uma vez que a capacidade do modelo de detectar lesões com precisão aumenta com o SUVmax da lesão (Seção IV-A.2). Para este critério, as redes tiveram sensibilidades medianas de 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] e 0,85 [0,53, 1,0] respectivamente no conjunto de teste interno, e 0,5 [0,33, 1,0], respectivamente, no conjunto de teste interno. 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] e 0,5 [0,4, 0,75] respectivamente no conjunto de teste externo. A queda nas sensibilidades entre conjuntos de testes internos e externos é comparável aos outros dois critérios. Da mesma forma, as redes tiveram FP mediano por paciente de 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] e 8,0 [4,0, 12,0] respectivamente no conjunto de teste interno, e 19,0 [12,0, 12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] e 39,0 [25,0, 58,0] respectivamente no conjunto de teste externo.
C. Variabilidade intra-observador
Para realizar a análise de variabilidade intra-observador, 60 casos de toda a coorte PMBCL-BCCV (abrangendo conjuntos de trem, válidos e de teste) foram ressegmentados pelo Médico 4. Este subconjunto era composto por 35 casos “fáceis” (casos com máscaras previstas pela UNet obtendo DSC > 0,75 com a verdade fundamental original) e 25 casos “difíceis” (DSC < 0,2). Para eliminar viés, a seleção desses casos, exceto pelos critérios do DSC, foi randomizada, garantindo que nenhuma preferência na seleção de casos específicos fosse dada durante o processo de ressegmentação.
A média geral e a mediana do DSC entre as segmentações originais e novas do médico nos casos “fáceis” e “difíceis” combinados foi de 0,50 ± 0,33 e 0,49 [0,20, 0,84]. Aqui, a média foi comparável ao desempenho do conjunto de testes PMBCL-BCCV (0,49 ± 0,42) da UNet, embora a mediana tenha sido muito inferior à da UNet (0,74 [0,02, 0,9]). Os casos “difíceis” exibiram menor reprodutibilidade na geração de verdades consistentes, conforme indicado pelos DSCs médios e medianos entre as anotações originais e re-segmentadas, que foram de 0,22±0,18 e 0,20 [0,05, 0,36], respectivamente. Por outro lado, para os casos “fáceis”, os valores médios e medianos do DSC foram 0,70 ± 0,26 e 0,82 [0,65, 0,87], respectivamente.
Finalmente, também realizamos análises de detecção na segmentação original e nova, conforme ilustrado na Fig. 10. Para esta análise, tratamos a segmentação original como verdade fundamental e a nova segmentação como máscaras previstas. Para o Critério 1, as sensibilidades medianas de detecção nos casos “fáceis” e “difíceis” foram de 1,0 [1,0, 1,0], afirmando que o médico sempre segmentou pelo menos um voxel de forma consistente entre as anotações originais e as novas. Este critério teve PFs medianos por paciente de 0,0 [0,0, 2,0] e 0,0 [0,0, 0,0] nos casos “fáceis” e “difíceis”, respectivamente, afirmando que para os casos “difíceis”, o médico nunca segmentou nenhuma lesão em um localização totalmente diferente em comparação com suas máscaras originais. Para o Critério 2, as sensibilidades foram de 0,67 [0,08, 1,0] e 0,0 [0,0, 0,0] nos casos “fácil” e “difícil”, respectivamente. Isso significa que para a nova anotação nos casos “difíceis”, o médico nunca segmentou qualquer lesão que tivesse IoU > 0,5 com qualquer lesão da anotação original. Para este critério, a mediana dos FPs por paciente foi de 1,0 [0,5, 4,0] e 1,0 [1,0, 1,0] para os casos “fácil” e “difícil”, respectivamente. Finalmente, para o Critério 3, as sensibilidades foram 1,0 [0,84, 1,0] e 1,0 [0,5, 1,0], enquanto os FPs por paciente foram 0,0 [0,0, 3,0] e 0,0 [0,0, 1,0] para o “fácil” e “difícil”. ”casos respectivamente. Vale ressaltar que a tendência entre o desempenho de detecção do médico avaliado por esses três critérios é semelhante àquela das quatro redes da Seção IV-B (Critério 1 > Critério 3 > Critério 2).
D. Variabilidade interobservador
Nove casos (todos pertencentes a pacientes diferentes) foram selecionados aleatoriamente do conjunto DLBCL-BCCV que foram segmentados por dois médicos adicionais (Médicos 2 e 3). O coeficiente κ de Fleiss médio nesses 9 casos foi de 0,72, o que se enquadra na categoria de concordância “substancial” entre os médicos. Este nível de concordância ressalta a confiabilidade e a consistência da segmentação da verdade obtida de vários anotadores.
Em segundo lugar, calculamos o DSC pareado entre cada dois médicos para todos os 9 casos. As médias de DSCs entre os Médicos 1 e 2, 2 e 3 e 1 e 3 foram 0,67 ± 0,37, 0,83 ± 0,20 e 0,66 ± 0,37. Além disso, o consenso STAPLE [24] para os três médicos foi gerado para todos os 9 casos e os DSCs entre o STAPLE e as segmentações da verdade foram calculados para cada médico. As médias de DSCs com a verdade fundamental do STAPLE para os Médicos 1, 2 e 3 foram 0,75±0,37, 0,91±0,11 e 0,90±0,16, respectivamente.
Este artigo é