paint-brush
Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: resultadospor@reinforcement
128 lecturas

Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: resultados

Demasiado Largo; Para Leer

Este estudio realiza una evaluación integral de cuatro arquitecturas de redes neuronales para la segmentación de lesiones de linfoma a partir de imágenes PET/CT.
featured image - Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: resultados
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidad de Columbia Británica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. También fue miembro de Mitacs Accelerate (mayo de 2022 - abril de 2023) en Microsoft AI for Good Lab, Redmond, WA, EE. UU. (correo electrónico: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Canadá;

(4) Joo H. O, St. Mary's Hospital, Seúl, República de Corea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá.

Tabla de enlaces

IV. RESULTADOS

A. Desempeño de la segmentación


El rendimiento de las cuatro redes se evaluó utilizando DSC, FPV y FNV medios y DSC medio en conjuntos de pruebas internos (incluidos los rendimientos segregados por diferentes cohortes internas) y externos, como se muestra en la Tabla II. En la Fig. 2 se ilustran algunas visualizaciones del rendimiento de las redes.


SegResNet tuvo la mediana más alta de DSC en conjuntos de pruebas internos y externos con medianas de 0,76 [0,27, 0,88] y 0,68 [0,40, 0,78], respectivamente. Para las cohortes individuales dentro del conjunto de pruebas internas, UNet tuvo el mejor DSC tanto en DLBCL-BCCV como en PMBCL-BCCV con una mediana de 0,72 [0,24, 0,89] y 0,74 [0,02, 0,90], respectivamente, mientras que SegResNet tuvo el mejor DSC de 0,78 [0,62, 0,87] en DLBCLSMHS. SegResNet también tuvo el mejor FPV en equipos de prueba internos y externos con valores de 4,55 [1,35, 31,51] ml y 21,46 [6,30, 66,44] ml. A pesar de que UNet ganó en DSC para los conjuntos DLBCL-BCCV y PMBCL-BCCV, SegResNet tuvo el mejor FPV en ambos conjuntos con valores medios de 5,78 [0,61, 19,97] ml y 2,15 [0,52, 7,18] ml, respectivamente, mientras que UNet tuvo el mejor FPV de 8,71 [1,19, 34,1] ml en DLBCLSMHS. Finalmente, SwinUNETR tuvo la mejor mediana de FNV de 0,0 [0,0, 4,65] ml en el conjunto de pruebas internas, mientras que UNet tuvo la mejor mediana de FNV de 0,41 [0,0, 3,88] ml en el conjunto de pruebas externas. En DLBCL-BCCV y DLBCL-SMHS, SwinUNETR tuvo la mejor mediana de FNV de 0,09 [0,0, 3,39] ml y 0,0 [0,0, 8,83] ml, respectivamente, mientras que en PMBCL-BCCV, UNet, DynUNet y SwinUNETR estaban empatados, cada uno con un valor mediano de 0,0 [0,0, 1,24] ml.


En primer lugar, tanto SegResNet como UNet se generalizaron bien en el conjunto de pruebas externas invisibles, con una caída en la media y la mediana.


TABLA IICOMPARACIÓN DE LAS CUATRO REDES INTERNAS (AGREGADAS Y SEGREGADAS POR ORÍGENES DE DATOS Y SUBTIPOS DE LINFOMA) Y EXTERNAS EVALUADAS MEDIANTE VALORES MEDIANOS DE DSC, FPV (EN ML) Y FNV (EN ML) A NIVEL DEL PACIENTE. TODOS LOS VALORES MEDIANOS HAN SIDO INFORMADOS JUNTO CON SUS IQRS. LOS VALORES MEDIOS DE DSC A NIVEL DEL PACIENTE EN LOS CONJUNTOS DE PRUEBA TAMBIÉN SE INFORMAN CON LAS CORRESPONDIENTES DESVIACIONES ESTÁNDAR.


rendimiento en un 4% y 8% y un 2% y 8%, respectivamente, en comparación con el conjunto de pruebas internas. Aunque la mediana de DSC de DynUNet y SwinUNETR es considerablemente más baja que la de SegResNet y UNet en el conjunto de pruebas internas (entre un 6% y un 9%), estas redes tuvieron generalizaciones aún mejores con una caída en la mediana de DSC de solo el 4% y el 6%, respectivamente. , al pasar de pruebas internas a externas. También vale la pena señalar que los IQR de DSC para todas las redes fueron mayores en el conjunto de pruebas interno en comparación con el conjunto de pruebas externo. Además, todas las redes obtuvieron un DSC del cuantil 75 más alto en el conjunto de pruebas interno en comparación con el conjunto de pruebas externo, mientras que obtuvieron un DSC del cuantil 25 más bajo en la prueba interna en comparación con el conjunto de pruebas externo (excepto SwinUNETR donde esta tendencia se revirtió). ). De manera similar, para diferentes cohortes dentro del conjunto de pruebas internas, todas las redes tuvieron la mediana más alta y el cuantil 25 de DSC en el conjunto DLBCL-SMHS. El peor desempeño se obtuvo en la cohorte PMBCL-BCCV con el IQR más grande en todas las redes (ver Sección IV-A.2 y Fig. 6). Curiosamente, a pesar de tener un rendimiento más bajo en DSC en los conjuntos de pruebas internos y externos (en comparación con los modelos de mejor rendimiento), SwinUNETR tuvo los mejores valores medios de FNV en todas las cohortes en el conjunto de pruebas internas.




Se llevó a cabo el mismo análisis en el conjunto de pruebas externo, como se muestra en la Fig. 4. Para el conjunto de pruebas externas, las únicas medidas de lesión que fueron reproducibles fueron el SUVmean de SegResNet y SwinUNETR, el número de lesiones de SegResNet y TLG de DynUNet. Esto muestra que el rendimiento de las redes en términos de DSC u otras métricas de segmentación tradicionales no siempre reflejan su capacidad para estimar medidas de lesiones. Las medidas de lesiones como SUVmax, número de lesiones y Dmax suelen ser difíciles de reproducir por las redes. SUVmax fue muy sensible a predicciones falsas positivas incorrectas en regiones de alta aceptación de SUV. De manera similar, el número de lesiones era muy sensible a componentes desconectados segmentados incorrectamente, y Dmax era muy sensible a la presencia de una predicción falsa positiva lejos de las segmentaciones reales del terreno (aunque los volúmenes de tales predicciones falsas positivas podrían ser muy pequeños, en cuyo caso contribuiría muy poco a TMTV o TLG, como se ve en el equipo de prueba interno).




Fig. 5. MAPE (%) en función de las medidas de lesión real del terreno para las cuatro redes, UNet, SegResNet, DynUNet y SwinUNETR en el conjunto de pruebas internas y externas combinadas (Ncases = 233). El error porcentual en la predicción de la red de las medidas de lesión, en general, disminuye al aumentar los valores de las medidas de lesión reales. En particular, para las medidas SUVmax (b), número de lesiones (c), TMTV (d) y TLG (e), MAPE se estabiliza para un rango más alto de valores de verdad sobre el terreno.


2) Efecto de los valores de las medidas de lesión de verdad sobre el terreno en el rendimiento de la red: Primero, calculamos medidas de lesión de verdad sobre el terreno para los conjuntos de pruebas internos y externos, y analizamos el desempeño de UNet (basado en DSC) para cada una de estas medidas y diferentes conjuntos de datos. como se presenta en la Fig. 6. El rendimiento se segregó en cuatro categorías diferentes, a saber (i) conjunto de pruebas general, (ii) casos con DSC <0,2, (iii) casos con 0,2 ≤ DSC ≤ 0,75 y (iv) casos con DSC > 0,75 en el conjunto de prueba. De la Fig. 6 (a)-(b), es evidente que para las categorías con DSC más altos, los valores (media y mediana) de SUVmean y SUVmean a nivel de paciente también fueron más altos para la cohorte interna, así como para los conjuntos de pruebas de cohorte externa. . El rendimiento general más bajo en el conjunto PMBCL-BCCV también se puede atribuir a una media y mediana general más bajas de SUVmean y SUVmean. Se observó una tendencia similar para el número de lesiones (Fig. 6 (c)) solo en el conjunto de pruebas externas, pero no en ninguna de las cohortes de pruebas internas. Tenga en cuenta que el número medio de lesiones en el conjunto de pruebas externo fue considerablemente mayor que en cualquiera de los conjuntos de pruebas internos. Para TMTV y TLG, todas las cohortes con DSC más altos también tuvieron TMTV o TLG promedio y mediano más altos, excepto en la cohorte DLBCL-SMHS, donde la categoría DSC <0.2 tuvo el TMTV y TLG promedio y mediano más altos. Esta anomalía se puede atribuir al hecho de que, a pesar de ser grandes, las lesiones de los casos de esta categoría para esta cohorte eran débiles, como se muestra en la Fig. 6 (a) - (b). Finalmente, para Dmax, la categoría 0,2 ≤ DSC ≤ 0,75 tuvo la Dmax mediana más alta en todas las cohortes y la Dmax media más alta en todas las cohortes excepto en DLBCL-SMHS. Valores más bajos de Dmax significan una menor propagación de la enfermedad, que puede corresponder a casos con una sola lesión pequeña o a varias lesiones (pequeñas o grandes) ubicadas cerca.


En segundo lugar, evaluamos el desempeño (mediana DSC) de


Fig. 6. Variaciones del rendimiento de UNet (DSC) para diferentes medidas de lesión de verdad del terreno en diferentes conjuntos de prueba. Para cada conjunto de pruebas, las distribuciones de las medidas de lesión se han presentado como diagramas de caja en cuatro categorías diferentes, (i) en el conjunto de pruebas general, (ii) en casos con DSC <0,2, (iii) 0,2 ≤ DSC ≤ 0,75 y (iv ) DSC > 0,75. Los ejes y de todos los gráficos están en escala logarítmica y los valores medio y mediano de cada cuadro se han representado como círculos blancos y líneas horizontales negras, respectivamente.






B. Rendimiento de detección


Evaluamos el desempeño de nuestras redes en tres tipos de métricas de detección, como se define en la Sección III-D.2. El Criterio 1, al ser el criterio de detección más débil, tuvo la mejor sensibilidad de detección general de todos los criterios en todas las redes en conjuntos de pruebas tanto internos como externos, seguido por el Criterio 3 y luego el Criterio 2 (Fig. 8). A partir del Criterio 1, UNet, SegResNet, DynUNet y SwinUNETR obtuvieron sensibilidades medianas de 1,0 [0,57, 1,0], 1,0 [0,59, 1,0], 1,0 [0,63, 1,0] y 1,0 [0,66, 1,0] respectivamente en el conjunto de pruebas interno. , mientras que en el conjunto externo obtuvieron 0,67 [0,5, 1,0], 0,68 [0,51, 0,89], 0,70 [0,5, 1,0] y 0,67 [0,5, 0,86] respectivamente. Naturalmente, hubo una caída en el rendimiento al pasar de las pruebas internas a las externas. Además, el Criterio 1 tuvo el mejor rendimiento en el número de métricas de FP: las redes obtuvieron una mediana de FP de 4,0 [1,0, 6,0], 3,0 [2,0, 6,0], 5,0 [2,0, 10,0] y 7,0 [3,0, 11,25] respectivamente en el conjunto de prueba interno, y 16,0 [9,0, 24,0], 10,0 [7,0, 19,0], 18,0 [10,0, 29,0] y 31,0 [21,0, 55,0] FP medios respectivamente en el conjunto de prueba externo.


Fig. 8. Sensibilidad de detección media y FP por paciente mediante los tres criterios de detección para las cuatro redes en los equipos de prueba internos y externos. Los bordes superior e inferior de los cuadros abarcan el IQR, mientras que las líneas horizontales rojas y los círculos blancos representan la mediana y la media respectivamente. La longitud de los bigotes se establece en 1,5 veces el IQR y los valores atípicos se muestran como diamantes negros.


Además, al ser un criterio de detección más difícil, el Criterio 2 tuvo las sensibilidades de detección más bajas para todas las redes, con una mediana de 0,5 [0,0, 1,0], 0,56 [0,19, 1,0], 0,5 [0,17, 1,0] y 0,55 [0,19, 1,0] respectivamente. en el equipo de prueba interno y 0,25 [0,1, 0,5], 0,25 [0,14, 0,5], 0,25 [0,13, 0,5] y 0,27 [0,16, 0,5] respectivamente en el equipo de prueba externo. Para este criterio, la caída en la sensibilidad mediana al pasar del conjunto de pruebas internas al externa es comparable a la del Criterio 1. De manera similar, para este criterio, la mediana de PF por paciente fue 4,5 [2,0, 8,0], 4,0 [2,0, 8,0 ], 6,0 [4,0, 12,25] y 9,0 [5,0, 13,0] respectivamente en el conjunto de prueba interno, y 22,0 [14,0, 36,0], 17,0 [10,0, 28,0], 25,0 [16,0, 37,0] y 44,0 [27,0, 63.0] respectivamente en el equipo de prueba externo. A pesar de que las sensibilidades son más bajas que en el Criterio 1, los PF por paciente son similares en los conjuntos de pruebas internas y externas para el Criterio 2 (aunque la variación de la mediana de PF entre los criterios en el conjunto de pruebas externas para SwinUNETR es la más alta).


Finalmente, el Criterio 3, basado en la detección del vóxel SUVmax de las lesiones, fue un criterio intermedio entre los Criterios 1 y 2, ya que la capacidad del modelo para detectar lesiones con precisión aumenta con el SUVmax de la lesión (Sección IV-A.2). Para este criterio, las redes tuvieron sensibilidades medianas de 0,75 [0,49, 1,0], 0,75 [0,5, 1,0], 0,78 [0,5, 1,0] y 0,85 [0,53, 1,0] respectivamente en el conjunto de pruebas internas, y 0,5 [0,33, 1,0] respectivamente. 0,75], 0,53 [0,38, 0,74], 0,5 [0,37, 0,75] y 0,5 [0,4, 0,75] respectivamente en el equipo de prueba externo. La caída de la sensibilidad entre los conjuntos de pruebas internos y externos es comparable a los otros dos criterios. De manera similar, las redes tuvieron una mediana de PF por paciente de 4,0 [1,0, 8,0], 4,0 [2,0, 7,0], 5,0 [3,0, 11,0] y 8,0 [4,0, 12,0] respectivamente en el conjunto de pruebas internas, y 19,0 [12,0, 29,0], 14,0 [8,0, 22,0], 22,0 [14,0, 35,0] y 39,0 [25,0, 58,0] respectivamente en el equipo de prueba externo.


C. Variabilidad intraobservador


Para realizar el análisis de variabilidad intraobservador, el Médico 4 volvió a segmentar 60 casos de toda la cohorte PMBCL-BCCV (que incluye conjuntos de tren, válidos y de prueba). Este subconjunto estaba compuesto por 35 casos "fáciles" (casos con máscaras predichas por UNet obteniendo DSC > 0,75 con la verdad fundamental original) y 25 casos “difíciles” (DSC < 0,2). Para eliminar el sesgo, la selección de estos casos, excepto los criterios DSC, fue aleatoria, asegurando que no se diera preferencia en la selección de casos específicos durante el proceso de resegmentación.


La media y mediana general del DSC entre las segmentaciones originales y nuevas del médico en los casos "fáciles" y "difíciles" combinados fue de 0,50 ± 0,33 y 0,49 [0,20, 0,84]. Aquí, la media fue comparable al rendimiento del conjunto de pruebas PMBCL-BCCV (0,49 ± 0,42) de UNet, aunque la mediana fue mucho menor que la de UNet (0,74 [0,02, 0,9]). Los casos "difíciles" exhibieron una menor reproducibilidad en la generación de una verdad fundamental consistente, como lo indican los DSC medio y mediano entre las anotaciones originales y re-segmentadas, que resultaron ser 0,22 ± 0,18 y 0,20 [0,05, 0,36] respectivamente. Por el contrario, para los casos "fáciles", los valores medios y medianos de DSC fueron 0,70 ± 0,26 y 0,82 [0,65, 0,87] respectivamente.




Fig. 10. Evaluación de la variabilidad intraobservador (Médico 4) utilizando los tres criterios de detección sobre la sensibilidad media y las métricas de FP por paciente para los 35 casos "fáciles" y 25 "difíciles" de la cohorte PMBCL-BCCV. Para estos análisis, la segmentación original realizada por el Médico 4 se trató como la verdad fundamental y las nuevas segmentaciones se trataron como las máscaras predichas. Los bordes superior e inferior de los cuadros abarcan el IQR, mientras que las líneas horizontales rojas y los círculos blancos representan la mediana y la media respectivamente. La longitud de los bigotes se establece en 1,5 veces el IQR y los valores atípicos se muestran como diamantes negros.


Finalmente, también realizamos un análisis de detección en la segmentación original y nueva, como se ilustra en la Fig. 10. Para este análisis, tratamos la segmentación original como verdad fundamental y la nueva segmentación como máscaras predichas. Para el Criterio 1, la mediana de las sensibilidades de detección tanto en los casos "fáciles" como en los "difíciles" fue de 1,0 [1,0, 1,0], lo que indica que el médico siempre segmentó al menos un vóxel de forma consistente entre las anotaciones originales y las nuevas. Este criterio tuvo una mediana de PF por paciente de 0,0 [0,0, 2,0] y 0,0 [0,0, 0,0] en los casos “fáciles” y “difíciles” respectivamente, indicando que para los casos “difíciles”, el médico nunca segmentó ninguna lesión en un ubicación completamente diferente en comparación con sus máscaras originales. Para el Criterio 2, las sensibilidades fueron 0,67 [0,08, 1,0] y 0,0 [0,0, 0,0] en los casos “fáciles” y “difíciles”, respectivamente. Esto significa que para la nueva anotación en los casos "difíciles", el médico nunca segmentó ninguna lesión que tuviera un IoU > 0,5 con ninguna lesión de la anotación original. Para este criterio, la mediana de PF por paciente fue 1,0 [0,5, 4,0] y 1,0 [1,0, 1,0] para los casos “fáciles” y “difíciles”, respectivamente. Finalmente, para el Criterio 3, las sensibilidades fueron 1,0 [0,84, 1,0] y 1,0 [0,5, 1,0], mientras que los PF por paciente fueron 0,0 [0,0, 3,0] y 0,0 [0,0, 1,0] para los criterios “fácil” y “difícil”. ”casos respectivamente. Vale la pena señalar que la tendencia entre el desempeño de detección del médico evaluado por estos tres criterios es similar a la de las cuatro redes en la Sección IV-B (Criterio 1 > Criterio 3 > Criterio 2).


D. Variabilidad entre observadores


Se seleccionaron aleatoriamente nueve casos (todos pertenecientes a diferentes pacientes) del conjunto DLBCL-BCCV que fueron segmentados por dos médicos adicionales (Médicos 2 y 3). El coeficiente κ de Fleiss medio en estos 9 casos fue de 0,72, lo que entra en la categoría de acuerdo "sustancial" entre los médicos. Este nivel de acuerdo subraya la confiabilidad y coherencia de la segmentación de la verdad fundamental obtenida de múltiples anotadores.


En segundo lugar, calculamos el DSC por pares entre cada dos médicos para los 9 casos. Las DSC medias entre los médicos 1 y 2, 2 y 3 y 1 y 3 fueron 0,67 ± 0,37, 0,83 ± 0,20 y 0,66 ± 0,37. Además, se generó el consenso de STAPLE [24] para los tres médicos para los 9 casos y se calcularon las DSC entre las segmentaciones de STAPLE y de verdad fundamental para cada médico. Las DSC medias con la verdad fundamental de STAPLE para los médicos 1, 2 y 3 fueron 0,75 ± 0,37, 0,91 ± 0,11 y 0,90 ± 0,16, respectivamente.


Este documento es disponible en arxiv bajo licencia CC 4.0.