paint-brush
Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: materiales y métodospor@reinforcement

Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: materiales y métodos

Demasiado Largo; Para Leer

Este estudio realiza una evaluación integral de cuatro arquitecturas de redes neuronales para la segmentación de lesiones de linfoma a partir de imágenes PET/CT.
featured image - Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: materiales y métodos
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidad de Columbia Británica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. También fue miembro de Mitacs Accelerate (mayo de 2022 - abril de 2023) en Microsoft AI for Good Lab, Redmond, WA, EE. UU. (correo electrónico: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Canadá;

(4) Joo H. O, St. Mary's Hospital, Seúl, República de Corea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá.

Tabla de enlaces

Conclusión y referencias
III. MATERIALES Y MÉTODOS

A. Conjunto de datos


1) Descripción: En este trabajo, utilizamos un conjunto de datos de PET/CT de cuerpo entero grande, diverso y multiinstitucional con un total de 611 casos. Estas exploraciones provinieron de cuatro cohortes retrospectivas: (i) DLBCL-BCCV: 107 exploraciones de 79 pacientes con DLBCL de BC Cancer, Vancouver (BCCV), Canadá; (ii) PMBCLBCCV: 139 exploraciones de 69 pacientes con PMBCL de BC Cancer; (iii) DLBCL-SMHS: 220 exploraciones de 219 pacientes con DLBCL del Hospital St. Mary's, Seúl (SMHS), Corea del Sur; (iv) Linfoma AutoPET: 145 exploraciones de 144 pacientes con linfoma del Hospital Universitario de Tubingen, Alemania ¨ [14]. En la Tabla I se proporciona una descripción adicional sobre el número de exploraciones, la edad y el sexo del paciente y los fabricantes de escáneres PET/CT para cada cohorte. Las cohortes (i)-(iii) se denominan colectivamente cohorte interna. Para las cohortes (i) y (ii), la Junta de Ética en Investigación del Cáncer (REB) de la UBC BC (Números REB: H19-01866 y H19-01611 respectivamente) otorgó la aprobación ética el 30 de octubre de 2019 y el 1 de agosto de 2019, respectivamente. Para la cohorte (iii), la aprobación fue otorgada por el Hospital St. Mary's de Seúl (Número REB: KC11EISI0293) el 2 de mayo de 2011.


TABLA CARACTERÍSTICAS DEL PACIENTE Y DE LA EXPLORACIÓN EN CUATRO COHORTES DIFERENTES DE LINFOMA.


Debido a la naturaleza retrospectiva de nuestros datos, se renunció al consentimiento del paciente para estas tres cohortes. La cohorte (iv) se obtuvo del conjunto de datos de desafío AutoPET disponible públicamente [14] y se denomina cohorte externa.


2) Anotación de verdad sobre el terreno: las cohortes DLBCL-BCCV, PMBCLBCCV y DLBCL-SMHS fueron segmentadas por separado por tres médicos de medicina nuclear (denominados Médico 1, Médico 4 y Médico 5, respectivamente) de BC Cancer, Vancouver, BC Children's Hospital, Vancouver y St. Mary's Hospital, Seúl, respectivamente. Además, otros dos médicos de medicina nuclear (Médicos 2 y 3) de BC Cancer segmentaron 9 casos de la cohorte DLBCL-BCCV que se utilizaron para evaluar la variabilidad entre observadores (Sección IV-D). El médico 4 volvió a segmentar adicionalmente 60 casos de la cohorte PMBCL-BCCV que se utilizaron para evaluar la variabilidad intraobservador (Sección IV-C). Todas estas segmentaciones expertas se realizaron utilizando la herramienta de segmentación semiautomática basada en gradientes llamada PETEdge+ desde la estación de trabajo MIM (software MIM, Ohio, EE. UU.).


Los datos PET/CT del linfoma AutoPET junto con sus segmentaciones reales se adquirieron de The Cancer Imaging Archive. Estas anotaciones fueron realizadas manualmente por dos radiólogos del Hospital Universitario de Tubingen, Alemania, y del Hospital Universitario de la LMU, Alemania.


B. Redes, herramientas y código


En este trabajo se capacitaron cuatro redes, a saber, UNet [15], SegResNet [16], DynUNet [17] y SwinUNETR [18]. Las tres primeras son redes 3D basadas en CNN, mientras que SwinUNETR es una red basada en transformadores. Las implementaciones para estas redes fueron adaptadas de la biblioteca MONAI [19]. Los modelos se entrenaron y validaron en una máquina virtual Microsoft Azure con Ubuntu 16.04, que constaba de 24 núcleos de CPU (448 GiB de RAM) y 4 GPU NVIDIA Tesla V100 (16 GiB de RAM cada una). El código de este trabajo ha sido de código abierto bajo la licencia MIT y se puede encontrar en este repositorio: https://github.com/microsoft/lymphoma-segmentation-dnn.


C. Metodología de la formación


1) División de datos: los datos de las cohortes (i)-(iii) (cohorte interna con un total de 466 casos) se dividieron aleatoriamente en conjuntos de entrenamiento (302 exploraciones), validación (76 exploraciones) y pruebas internas (88 exploraciones). , mientras que la cohorte de linfoma AutoPET (145 exploraciones) se utilizó únicamente para pruebas externas. Los modelos se entrenaron primero en el conjunto de entrenamiento y se seleccionaron los hiperparámetros óptimos y los mejores modelos en el conjunto de validación. A continuación se probaron los mejores modelos en los equipos de prueba internos y externos. Tenga en cuenta que la división de la cohorte interna se realizó a nivel de paciente para evitar sobreajustar los parámetros del modelo entrenado a pacientes específicos si sus múltiples exploraciones se comparten entre los conjuntos de entrenamiento y validación/prueba.


2) Preprocesamiento y aumentos: Se tomaron muestras de las imágenes de TC de alta resolución (en la unidad Hounsfield (HU)) para que coincidan con las coordenadas de sus correspondientes imágenes de PET/máscara. Los valores de intensidad de PET en unidades de Bq/ml se corrigieron y se convirtieron a SUV. Durante el entrenamiento, empleamos una serie de transformaciones aleatorias y no aleatorias para aumentar la entrada a la red. Las transformaciones no aleatorias incluyeron (i) recorte de intensidades de CT en el rango de [-154, 325] HU (que representa el [3, 97] cuantil de HU dentro de las lesiones en los conjuntos de entrenamiento y validación) seguido de min-max normalización, (ii) recortar la región fuera del cuerpo en PET, CT e imágenes de máscara usando un cuadro delimitador 3D, y (iii) volver a muestrear las imágenes a un espaciado de vóxel isotrópico de (2,0 mm, 2,0 mm, 2,0 mm) mediante bilineal interpolación para imágenes PET y CT e interpolación del vecino más cercano para imágenes de máscara


Por otro lado, las transformaciones aleatorias se llamaron al comienzo de cada época. Estos incluyeron (i) recortar aleatoriamente parches cúbicos de dimensiones (N, N, N) de las imágenes, donde el cubo estaba centrado alrededor de un vóxel de lesión con probabilidad pos/(pos + neg), o alrededor de un vóxel de fondo con probabilidad neg/ (pos + neg), (ii) traslaciones en el rango (-10, 10) vóxeles a lo largo de las tres direcciones, (iii) rotaciones axiales en el rango (−π/15, π/15) y (iv) escalamiento aleatorio por 1,1 en las tres direcciones. Establecimos neg = 1, y pos y N se eligieron de los conjuntos de hiperparámetros {1, 2, 4, 6, 8, 10, 12, 14, 16} y {96, 128, 160, 192, 224, 256} respectivamente. para UNet [20]. Después de una serie de experimentos de ablación integrales, se encontró que pos = 2 y N = 224 eran óptimos para UNet. Para otras redes, pos se estableció en 2 y se eligió el N más grande que podría acomodarse en la memoria de la GPU durante el entrenamiento (ya que el rendimiento para diferentes valores de N no fue significativamente diferente entre sí, excepto N = 96, que fue significativamente peor). en comparación con otros valores de N). Por lo tanto, SegResNet, DynUNet y SwinUNETR se entrenaron utilizando N = 192, 160 y 128, respectivamente. Finalmente, los parches PET y CT aumentados se concatenaron por canales para construir la entrada final a la red.



4) Inferencia de ventana deslizante y posprocesamiento: para las imágenes en el conjunto de validación/prueba, empleamos solo las transformaciones no aleatorias. La predicción se realizó directamente en las imágenes de cuerpo entero de 2 canales (PET y CT) utilizando la técnica de ventana deslizante con una ventana cúbica de tamaño (W, W, W), donde W era un hiperparámetro elegido del conjunto {96 , 128, 160, 192, 224, 256, 288}. Se encontró que los valores óptimos W eran 224 para UNet, 192 para SegResNet y DynUnet, y 160 para SwinUNETR. Las predicciones del conjunto de prueba se volvieron a muestrear en las coordenadas de las máscaras de verdad originales para calcular las métricas de evaluación.


D. Métricas de evaluación


1) Métricas de segmentación: para evaluar el rendimiento de la segmentación, utilizamos DSC en primer plano a nivel de paciente, los volúmenes de componentes conectados falsos positivos que no se superponen con la verdad en primer plano (FPV) y el volumen de componentes conectados en primer plano en la verdad en terreno que no se superpongan con la máscara de segmentación prevista (FNV) [14]. Informamos la mediana y el rango intercuartil (IQR) para estas métricas en los conjuntos de pruebas internas y externas. También informamos el DSC medio con la desviación estándar de la media. Elegimos informar los valores medianos ya que nuestros valores métricos medios eran propensos a valores atípicos y nuestra mediana de muestra siempre fue mayor (inferior) para DSC (para FPV y FNV) que la media de la muestra. En la Fig. 1 (a) se muestra una ilustración de FPV y FNV.



  • 2) Métricas de detección:* Además de las métricas de segmentación analizadas anteriormente, también evaluamos el rendimiento de nuestros modelos en los conjuntos de prueba mediante tres métricas basadas en detección para evaluar la detectabilidad de lesiones individuales dentro de un paciente.


Fig. 1. (a) Ilustración de las métricas de dos segmentos, volumen de falsos positivos (FPV) y volumen de falsos negativos (FNV). (b) Ilustración para definir una detección positiva verdadera mediante tres criterios, como se explica en la Sección III-D.2.



Aunque las definiciones de las métricas de detección FP y FN pueden parecer similares a las métricas de segmentación FPV y FNV, tras una investigación cuidadosa, no lo son (Fig. 1 (a) y (b)). Las métricas FPV y FNV calculan la suma de los volúmenes de todas las lesiones que se predicen en una ubicación completamente incorrecta (sin superposición con las lesiones reales) o lesiones que se omiten por completo, respectivamente. Por lo tanto, estas métricas se definen a nivel de vóxel para cada paciente. Por otro lado, las métricas de detección (en los Criterios 1, 2 y 3) se definen por lesión para cada paciente.




La evaluación de la reproducibilidad de estas medidas de lesiones mejora la confianza en los resultados del algoritmo de segmentación. Por lo tanto, realizamos análisis de la prueba t de Student pareada para determinar la disparidad en las medias de las distribuciones entre la verdad fundamental y las medidas de lesión previstas (Sección IV-A.1). Además, se llevaron a cabo análisis similares para evaluar la variabilidad intraobservador, involucrando dos anotaciones realizadas por el mismo médico en el mismo conjunto de casos (Sección IV-C).


Fig. 2. Visualización del desempeño de diferentes redes en las vistas de proyección coronal de máxima intensidad para 8 casos representativos. (a)-(d) muestran casos en los que todas las redes tuvieron rendimientos similares, mientras que (e)-(h) muestran casos en los que las redes tuvieron rendimientos diferentes, a menudo debido a que algunas de ellas predijeron FPV grandes. Algunos de los FPV destacados se han indicado con flechas azules. El número en la parte inferior derecha de cada gráfico muestra el DSC entre la máscara predicha 3D y la verdad del terreno.


Este documento es disponible en arxiv bajo licencia CC 4.0.