Autores:
(1) Shadab Ahamed, Universidad de Columbia Británica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. También fue miembro de Mitacs Accelerate (mayo de 2022 - abril de 2023) en Microsoft AI for Good Lab, Redmond, WA, EE. UU. (correo electrónico: [email protected]);
(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;
(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Canadá;
(4) Joo H. O, St. Mary's Hospital, Seúl, República de Corea;
(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;
(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;
(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;
(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Canadá;
(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;
(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;
(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;
(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;
(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá;
(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá.
En este trabajo, entrenamos y evaluamos cuatro arquitecturas de redes neuronales distintas para automatizar la segmentación de lesiones de linfoma a partir de conjuntos de datos de PET/CT procedentes de tres cohortes diferentes. Para evaluar el rendimiento de los modelos, realizamos evaluaciones exhaustivas del conjunto de pruebas internas provenientes de estas tres cohortes y demostramos que SegResNet y UNet superaron a DynUNet y SwinUNETR en las métricas DSC (media y mediana) y FPV mediana, mientras que SwinUNETR tuvo la mejor FNV mediana. Además de las evaluaciones internas, ampliamos nuestro análisis para abarcar una fase de prueba externa fuera de distribución en un conjunto de datos públicos considerables de PET/CT sobre linfoma. También en este conjunto de pruebas externas, SegResNet surgió como el de mejor desempeño en términos de métricas DSC y FPV, lo que subraya su solidez y efectividad, mientras que UNet mostró el mejor desempeño en FNV.
Es importante resaltar que SegResNet y UNet fueron entrenados en parches de mayor tamaño, específicamente (224, 224, 224) y (192, 192, 192) respectivamente, mientras que DynUNet y SwinUNETR fueron entrenados usando parches relativamente más pequeños, a saber (160, 160, 160) y (128, 128, 128) respectivamente. La utilización de parches de mayor tamaño durante el entrenamiento permite a las redes neuronales capturar una comprensión contextual más amplia de los datos, mejorando así su rendimiento en tareas de segmentación [17]. Esta observación se alinea con nuestros resultados, donde el rendimiento superior de SegResNet y UNet se puede atribuir a su exposición a parches de mayor tamaño durante el entrenamiento. Además, los tamaños de lote más grandes permiten un entrenamiento sólido al estimar con precisión los gradientes [17], pero con los tamaños de parche de entrenamiento elegidos, no pudimos entrenar SegResNet, DynUNet y SwinUNETR con nb > 1 debido a limitaciones de memoria (aunque pudimos acomodar nb = 8). para la UNet). Por lo tanto, para una comparación justa entre redes, todas las redes se entrenaron con nb = 1. Vale la pena señalar que nuestra incapacidad para entrenar DynUNet y SwinUNETR en parches y mini lotes más grandes se debió principalmente a limitaciones de recursos computacionales. Sin embargo, esta limitación presenta una vía para investigaciones futuras, donde entrenar estos modelos con parches y tamaños de lote más grandes podría generar mayores mejoras en la precisión de la segmentación.
Evaluamos la reproducibilidad de las medidas de lesiones y descubrimos que en el conjunto de pruebas interno, TMTV y TLG eran reproducibles en todas las redes, mientras que Dmax no era reproducible en ninguna red. El SUVmean fue reproducible en todas las redes excepto en UNet, el SUVmax solo en SegResNet y el número de lesiones solo en UNet y SegResNet. En el conjunto de pruebas externas, la reproducibilidad fue más limitada, siendo reproducible solo el SUVmean tanto con SegResNet como con SwinUNETR, el número de lesiones con SegResNet y TLG con DynUNet (Fig. 3 y 4). Además, cuantificamos el error de las redes al estimar el valor de las medidas de lesión utilizando MAPE y encontramos que MAPE generalmente disminuye en función de los valores de medida de lesión (para todas las medidas de lesión) en el conjunto de pruebas internas y externas combinadas (Fig. 5). Las redes generalmente cometían errores significativos en la predicción precisa cuando las medidas de lesión reales eran muy pequeñas. También mostramos que, en general, en un conjunto de imágenes con SUVmean, SUVmean, TMTV y TLG de lesión a nivel de paciente más grandes, una red es capaz de predecir una mediana de DSC más alta, aunque para valores muy altos de estas medidas de lesión, el rendimiento generalmente mesetas. Por otro lado, el rendimiento de DSC no se ve muy afectado por el número de lesiones, mientras que para un conjunto de imágenes con Dmax mayor, el rendimiento generalmente disminuye para todas las redes (Fig. 7).
Dado que gran parte de los datos PET/CT son propiedad privada de instituciones sanitarias, plantea importantes desafíos para los investigadores a la hora de acceder a diversos conjuntos de datos para entrenar y probar modelos de aprendizaje profundo. En tal escenario, para mejorar la interpretabilidad de los modelos, es crucial que los investigadores investiguen cómo el desempeño de sus modelos depende de las características del conjunto de datos. Al estudiar cómo el rendimiento del modelo se correlaciona con las características de la imagen/lesión, los investigadores pueden obtener información sobre las fortalezas y limitaciones de sus modelos [13].
Además de la evaluación del rendimiento de la segmentación, también introdujimos tres criterios de detección distintos, denominados Criterios 1, 2 y 3. Estos criterios sirvieron para un propósito específico: evaluar el rendimiento de las redes por lesión. Esto contrasta con la evaluación del rendimiento de la segmentación, que se centra principalmente en la precisión a nivel de vóxel de las redes. La razón detrás de la introducción de estos criterios de detección radica en la necesidad de evaluar qué tan bien las redes identifican y detectan lesiones dentro de las imágenes, en lugar de simplemente evaluar su capacidad para delinear los límites de las lesiones a nivel de vóxel. La capacidad de detectar la presencia de lesiones (Criterio 1) es crucial, ya que influye directamente en si se identifica o se pasa por alto un posible problema de salud. La detección de incluso un solo vóxel de una lesión podría desencadenar una mayor investigación o planificación del tratamiento. El recuento de lesiones y la localización precisa (Criterio 2) son importantes para la planificación del tratamiento y el seguimiento de la progresión de la enfermedad. Saber no sólo que existe una lesión sino también cuántas hay y dónde están ubicadas puede afectar significativamente las decisiones terapéuticas. El criterio 3, que se centró en segmentar las lesiones según las características metabólicas de la lesión (SUVmax), añade una capa adicional de relevancia clínica.
Utilizando estas métricas de detección, evaluamos las sensibilidades y las detecciones de FP para todas las redes y demostramos que, según los criterios de detección, una red puede tener una sensibilidad muy alta incluso cuando el rendimiento de DSC era bajo. Dados estos diferentes criterios de detección, se puede elegir un modelo entrenado en función de casos de uso clínico específicos. Por ejemplo, algunos casos de uso podrían implicar la capacidad de detectar todas las lesiones sin ser demasiado cauteloso al segmentar el límite exacto de la lesión, mientras que otros casos de uso podrían buscar delineaciones de límites más sólidas.
Además, evaluamos la variabilidad intraobservador de un médico al segmentar los casos "fáciles" y "difíciles", observando desafíos en la segmentación consistente de los casos del subconjunto "difícil". En la segmentación de lesiones de linfoma, los casos pueden variar en dificultad debido a factores como el tamaño, la forma y la ubicación de las lesiones o la calidad de la imagen. Al identificar qué casos son consistentemente difíciles de segmentar incluso para un médico experimentado, obtuvimos información sobre las complejidades y matices de la tarea de segmentación. Finalmente, también evaluamos el acuerdo interobservador entre tres médicos. Aunque inferimos que hubo un nivel sustancial de acuerdo entre los tres médicos, la evaluación se realizó solo en 9 casos, lo que resultó en un poder estadístico bajo.
Para mejorar la coherencia de la verdad fundamental en la segmentación de imágenes médicas, es esencial un protocolo bien definido. Este protocolo debe involucrar a varios médicos expertos de forma independiente para delinear regiones de interés (ROI) o lesiones dentro de las imágenes PET/CT. En lugar de que un solo médico segmente una cohorte de forma independiente, varios anotadores deberían segmentar las mismas imágenes sin conocer el trabajo de los demás. Las discrepancias o desacuerdos entre médicos se pueden resolver mediante enfoques estructurados, como debates facilitados, revisiones de información clínica o aclaración de imágenes. Este sólido proceso de verdad sobre el terreno mejora la precisión del acuerdo entre observadores y fortalece la validez de los hallazgos de la investigación y las aplicaciones clínicas que se basan en estas anotaciones.
Este documento es