paint-brush
Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: trabajo relacionadopor@reinforcement

Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: trabajo relacionado

Demasiado Largo; Para Leer

Este estudio realiza una evaluación integral de cuatro arquitecturas de redes neuronales para la segmentación de lesiones de linfoma a partir de imágenes PET/CT.
featured image - Redes neuronales profundas para detectar y cuantificar lesiones de linfoma: trabajo relacionado
Reinforcement Technology Advancements HackerNoon profile picture
0-item

Autores:

(1) Shadab Ahamed, Universidad de Columbia Británica, Vancouver, BC, Canadá, BC Cancer Research Institute, Vancouver, BC, Canadá. También fue miembro de Mitacs Accelerate (mayo de 2022 - abril de 2023) en Microsoft AI for Good Lab, Redmond, WA, EE. UU. (correo electrónico: [email protected]);

(2) Yixi Xu, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(3) Claire Gowdy, BC Children's Hospital, Vancouver, BC, Canadá;

(4) Joo H. O, St. Mary's Hospital, Seúl, República de Corea;

(5) Ingrid Bloise, BC Cancer, Vancouver, BC, Canadá;

(6) Don Wilson, BC Cancer, Vancouver, BC, Canadá;

(7) Patrick Martineau, BC Cancer, Vancouver, BC, Canadá;

(8) Franc¸ois Benard, BC Cancer, Vancouver, BC, Canadá;

(9) Fereshteh Yousefirizi, BC Cancer Research Institute, Vancouver, BC, Canadá;

(10) Rahul Dodhia, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(11) Juan M. Lavista, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(12) William B. Weeks, Microsoft AI for Good Lab, Redmond, WA, EE. UU.;

(13) Carlos F. Uribe, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá;

(14) Arman Rahmim, BC Cancer Research Institute, Vancouver, BC, Canadá, y Universidad de Columbia Británica, Vancouver, BC, Canadá.

Tabla de enlaces

II. TRABAJO RELACIONADO

Numerosos trabajos han explorado la aplicación de métodos de aprendizaje profundo para segmentar linfomas en imágenes PET/CT. Yuan et al. [4] desarrollaron una técnica de fusión de características para utilizar información complementaria de datos multimodales. Hu et al. [5] propusieron fusionar una combinación de ResUNet 3D entrenado en datos volumétricos y tres ResUNet 2D entrenados en cortes 2D desde tres direcciones ortogonales para mejorar el rendimiento de la segmentación. Li y col. [6] propusieron DenseX-Net entrenado de un extremo a otro integrando métodos supervisados y no supervisados para la detección y segmentación del linfoma. Liu y cols. [7] introdujeron técnicas como el aumento de muestras negativas basado en parches y la guía de etiquetas para entrenar un 3D Residual-UNet para la segmentación de linfomas. Una limitación importante de todos estos trabajos fue que se desarrollaron en conjuntos de datos de tamaño relativamente más pequeño (menos de 100 imágenes). Además, la mayoría de estos métodos no compararon el desempeño de los métodos propuestos con otras líneas de base o con el desempeño de los médicos.


Constantino et al. [8] compararon el rendimiento de 7 métodos de segmentación semiautomáticos y 2 de aprendizaje profundo, mientras que Weisman et al. [9] compararon 11 técnicas de segmentación automatizada, aunque ambos estudios se realizaron en conjuntos de datos más pequeños de tamaños 65 y 90 respectivamente. Weisman et al. [10] compararon el rendimiento de segmentación del método automatizado 3D Deep Medic con el del médico, aunque incluso este estudio incluyó solo 90 casos de linfoma. A excepción de [10], ninguno de estos estudios informó la generalización del modelo en conjuntos de datos fuera de distribución (como datos recopilados de diferentes centros), lo que limita la cuantificación de su solidez y su validez externa. Jiang et al. [11] utilizó un conjunto de datos relativamente más grande en comparación con los estudios anteriores con 297 imágenes para entrenar un UNet 3D. Incluso realizaron pruebas fuera de distribución en 117 imágenes recopiladas de un centro diferente. Hasta donde sabemos, el conjunto de datos de PET/CT de linfoma más grande jamás reportado para la segmentación de lesiones basada en aprendizaje profundo es el trabajo de Blanc-Durand et al. [12] que utilizaron 639 imágenes para el desarrollo del modelo y 94 para pruebas externas; sin embargo, este estudio solo utilizó métricas de evaluación de segmentación estándar y evaluó la capacidad de su modelo para predecir TMTV con precisión. Tanto los estudios [11] como [12] están limitados por el hecho de que sus conjuntos de datos consistieron exclusivamente en pacientes diagnosticados con linfoma difuso de células B grandes (DLBCL), lo que representa solo un subtipo de linfoma.


La mayoría de los estudios existentes sobre la segmentación del linfoma basada en el aprendizaje profundo informan su desempeño en métricas de segmentación genéricas como el coeficiente de similitud de Dice (DSC), la intersección sobre la unión (IoU), la sensibilidad, etc. En presencia de grandes lesiones segmentadas, muy las pequeñas lesiones pasadas por alto o los pequeños falsos positivos no contribuyen mucho al valor de DSC. Por tanto, es necesario informar los volúmenes de falsos positivos y falsos negativos. También será beneficioso evaluar el rendimiento de la detección por lesión (número de componentes conectados detectados versus omitidos), ya que la detección automatizada de incluso unos pocos vóxeles de todas las lesiones puede ayudar a los médicos a localizar rápidamente las regiones de interés, incluso si el El DSC es bajo. Además, la dificultad de la tarea de segmentación/detección a menudo no se evalúa mediante un análisis de acuerdo entre observadores o dentro de ellos.



Nuestro estudio tiene como objetivo abordar estas limitaciones. Entrenamos y validamos cuatro redes neuronales profundas en conjuntos de datos de PET/CT de linfoma de tres cohortes, que abarcan dos subtipos distintos de linfoma: DLBCL y linfoma mediastínico primario de células B grandes (PMBCL). (i) Realizamos pruebas tanto dentro (imágenes provenientes de las mismas cohortes que el conjunto de entrenamiento/validación) como fuera de distribución o externas (imágenes de una cuarta cohorte no utilizada para entrenamiento/validación) para evaluar la solidez de nuestros modelos. (ii) Informamos el desempeño utilizando DSC, volúmenes de falsos positivos y negativos, y evaluamos la dependencia del desempeño en seis tipos diferentes de medidas de lesión. (iii) También evaluamos la capacidad de nuestras redes para reproducir estas medidas de lesión de la verdad fundamental y calculamos el error de las redes al predecirlas. (iv) Propusimos tres tipos de criterios de detección para nuestro caso de uso y evaluamos el rendimiento del modelo en estas métricas. (v) Finalmente, evaluamos el acuerdo intra e interobservador para dar una medida de la dificultad de la tarea de segmentación de lesiones en nuestros conjuntos de datos.


Este documento está disponible en arxiv bajo licencia CC 4.0.