paint-brush
リンパ腫病変を検出し定量化するディープニューラルネットワーク:材料と方法@reinforcement

リンパ腫病変を検出し定量化するディープニューラルネットワーク:材料と方法

長すぎる; 読むには

この研究では、PET/CT 画像からリンパ腫病変をセグメンテーションするための 4 つのニューラル ネットワーク アーキテクチャを包括的に評価します。
featured image - リンパ腫病変を検出し定量化するディープニューラルネットワーク:材料と方法
Reinforcement Technology Advancements HackerNoon profile picture
0-item

著者:

(1)シャダブ・アハメド、ブリティッシュコロンビア大学、ブリティッシュコロンビア州バンクーバー、BCがん研究所、ブリティッシュコロンビア州バンクーバー。また、米国ワシントン州レドモンドのMicrosoft AI for Good LabのMitacs Accelerateフェロー(2022年5月~2023年4月)でもありました(電子メール:[email protected])。

(2)Yixi Xu、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(3)クレア・ガウディ、BC小児病院、バンクーバー、BC州、カナダ

(4) Joo H. O、聖マリア病院、ソウル、大韓民国

(5)イングリッド・ブロワズ、BCキャンサー、バンクーバー、BC州、カナダ

(6)ドン・ウィルソン、BCキャンサー、バンクーバー、BC州、カナダ

(7)パトリック・マルティノー、BCがん、バンクーバー、BC州、カナダ

(8)フランソワ・ベナール、BCがん、バンクーバー、BC州、カナダ

(9)フェレシュテ・ユセフィリジ、BCがん研究所、バンクーバー、BC州、カナダ

(10)Rahul Dodhia、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(11)フアン・M・ラビスタ、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(12)ウィリアム・B・ウィークス、マイクロソフトAI for Good Lab、レドモンド、ワシントン州、米国

(13)カルロス・F・ウリベ、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ

(14)アルマン・ラミム、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ、ブリティッシュコロンビア州バンクーバー。

リンク一覧

結論と参考文献
III. 材料と方法

A. データセット


1) 説明:この研究では、合計 611 件の症例からなる大規模で多様な多施設全身 PET/CT データセットを使用しました。これらのスキャンは、4 つの後ろ向きコホートから取得されました。(i) DLBCL-BCCV: カナダ、バンクーバーの BC Cancer (BCCV) の DLBCL 患者 79 人からの 107 件のスキャン。(ii) PMBCLBCCV: BC Cancer の PMBCL 患者 69 人からの 139 件のスキャン。(iii) DLBCL-SMHS: 韓国、ソウルの St. Mary's Hospital (SMHS) の DLBCL 患者 219 人からの 220 件のスキャン。(iv) AutoPET リンパ腫: ドイツのテュービンゲン大学病院のリンパ腫患者 144 人からの 145 件のスキャン ¨ [14]。各コホートのスキャン数、患者の年齢と性別、PET/CTスキャナのメーカーに関する追加説明は表Iに示されている。コホート(i)-(iii)は、まとめて内部コホートと呼ばれる。コホート(i)と(ii)については、UBC BCがん研究倫理委員会(REB)(REB番号:それぞれH19-01866とH19-01611)により、それぞれ2019年10月30日と2019年8月1日に倫理承認が与えられた。コホート(iii)については、ソウルのセントメアリー病院(REB番号:KC11EISI0293)により、2011年5月2日に承認が与えられた。


表 4 つの異なるリンパ腫コホートにおける患者とスキャンの特徴。


我々のデータは過去を振り返るものであるため、これら3つのコホートについては患者の同意は得られなかった。コホート(iv)は、公開されているAutoPETチャレンジデータセット[14]から取得され、外部コホートと呼ばれている。


2) グラウンドトゥルース注釈: DLBCL-BCCV、PMBCLBCCV、および DLBCL-SMHS コホートは、それぞれバンクーバーの BC がんセンター、バンクーバーの BC 小児病院、およびソウルのセントメアリー病院の 3 人の核医学医師 (それぞれ医師 1、医師 4、および医師 5 と呼ぶ) によって別々にセグメント化されました。さらに、BC がんセンターの他の 2 人の核医学医師 (医師 2 および 3) が DLBCL-BCCV コホートから 9 つの症例をセグメント化し、観察者間変動の評価に使用しました (セクション IV-D)。医師 4 はさらに、観察者内変動の評価に使用された PMBCL-BCCV コホートから 60 件の症例を再セグメント化しました (セクション IV-C)。これらの専門的なセグメンテーションはすべて、MIM ワークステーション (MIM ソフトウェア、米国オハイオ州) の PETEdge+ と呼ばれる半自動の勾配ベースのセグメンテーション ツールを使用して実行されました。


AutoPET リンパ腫 PET/CT データとそのグラウンド トゥルース セグメンテーションは、The Cancer Imaging Archive から取得されました。これらの注釈は、ドイツのテュービンゲン大学病院とドイツの LMU 大学病院の 2 人の放射線科医によって手動で実行されました。


B. ネットワーク、ツール、コード


この研究では、UNet [15]、SegResNet [16]、DynUNet [17]、SwinUNETR [18] の 4 つのネットワークがトレーニングされました。前者 3 つは 3D CNN ベースのネットワークで、SwinUNETR はトランスフォーマーベースのネットワークです。これらのネットワークの実装は、MONAI ライブラリ [19] から採用されました。モデルは、24 個の CPU コア (448 GiB RAM) と 4 個の NVIDIA Tesla V100 GPU (各 16 GiB RAM) で構成される Ubuntu 16.04 を搭載した Microsoft Azure 仮想マシンでトレーニングおよび検証されました。この作業のコードは MIT ライセンスの下でオープンソース化されており、このリポジトリで見つけることができます: https://github.com/microsoft/lymphoma-segmentation-dnn。


C. トレーニング方法


1) データ分割:コホート (i) - (iii) (合計 466 症例の内部コホート) のデータは、トレーニング セット (302 スキャン)、検証セット (76 スキャン)、および内部テスト セット (88 スキャン) にランダムに分割され、AutoPET リンパ腫コホート (145 スキャン) は外部テストにのみ使用されました。モデルは最初にトレーニング セットでトレーニングされ、最適なハイパーパラメータと最良のモデルが検証セットで選択されました。次に、トップ モデルが内部テスト セットと外部テスト セットでテストされました。内部コホートの分割は患者レベルで実行されたことに注意してください。これは、複数のスキャンがトレーニング セットと検証/テスト セットで共有されている場合に、トレーニングされたモデルのパラメータが特定の患者に過剰適合するのを防ぐためです。


2) 前処理と拡張:高解像度 CT 画像 (ハウンスフィールド単位 (HU)) は、対応する PET/マスク画像の座標と一致するようにダウンサンプリングされました。Bq/ml 単位の PET 強度値は減衰補正され、SUV に変換されました。トレーニング中は、一連の非ランダム化およびランダム化変換を使用して、ネットワークへの入力を拡張しました。非ランダム化変換には、(i) CT 強度を [-154, 325] HU の範囲でクリッピング (トレーニング セットと検証セット全体の病変内の HU の [3, 97] 番目の四分位を表す) し、その後最小最大正規化を行う、(ii) 3D 境界ボックスを使用して PET、CT、マスク画像内の体外領域を切り取る、(iii) PET および CT 画像の場合は双線形補間、マスク画像の場合は最近傍補間によって、画像を (2.0 mm、2.0 mm、2.0 mm) の等方性ボクセル間隔に再サンプリングする、などが含まれます。


一方、ランダム変換は各エポックの開始時に呼び出されました。これには、(i) 画像から次元 (N、N、N) の立方体パッチをランダムに切り取る処理 (立方体は確率 pos/(pos + neg) で病変ボクセルを中心とし、または確率 neg/(pos + neg) で背景ボクセルを中心とする)、(ii) 3 方向すべてに沿った範囲 (-10、10) のボクセル内での移動、(iii) 範囲 (-π/15、π/15) 内での軸回転、および (iv) 3 方向すべてでの 1.1 によるランダムなスケーリングが含まれます。 neg = 1 に設定し、pos と N は、UNet [20] に対してそれぞれハイパーパラメータ セット {1、2、4、6、8、10、12、14、16} と {96、128、160、192、224、256} から選択されました。一連の包括的なアブレーション実験の後、pos = 2 と N = 224 が UNet に最適であることがわかりました。他のネットワークについては、pos は 2 に設定され、トレーニング中に GPU メモリに収容できる最大の N が選択されました (N の異なる値のパフォーマンスは、N = 96 を除いて互いに有意な差がなかったため、N = 96 は他の N の値と比較して有意に劣っていました)。したがって、SegResNet、DynUNet、および SwinUNETR は、それぞれ N = 192、160、および 128 を使用してトレーニングされました。最後に、拡張された PET パッチと CT パッチがチャネル連結され、ネットワークへの最終入力が構築されました。



4) スライディング ウィンドウ推論と後処理:検証/テスト セットの画像については、非ランダム化変換のみを採用しました。予測は、サイズ (W、W、W) の立方体ウィンドウを使用したスライディング ウィンドウ手法を使用して、2 チャネル (PET および CT) 全身画像で直接行われました。ここで、W は、セット {96、128、160、192、224、256、288} から選択されたハイパーパラメータです。最適値 W は、UNet の場合は 224、SegResNet および DynUnet の場合は 192、SwinUNETR の場合は 160 であることがわかりました。テスト セットの予測は、評価メトリックを計算するために、元のグラウンド トゥルース マスクの座標に再サンプリングされました。


D. 評価指標


1) セグメンテーションメトリクス:セグメンテーションのパフォーマンスを評価するために、患者レベルのフォアグラウンド DSC、グラウンドトゥルースフォアグラウンドと重ならない偽陽性の接続コンポーネントのボリューム (FPV)、および予測セグメンテーションマスクと重ならないグラウンドトゥルース内のフォアグラウンド接続コンポーネントのボリューム (FNV) [14] を使用しました。内部テストセットと外部テストセットでこれらのメトリクスの中央値と四分位範囲 (IQR) を報告しました。また、平均 DSC と平均の標準偏差も報告します。平均メトリック値は外れ値になりやすく、サンプル中央値は DSC (FPV および FNV) の場合、常にサンプル平均よりも高かった (低かった) ため、中央値を報告することを選択しました。FPV と FNV の図を図 1 (a) に示します。



  • 2) 検出メトリック:* 前述のセグメンテーション メトリックとは別に、患者内の個々の病変の検出可能性を評価するための 3 つの検出ベースのメトリックを使用して、テスト セットでのモデルのパフォーマンスも評価しました。


図 1. (a) 2 つのセグメンテーション メトリックである偽陽性量 (FPV) と偽陰性量 (FNV) の図。 (b) セクション III-D.2 で説明されているように、3 つの基準によって真陽性検出を定義するための図。



検出メトリクス FP および FN の定義は、セグメンテーション メトリクス FPV および FNV と似ているように見えるかもしれませんが、よく調べてみると、そうではありません (図 1 (a) および (b))。FPV メトリクスと FNV メトリクスは、それぞれ、完全に間違った場所 (実際の病変と重ならない) に予測されたすべての病変、または完全に見逃された病変の体積の合計を計算します。したがって、これらのメトリクスは、各患者のボクセル レベルで定義されます。一方、検出メトリクス (基準 1、2、および 3) は、各患者の病変ごとに定義されます。




これらの病変測定値の再現性を評価することで、セグメンテーション アルゴリズムの結果の信頼性が高まります。そのため、グラウンド トゥルースと予測病変測定値の分布の平均の差異を判断するために、ペア スチューデントの t 検定分析を実施しました (セクション IV-A.1)。さらに、同じ症例セットに対して同じ医師が行った 2 つの注釈を含め、観察者内変動を評価するために同様の分析を実施しました (セクション IV-C)。


図 2。8 つの代表的なケースについて、コロナ最大強度投影ビューにおけるさまざまなネットワークのパフォーマンスを視覚化したものです。(a) ~ (d) は、すべてのネットワークのパフォーマンスが類似している場合を示しています。一方、(e) ~ (h) は、ネットワークのパフォーマンスが類似していない場合を示しています。これは、一部のネットワークが大きな FPV を予測したことが原因である場合が多いです。顕著な FPV のいくつかは、青い矢印で示されています。各プロットの右下の数字は、3D 予測マスクと実際の値の間の DSC を示しています。


この論文はarxivで入手可能CC 4.0 ライセンスに基づきます。