著者:
(1)シャダブ・アハメド、ブリティッシュコロンビア大学、ブリティッシュコロンビア州バンクーバー、BCがん研究所、ブリティッシュコロンビア州バンクーバー。また、米国ワシントン州レドモンドのMicrosoft AI for Good LabのMitacs Accelerateフェロー(2022年5月~2023年4月)でもありました(電子メール:[email protected])。
(2)Yixi Xu、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(3)クレア・ガウディ、BC小児病院、バンクーバー、BC州、カナダ
(4) Joo H. O、聖マリア病院、ソウル、大韓民国
(5)イングリッド・ブロワズ、BCキャンサー、バンクーバー、BC州、カナダ
(6)ドン・ウィルソン、BCキャンサー、バンクーバー、BC州、カナダ
(7)パトリック・マルティノー、BCキャンサー、バンクーバー、BC、カナダ
(8)フランソワ・ベナール、BCがん、バンクーバー、BC州、カナダ
(9)フェレシュテ・ユセフィリジ、BCがん研究所、バンクーバー、BC州、カナダ
(10)Rahul Dodhia、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(11)フアン・M・ラビスタ、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(12)ウィリアム・B・ウィークス、マイクロソフトAI for Good Lab、ワシントン州レドモンド、米国
(13)カルロス・F・ウリベ、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ
(14)アルマン・ラミム、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ、ブリティッシュコロンビア州バンクーバー。
PET/CT画像におけるリンパ腫のセグメンテーションにディープラーニング手法を適用する研究は数多く行われている。Yuanら[4]は、マルチモダリティデータからの補完情報を活用する特徴融合技術を開発した。Huら[5]は、セグメンテーション性能を高めるために、体積データでトレーニングされた3D ResUNetと3つの直交方向からの2Dスライスでトレーニングされた3つの2D ResUNetの組み合わせを融合することを提案した。Liら[6]は、リンパ腫の検出とセグメンテーションのために教師あり法と教師なし法を統合したエンドツーエンド方式でトレーニングされたDenseX-Netを提案した。Liuら[7]は、リンパ腫のセグメンテーション用に3D Residual-UNetをトレーニングするためのパッチベースのネガティブサンプル拡張やラベルガイダンスなどの手法を導入した。これらの研究の主な制限は、比較的小規模なデータセット(100枚未満の画像)で開発されたことである。さらに、これらの方法のほとんどは、提案された方法のパフォーマンスを他のベースラインや医師のパフォーマンスと比較していない。
Constantinoら[8]は7つの半自動セグメンテーション手法と2つのディープラーニングセグメンテーション手法のパフォーマンスを比較し、Weismanら[9]は11の自動セグメンテーション手法を比較しましたが、これらの研究は両方ともそれぞれサイズ65と90のより小さなデータセットで実行されました。Weismanら[10]は、自動化された3D Deep Medic法のセグメンテーションパフォーマンスを医師のセグメンテーションパフォーマンスと比較しましたが、この研究でさえリンパ腫の症例は90例しかありませんでした。[10]を除いて、これらの研究のいずれも、分布外データセット(異なるセンターから収集されたデータなど)でのモデルの一般化を報告しておらず、堅牢性の定量化と外部妥当性が制限されています。Jiangら[11]は、上記の研究と比較して比較的大きなデータセット(297枚の画像)を使用して3D UNetをトレーニングしました。彼らは、異なるセンターから収集された117枚の画像で分布外テストも実行しました。私たちの知る限り、これまでに報告されたディープラーニングベースの病変セグメンテーションのための最大のリンパ腫PET/CTデータセットは、Blanc-Durandらによる研究[12]であり、モデル開発に639枚の画像、外部テストに94枚の画像を使用しました。ただし、この研究では標準的なセグメンテーション評価指標のみを使用し、正確なTMTVを予測するモデルの能力を評価しました。両方の研究[11]と[12]は、データセットがびまん性大細胞型B細胞リンパ腫(DLBCL)と診断された患者のみで構成されており、リンパ腫の単一のサブタイプのみを表しているという事実によって制限されています。
ディープラーニングベースのリンパ腫セグメンテーションに関する既存の研究のほとんどは、ダイス類似度係数 (DSC)、交差和集合 (IoU)、感度などの一般的なセグメンテーション指標でのパフォーマンスを報告しています。大きなセグメンテーション病変がある場合、見逃された非常に小さな病変や小さな偽陽性は DSC 値にあまり寄与しません。したがって、偽陽性と偽陰性の量を報告する必要があります。また、すべての病変の数個のボクセルの自動検出でも、DSC が低い場合でも医師が関心領域をすばやく見つけるのに役立つため、病変ごとに検出パフォーマンス (検出された接続コンポーネントの数と見逃された接続コンポーネントの数) を評価することも有益です。さらに、セグメンテーション/検出タスクの難易度は、観察者間または観察者内の合意分析では評価されないことがよくあります。
私たちの研究は、これらの制限に対処することを目的としています。リンパ腫の2つの異なるサブタイプであるDLBCLと原発性縦隔大細胞型B細胞リンパ腫(PMBCL)を含む3つのコホートのリンパ腫PET / CTデータセットで4つのディープニューラルネットワークをトレーニングおよび検証しました。(i)モデルの堅牢性を評価するために、インテスト(トレーニング/検証セットと同じコホートからの画像)とアウトオブディストリビューションまたは外部テスト(トレーニング/検証に使用されていない4番目のコホートからの画像)の両方を実行しました。(ii)DSC、偽陽性と偽陰性のボリュームを使用してパフォーマンスを報告し、6つの異なるタイプの病変指標に対するパフォーマンスの依存性を評価しました。(iii)また、これらのグラウンドトゥルース病変指標を再現するネットワークの能力を評価し、それらを予測する際のネットワークの誤差を計算しました。(iv)ユースケースに対して3種類の検出基準を提案し、これらのメトリックでモデルのパフォーマンスを評価しました。 (v) 最後に、データセットにおける病変セグメンテーションタスクの難易度を測るために、観察者内および観察者間の合意を評価しました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。