paint-brush
リンパ腫病変を検出し定量化するディープニューラルネットワーク:結果@reinforcement
128 測定値

リンパ腫病変を検出し定量化するディープニューラルネットワーク:結果

長すぎる; 読むには

この研究では、PET/CT 画像からリンパ腫病変をセグメンテーションするための 4 つのニューラル ネットワーク アーキテクチャを包括的に評価します。
featured image - リンパ腫病変を検出し定量化するディープニューラルネットワーク:結果
Reinforcement Technology Advancements HackerNoon profile picture
0-item

著者:

(1)シャダブ・アハメド、ブリティッシュコロンビア大学、ブリティッシュコロンビア州バンクーバー、BCがん研究所、ブリティッシュコロンビア州バンクーバー。また、米国ワシントン州レドモンドのMicrosoft AI for Good LabのMitacs Accelerateフェロー(2022年5月~2023年4月)でもありました(電子メール:[email protected])。

(2)Yixi Xu、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(3)クレア・ガウディ、BC小児病院、バンクーバー、BC州、カナダ

(4) Joo H. O、聖マリア病院、ソウル、大韓民国

(5)イングリッド・ブロワズ、BCキャンサー、バンクーバー、BC州、カナダ

(6)ドン・ウィルソン、BCがん、バンクーバー、BC州、カナダ

(7)パトリック・マルティノー、BCがん、バンクーバー、BC州、カナダ

(8)フランソワ・ベナール、BCがん、バンクーバー、BC州、カナダ

(9)フェレシュテ・ユセフィリジ、BCがん研究所、バンクーバー、BC州、カナダ

(10)Rahul Dodhia、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(11)フアン・M・ラビスタ、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国

(12)ウィリアム・B・ウィークス、マイクロソフトAI for Good Lab、レドモンド、ワシントン州、米国

(13)カルロス・F・ウリベ、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ

(14)アルマン・ラミム、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ、ブリティッシュコロンビア州バンクーバー。

リンク一覧

IV. 結果

A. セグメンテーションのパフォーマンス


4つのネットワークのパフォーマンスは、表IIに示すように、内部テストセット(異なる内部コホートによって分離されたパフォーマンスを含む)と外部テストセットの両方で、DSC、FPV、FNVの中央値とDSCの平均を使用して評価されました。ネットワークのパフォーマンスの視覚化が図2に示されています。


SegResNet は、内部テスト セットと外部テスト セットの両方で最高の DSC 中央値を示し、それぞれ 0.76 [0.27, 0.88] と 0.68 [0.40, 0.78] でした。内部テスト セット内の個々のコホートでは、UNet が DLBCL-BCCV と PMBCL-BCCV の両方で最高の DSC を示し、それぞれ中央値は 0.72 [0.24, 0.89] と 0.74 [0.02, 0.90] でした。一方、SegResNet は DLBCLSMHS で最高の DSC を示し、0.78 [0.62, 0.87] でした。SegResNet はまた、内部テスト セットと外部テスト セットの両方で最高の FPV を示し、4.55 [1.35, 31.51] ml と 21.46 [6.30, 66.44] ml でした。 UNet は DLBCL-BCCV および PMBCL-BCCV セットの DSC で勝利しましたが、SegResNet は両方のセットで最高の FPV を示し、中央値はそれぞれ 5.78 [0.61, 19.97] ml と 2.15 [0.52, 7.18] ml でした。一方、UNet は DLBCLSMHS で最高の FPV 8.71 [1.19, 34.1] ml でした。最後に、SwinUNETR は内部テスト セットで最高の FNV 中央値 0.0 [0.0, 4.65] ml を示し、UNet は外部テスト セットで最高の FNV 中央値 0.41 [0.0, 3.88] ml を示しました。 DLBCL-BCCV および DLBCL-SMHS では、SwinUNETR の FNV 中央値はそれぞれ 0.09 [0.0, 3.39] ml および 0.0 [0.0, 8.83] ml と最も良好でしたが、PMBCL-BCCV では、UNet、DynUNet、および SwinUNETR がそれぞれ中央値 0.0 [0.0, 1.24] ml で同率でした。


まず、SegResNetとUNetはどちらも、平均値と中央値の低下を伴い、未知の外部テストセットでうまく一般化しました。


表 II 患者レベル DSC、FPV (ML 単位)、および FNV (ML 単位) の中央値で評価した内部テスト セット (データ元およびリンパ腫サブタイプ別に集約および分離) と外部テスト セットの 4 つのネットワークの比較。すべての中央値は IQRS とともに報告されています。テスト セットの患者レベル DSC の平均値は、対応する標準偏差とともに報告されています。


内部テスト セットと比較して、パフォーマンスがそれぞれ 4% と 8%、2% と 8% 向上しました。内部テスト セットでは、DynUNet と SwinUNETR の DSC 中央値は SegResNet と UNet よりもかなり低く (約 6~9%) なっていますが、これらのネットワークは、内部テストから外部テストに移行したときに、それぞれ DSC 中央値がわずか 4% と 6% 低下し、さらに優れた一般化を示しました。また、すべてのネットワークの DSC IQR が、外部テスト セットと比較して内部テスト セットで大きくなったことも注目に値します。また、すべてのネットワークは、外部テスト セットと比較して内部テスト セットで 75 分位 DSC が高くなり、外部テスト セットと比較して内部テストで 25 分位 DSC が低くなりました (この傾向が逆転した SwinUNETR を除く)。同様に、内部テスト セット内の異なるコホートでは、すべてのネットワークが DLBCL-SMHS セットで最高の中央値と 25 分位 DSC を示しました。最も悪いパフォーマンスは、すべてのネットワークで最大の IQR を持つ PMBCL-BCCV コホートで得られました (セクション IV-A.2 および図 6 を参照)。興味深いことに、DSC では内部テスト セットと外部テスト セットの両方でパフォーマンスが低かったにもかかわらず (最高のパフォーマンスを示すモデルと比較して)、SwinUNETR は内部テスト セットのコホート全体で最高の FNV 中央値を示しました。




外部テスト セットに対しても同じ分析が実行されました (図 4 を参照)。外部テスト セットでは、再現可能な病変指標は、SegResNet および SwinUNETR による SUVmean、SegResNet による病変数、および DynUNet による TLG のみでした。これは、DSC またはその他の従来のセグメンテーション メトリックに関するネットワークのパフォーマンスが、病変指標の推定におけるその熟練度を必ずしも反映するわけではないことを示しています。SUVmax、病変数、Dmax などの病変指標は、通常、ネットワークで再現するのが困難です。SUVmax は、SUV 取り込み率が高い領域での誤った偽陽性予測に非常に敏感でした。同様に、病変数は誤ってセグメント化された切断されたコンポーネントに非常に敏感であり、Dmax はグラウンド トゥルース セグメンテーションから遠く離れた偽陽性予測の存在に非常に敏感でした (このような偽陽性予測の量は非常に少ない可能性があり、その場合、内部テスト セットで見られるように、TMTV または TLG にほとんど寄与しません)。




図 5. 内部テスト セットと外部テスト セットを組み合わせた場合の、UNet、SegResNet、DynUNet、SwinUNETR の 4 つのネットワークのグラウンド トゥルース病変測定値の関数としての MAPE (%) (Ncases = 233)。病変測定値のネットワーク予測におけるパーセンテージ誤差は、一般にグラウンド トゥルース病変測定値の値が増加するにつれて減少します。特に、SUVmax (b)、病変数 (c)、TMTV (d)、TLG (e) の測定値では、グラウンド トゥルース値の範囲が広いほど MAPE は横ばいになります。


2) グラウンドトゥルース病変測定値のネットワークパフォーマンスへの影響:まず、内部テストセットと外部テストセットのグラウンドトゥルース病変測定値を計算し、図 6 に示すように、これらの各測定値とさまざまなデータセットに対する UNet (DSC ベース) のパフォーマンスを調べました。パフォーマンスは、(i) 全体的なテストセット、(ii) DSC < 0.2 のケース、(iii) 0.2 ≤ DSC ≤ 0.75 のケース、(iv) テストセットで DSC > 0.75 のケースの 4 つのカテゴリに分けられました。図 6 (a)-(b) から、DSC が高いカテゴリでは、内部コホートと外部コホートのテストセットの両方で、患者レベルの SUVmean (平均値と中央値) と SUVmean の値も高かったことがわかります。PMBCL-BCCV セットの全体的なパフォーマンスが低いのは、全体的な平均値と中央値の SUVmean と SUVmean が低いことにも起因します。病変の数についても同様の傾向が見られました (図 6 (c))。これは外部テスト セットでのみ見られ、内部テスト コホートのいずれでも見られませんでした。外部テスト セットの病変の平均数は、どの内部テスト セットよりもかなり高いことに注意してください。TMTV および TLG については、DSC が高いすべてのコホートで TMTV または TLG の平均値と中央値も高くなりましたが、DLBCL-SMHS コホートでは、DSC < 0.2 カテゴリで TMTV および TLG の平均値と中央値が最も高くなりました。この異常は、図 6 (a)-(b) に示すように、このコホートのこのカテゴリの症例の病変が大きいにもかかわらず、淡いためであると考えられます。最後に、Dmax については、カテゴリ 0.2 ≤ DSC ≤ 0.75 で、すべてのコホートで Dmax の中央値が最も高く、DLBCL-SMHS を除くすべてのコホートで Dmax の平均値が最も高くなりました。 Dmax の値が低いということは、病気の広がりが低いことを意味し、これは、小さな病変が 1 つだけのケース、または近くに複数の(小さいまたは大きい)病変がある場合に該当します。


次に、DSCの中央値のパフォーマンスを評価しました。


図 6. 異なるテスト セットでの異なるグラウンド トゥルース病変測定の UNet パフォーマンス (DSC) の変化。各テスト セットについて、病変測定分布は、(i) テスト セット全体、(ii) DSC < 0.2、(iii) 0.2 ≤ DSC ≤ 0.75、(iv) DSC > 0.75 の 4 つの異なるカテゴリでボックス プロットとして示されています。すべてのプロットの Y 軸は対数スケールであり、各ボックスの平均値と中央値は、それぞれ白い円と黒い水平線で表されています。






B. 検出性能


セクション III-D.2 で定義した 3 種類の検出メトリックに基づいてネットワークのパフォーマンスを評価しました。最も弱い検出基準である基準 1 は、内部テスト セットと外部テスト セットの両方で、すべてのネットワークのすべての基準の中で最も優れた全体的な検出感度を示しました。次に基準 3、基準 2 が続きました (図 8)。基準 1 では、UNet、SegResNet、DynUNet、および SwinUNETR は、内部テスト セットでそれぞれ 1.0 [0.57、1.0]、1.0 [0.59、1.0]、1.0 [0.63、1.0]、および 1.0 [0.66、1.0] の平均感度を取得しましたが、外部セットではそれぞれ 0.67 [0.5、1.0]、0.68 [0.51、0.89]、0.70 [0.5、1.0]、および 0.67 [0.5、0.86] を取得しました。当然、内部テストから外部テストに移行するとパフォーマンスが低下しました。さらに、基準 1 は FP メトリックの数に関して最高のパフォーマンスを示し、ネットワークは内部テスト セットでそれぞれ 4.0 [1.0、6.0]、3.0 [2.0、6.0]、5.0 [2.0、10.0]、7.0 [3.0、11.25] の中央値の FP を取得し、外部テスト セットではそれぞれ 16.0 [9.0、24.0]、10.0 [7.0、19.0]、18.0 [10.0、29.0]、31.0 [21.0、55.0] の中央値の FP を取得しました。


図 8. 内部および外部テスト セットの 4 つのネットワークの 3 つの検出基準による患者あたりの検出感度と FP の中央値。ボックスの上端と下端は IQR にまたがり、赤い水平線と白い円はそれぞれ中央値と平均を表します。ウィスカーの長さは IQR の 1.5 倍に設定され、外れ値は黒いダイヤモンドで示されています。


さらに、より厳しい検出基準である基準 2 は、すべてのネットワークに対して検出感度が最も低く、内部テスト セットでは中央値がそれぞれ 0.5 [0.0, 1.0]、0.56 [0.19, 1.0]、0.5 [0.17, 1.0]、0.55 [0.19, 1.0] であり、外部テスト セットではそれぞれ 0.25 [0.1, 0.5]、0.25 [0.14, 0.5]、0.25 [0.13, 0.5]、0.27 [0.16, 0.5] でした。この基準では、内部テスト セットから外部テスト セットに移行したときの中央感度の低下は、基準 1 の場合と同等です。同様に、この基準では、患者あたりの FP の中央値は、内部テスト セットではそれぞれ 4.5 [2.0、8.0]、4.0 [2.0、8.0]、6.0 [4.0、12.25]、9.0 [5.0、13.0] であり、外部テスト セットではそれぞれ 22.0 [14.0、36.0]、17.0 [10.0、28.0]、25.0 [16.0、37.0]、44.0 [27.0、63.0] でした。基準 1 よりも感度が低いにもかかわらず、基準 2 では患者 1 人あたりの FP は内部テスト セットと外部テスト セットの両方で同様です (ただし、SwinUNETR の外部テスト セットにおける基準間の FP の中央値の変動は最も高くなります)。


最後に、病変の SUVmax ボクセルの検出に基づく基準 3 は、病変を正確に検出するモデルの能力が病変の SUVmax とともに増加するため、基準 1 と 2 の中間の基準でした (セクション IV-A.2)。この基準では、ネットワークは内部テスト セットでそれぞれ 0.75 [0.49, 1.0]、0.75 [0.5, 1.0]、0.78 [0.5, 1.0]、0.85 [0.53, 1.0] の平均感度を持ち、外部テスト セットではそれぞれ 0.5 [0.33, 0.75]、0.53 [0.38, 0.74]、0.5 [0.37, 0.75]、0.5 [0.4, 0.75] でした。内部テスト セットと外部テスト セット間の感度の低下は、他の 2 つの基準と同等です。同様に、ネットワークの患者あたりの FP の中央値は、内部テスト セットではそれぞれ 4.0 [1.0, 8.0]、4.0 [2.0, 7.0]、5.0 [3.0, 11.0]、8.0 [4.0, 12.0] であり、外部テスト セットではそれぞれ 19.0 [12.0, 29.0]、14.0 [8.0, 22.0]、22.0 [14.0, 35.0]、39.0 [25.0, 58.0] でした。


C. 観察者内変動


観察者内変動分析を実行するために、PMBCL-BCCV コホート全体 (トレーニング セット、有効セット、テスト セットを含む) から 60 件のケースが医師 4 によって再セグメント化されました。このサブセットは、35 件の「簡単な」ケース (元のグラウンド トゥルースで DSC > 0.75 を取得する UNet 予測マスクのケース) と 25 件の「難しい」ケース (DSC < 0.2) で構成されていました。偏りを排除するために、DSC 基準を除くこれらのケースの選択はランダム化され、再セグメント化プロセス中に特定のケースの選択が優先されないことが保証されました。


「簡単」なケースと「難しい」ケースを合わせた医師の元のセグメンテーションと新しいセグメンテーション間の全体的な平均 DSC と中央値 DSC は、それぞれ 0.50 ± 0.33 と 0.49 [0.20, 0.84] でした。ここで、平均は UNet の PMBCL-BCCV テスト セットのパフォーマンス (0.49 ± 0.42) と同等でしたが、中央値は UNet のそれ (0.74 [0.02, 0.9]) よりはるかに低かったです。「難しい」ケースでは、元の注釈と再セグメント化された注釈間の平均 DSC と中央値 DSC がそれぞれ 0.22±0.18 と 0.20 [0.05, 0.36] であることがわかったことからわかるように、一貫したグラウンド トゥルースを生成する際の再現性が低くなりました。対照的に、「簡単な」ケースでは、DSC値の平均と中央値はそれぞれ0.70±0.26と0.82 [0.65, 0.87]でした。




図 10。PMBCL-BCCV コホートの 35 件の「容易な」症例と 25 件の「困難な」症例について、中央感度と患者あたりの FP 指標に関する 3 つの検出基準を使用して観察者内 (医師 4) の変動性を評価しています。この分析では、医師 4 による元のセグメンテーションがグラウンドトゥルースとして扱われ、新しいセグメンテーションが予測マスクとして扱われました。ボックスの上端と下端は IQR にまたがり、赤い水平線と白い円はそれぞれ中央値と平均を表します。ウィスカーの長さは IQR の 1.5 倍に設定され、外れ値は黒いダイヤモンドとして表示されています。


最後に、図 10 に示すように、元のセグメンテーションと新しいセグメンテーションに対して検出分析も実行しました。この分析では、元のセグメンテーションをグラウンドトゥルースとして扱い、新しいセグメンテーションを予測マスクとして扱いました。基準 1 では、「簡単」なケースと「難しい」ケースの両方で検出感度の中央値は 1.0 [1.0, 1.0] であり、医師が元の注釈と新しい注釈の間で常に少なくとも 1 つのボクセルをセグメント化したことを示しています。この基準では、患者あたりの FP の中央値はそれぞれ「簡単」なケースと「難しい」ケースで 0.0 [0.0, 2.0] と 0.0 [0.0, 0.0] であり、「難しい」ケースでは、医師が元のマスクと比較してまったく異なる場所に病変をセグメント化したことはなかったことを示しています。基準 2 では、「容易」な症例と「困難」な症例の感度はそれぞれ 0.67 [0.08, 1.0] と 0.0 [0.0, 0.0] でした。これは、「困難」な症例の新しい注釈では、医師が IoU > 0.5 の病変を元の注釈の病変とセグメント化しなかったことを意味します。この基準では、患者あたりの FP の中央値は、「容易」な症例と「困難」な症例でそれぞれ 1.0 [0.5, 4.0] と 1.0 [1.0, 1.0] でした。最後に、基準 3 では、感度は 1.0 [0.84, 1.0] と 1.0 [0.5, 1.0] であり、患者あたりの FP は「簡単」な場合で 0.0 [0.0, 3.0] と「難しい」場合で 0.0 [0.0, 1.0] でした。これら 3 つの基準で評価された医師の検出パフォーマンスの傾向は、セクション IV-B の 4 つのネットワークによる傾向と似ていることは注目に値します (基準 1 > 基準 3 > 基準 2)。


D. 観察者間の変動


DLBCL-BCCV セットから 9 つの症例 (すべて異なる患者に属する) がランダムに選択され、2 人の追加医師 (医師 2 と 3) によってセグメント化されました。これら 9 つの症例の平均 Fleiss κ 係数は 0.72 で、医師間の「実質的な」一致の範疇に入ります。このレベルの一致は、複数の注釈者から得られたグラウンド トゥルース セグメンテーションの信頼性と一貫性を強調しています。


次に、9つの症例すべてについて、2人の医師間のペアワイズDSCを計算した。医師1と2、2と3、1と3間の平均DSCは、それぞれ0.67±0.37、0.83±0.20、0.66±0.37だった。さらに、3人の医師のSTAPLE [24]コンセンサスが9つの症例すべてについて生成され、STAPLEセグメンテーションと真実のセグメンテーション間のDSCが各医師について計算された。医師1、2、3のSTAPLE真実との平均DSCは、それぞれ0.75±0.37、0.91±0.11、0.90±0.16だった。


この論文はarxivで入手可能CC 4.0 ライセンスに基づきます。