著者:
(1)シャダブ・アハメド、ブリティッシュコロンビア大学、ブリティッシュコロンビア州バンクーバー、BCがん研究所、ブリティッシュコロンビア州バンクーバー。また、米国ワシントン州レドモンドのMicrosoft AI for Good LabのMitacs Accelerateフェロー(2022年5月~2023年4月)でもありました(電子メール:[email protected])。
(2)Yixi Xu、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(3)クレア・ガウディ、BC小児病院、バンクーバー、BC州、カナダ
(4) Joo H. O、聖マリア病院、ソウル、大韓民国
(5)イングリッド・ブロワズ、BCキャンサー、バンクーバー、BC州、カナダ
(6)ドン・ウィルソン、BCがん、バンクーバー、BC州、カナダ
(7)パトリック・マルティノー、BCがん、バンクーバー、BC州、カナダ
(8)フランソワ・ベナール、BCがん、バンクーバー、BC州、カナダ
(9)フェレシュテ・ユセフィリジ、BCがん研究所、バンクーバー、BC州、カナダ
(10)Rahul Dodhia、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(11)フアン・M・ラビスタ、Microsoft AI for Good Lab、レドモンド、ワシントン州、米国
(12)ウィリアム・B・ウィークス、マイクロソフトAI for Good Lab、レドモンド、ワシントン州、米国
(13)カルロス・F・ウリベ、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ
(14)アルマン・ラミム、BCがん研究所、カナダ、ブリティッシュコロンビア州バンクーバー、ブリティッシュコロンビア大学、カナダ、ブリティッシュコロンビア州バンクーバー。
この研究では、3つの異なるコホートから得られたPET/CTデータセットからリンパ腫病変のセグメンテーションを自動化するために、4つの異なるニューラルネットワークアーキテクチャをトレーニングおよび評価しました。モデルのパフォーマンスを評価するために、これら3つのコホートから得られた内部テストセットで包括的な評価を実施し、SegResNetとUNetがDSC(平均値と中央値)と中央値FPVメトリックでDynUNetとSwinUNETRよりも優れており、SwinUNETRが中央値FNVで最高の結果を示したことを示しました。内部評価に加えて、大規模な公開リンパ腫PET/CTデータセットでの外部分布外テストフェーズを含むように分析を拡張しました。この外部テストセットでも、SegResNetはDSCとFPVメトリックの点で最高のパフォーマンスを発揮し、その堅牢性と有効性を強調しました。一方、UNetはFNVで最高のパフォーマンスを示しました。
SegResNet と UNet はそれぞれ (224, 224, 224) と (192, 192, 192) という大きなサイズのパッチでトレーニングされたのに対し、DynUNet と SwinUNETR はそれぞれ (160, 160, 160) と (128, 128, 128) という比較的小さなパッチを使用してトレーニングされたことを強調しておくことが重要です。トレーニング中に大きなパッチサイズを使用すると、ニューラルネットワークはデータのより広範なコンテキスト理解を獲得できるため、セグメンテーションタスクでのパフォーマンスが向上します [17]。この観察結果は、SegResNet と UNet の優れたパフォーマンスは、トレーニング中に大きなパッチサイズにさらされたことに起因するという私たちの結果と一致しています。さらに、バッチサイズが大きいほど、勾配を正確に推定することで堅牢なトレーニングが可能になります[17]が、私たちが選択したトレーニングパッチサイズでは、メモリ制限のため、nb > 1でSegResNet、DynUNet、およびSwinUNETRをトレーニングできませんでした(UNetの場合はnb = 8に対応できました)。したがって、ネットワーク間の公平な比較のために、すべてのネットワークはnb = 1でトレーニングされました。DynUNetとSwinUNETRをより大きなパッチとミニバッチサイズでトレーニングできなかったのは、主に計算リソースの制限によるものであることは注目に値します。ただし、この制限は将来の研究への道を示しており、これらのモデルをより大きなパッチとバッチサイズでトレーニングすることで、セグメンテーション精度がさらに向上する可能性があります。
病変の測定値の再現性を評価したところ、内部テスト セットでは、TMTV と TLG はすべてのネットワークで再現可能でしたが、Dmax はどのネットワークでも再現できませんでした。SUVmean は UNet を除くすべてのネットワークで再現可能でしたが、SUVmax は SegResNet のみで、病変数は UNet と SegResNet のみで再現可能でした。外部テスト セットでは、再現性はより限定的で、SUVmean のみが SegResNet と SwinUNETR の両方で再現可能で、病変数は SegResNet で、TLG は DynUNet で再現可能でした (図 3 および 4)。さらに、MAPE を使用して病変測定値を推定する際のネットワークの誤差を定量化し、内部テスト セットと外部テスト セットを組み合わせた場合、MAPE は一般に病変測定値 (すべての病変測定値) の関数として減少することがわかりました (図 5)。ネットワークは、グラウンドトゥルースの病変指標が非常に小さい場合、正確な予測において一般に重大なエラーを起こしました。また、一般に、患者レベルの病変 SUVmean、SUVmean、TMTV、TLG が大きい画像セットでは、ネットワークはより高い中央値 DSC を予測できますが、これらの病変指標の値が非常に高い場合、パフォーマンスは一般に横ばいになることも示しました。一方、DSC のパフォーマンスは病変の数にあまり影響されませんが、Dmax が高い画像セットでは、すべてのネットワークでパフォーマンスが一般に低下します (図 7)。
PET/CTデータの多くは医療機関が個人的に所有しているため、研究者がディープラーニングモデルのトレーニングとテストのために多様なデータセットにアクセスすることは大きな課題となっています。このようなシナリオでは、モデルの解釈可能性を向上させるために、研究者がモデルのパフォーマンスがデータセットの特性にどのように依存するかを調査することが重要です。モデルのパフォーマンスが画像/病変の特性とどのように相関するかを研究することで、研究者はモデルの長所と限界についての洞察を得ることができます[13]。
セグメンテーション パフォーマンスの評価に加えて、基準 1、2、3 と示される 3 つの異なる検出基準も導入しました。これらの基準は、病変ごとにネットワークのパフォーマンスを評価するという特定の目的を果たしました。これは、ネットワークのボクセル レベルの精度に主に焦点を当てたセグメンテーション パフォーマンス評価とは対照的です。これらの検出基準を導入した理由は、ボクセル レベルで病変の境界を描写する能力を単に評価するのではなく、ネットワークが画像内の病変をどれだけ正確に識別および検出するかを評価する必要があることにあります。病変の存在を検出する能力 (基準 1) は、潜在的な健康上の懸念が特定されるか見逃されるかに直接影響するため、非常に重要です。病変のボクセルを 1 つでも検出すると、さらなる調査や治療計画が開始される可能性があります。病変の数と正確な位置特定 (基準 2) は、治療計画と病気の進行の監視に重要です。病変が存在することだけでなく、病変の数と位置を知ることは、治療上の決定に大きな影響を与える可能性があります。病変の代謝特性 (SUVmax) に基づいて病変をセグメント化することに焦点を当てた基準 3 は、臨床的関連性をさらに高めます。
これらの検出メトリクスを使用して、すべてのネットワークの感度と FP 検出を評価し、検出基準によっては、DSC パフォーマンスが低い場合でもネットワークの感度が非常に高くなる可能性があることを示しました。これらのさまざまな検出基準を考慮すると、特定の臨床使用ケースに基づいてトレーニング済みモデルを選択できます。たとえば、一部の使用ケースでは、病変の正確な境界をセグメント化することに過度に注意することなくすべての病変を検出できることが求められる場合がありますが、他の使用ケースでは、より堅牢な境界描写が求められる場合があります。
さらに、我々は「容易な」症例と「困難な」症例の両方をセグメント化する際の医師の観察者内変動性を評価し、「困難な」サブセットからの症例の一貫したセグメント化の課題を指摘しました。リンパ腫病変のセグメント化では、病変のサイズ、形状、位置、または画像品質などの要因により、症例の難しさが異なる場合があります。経験豊富な医師にとってもセグメント化が一貫して難しい症例を特定することで、セグメント化タスクの複雑さと微妙な差異に関する洞察が得られました。最後に、3 人の医師間の観察者間一致も評価しました。3 人の医師間でかなりのレベルの一致があると推測しましたが、評価は 9 件の症例に対してのみ実行されたため、統計的検出力は低くなりました。
医療画像セグメンテーションにおけるグラウンド トゥルースの一貫性を向上させるには、明確に定義されたプロトコルが不可欠です。このプロトコルでは、PET/CT 画像内の関心領域 (ROI) または病変の描写に複数の専門医が独立して関与する必要があります。1 人の医師がコホートを独立してセグメント化するのではなく、複数の注釈者が互いの作業を知らなくても同じ画像をセグメント化する必要があります。医師間の食い違いや意見の不一致は、ファシリテートされたディスカッション、臨床情報のレビュー、または画像の明確化などの構造化されたアプローチを通じて解決できます。この堅牢なグラウンド トゥルース プロセスにより、観察者間の合意精度が向上し、これらの注釈に依存する研究結果と臨床アプリケーションの妥当性が強化されます。
この論文は