arXiv (ML)AI
生存分析のための複数生成モデル統合フィルタリング手法
A Filtered Mixture-of-Generators for Fully Synthetic Survival Training
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
医療現場における臨床データは極めて貴重で入手困難です。イベント発生までに数年の追跡調査が必要となり、患者コホートは小規模で、プライバシー規制により機関間でのデータ共有が制限されています。こうした制約の中で、生存分析モデルの訓練データを確保することは大きな課題となっています。
合成データを生成する表形式生成モデルは、データ拡張とプライバシー保護を両立させる有望な手段として期待されていますが、自らも大量のデータを必要とします。生存分析で典型的な小規模コホートでは、単一の生成器では母集団を十分に特徴付けることができず、その出力に基づいて訓練されたモデルが実データで得られるのと同等の性能を発揮しにくいという問題があります。
今回発表されたFoGS(Filtered Mixture-of-Generators for Survival analysis)は、従来の生成という枠組みから脱却し、合成データ構築をサンプル選択問題として再構築する手法です。4つの異なるアーキテクチャを持つ表形式生成器から候補プールを生成し、実データで訓練した7つの生存モデルのアンサンブルが、各サンプルの尤もらしさをスコアリングします。その後、二段階のパイプラインで、外側ループではサンプル選択方針(生成器の割合、スコアラーの重み、層化バランシング)を最適化し、内側ループではダウンストリームモデル(XGBoost-Cox)を調整します。
16個の公開データセットで評価した結果、合成データで訓練して実データでテストした場合、FoGSはC-indexで平均+2.17、IBSで+0.67の改善を達成しました。16のうち9つのデータセットで両指標が改善し、13では少なくとも一つが改善されています。プライバシー保護の観点でも、フィルタリング未実施のサンプリングと比べて最近傍プライバシーマージンに有意な変化がなく、プライバシー制限のある臨床設定において実データ訓練の代替手段として有効であることが示されました。