arXiv (ML)AI
TITLE_JA: 臨床時系列データ生成における有意な欠損値のモデル化
Informative Missingness to Generate Irregular Clinical Time Series
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
電子健康記録に含まれる臨床検査データは、現実の医療現場では不規則な時間間隔で収集されている。このような欠損パターンは単なる前処理上のノイズではなく、臨床医の判断や患者の生理的状態を反映した重要な情報を含んでいる。本研究は、このような「有意な欠損」を直接モデル化することで、より現実的な臨床時系列データを生成する新しいアプローチを提案している。
研究チームはMIMIC-IIIから派生したDACMIベンチマークデータセットを用いて、拡散モデルベースの手法を開発した。この手法の特徴は、検査値そのものだけでなく、その観測パターン(検査が実施されたか否か)を同時にモデル化する点である。データ前処理では、4時間単位のグリッドにチャートタイムを整列し、入院期間を7日間のウィンドウに分割することで、各検査値に対応する観測インジケータを保持している。TimeDiffフレームワークを拡張し、連続値の検査結果と離散的な欠損パターンを補完的な拡散目的関数を通じて学習する設計となっている。
実験結果は、生成されたデータが実際の患者軌跡と個別の検査値分布および結合埋め込み空間において高い一致性を示していることを明らかにした。これにより、拡散モデルが患者の生理状態と臨床医の検査行動の間の医学的に意味のある依存関係をMNAR的な欠損メカニズムの下で捉えられることが実証されている。
この成果は臨床基盤モデルの開発に向けた初期段階のコンポーネントとして機能する可能性を示唆しており、生理的特性と欠損パターンの関係を保持する合成事前分布を生成することで、有意な欠損を活用可能なPrior-Data Fitted Networksの訓練へ道を開くものである。