arXiv (CV)AI
SlideCheck:病理学基盤モデルの自己教師あり事前学習をデータセット分布で誘導する手法
SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
病理学分野における医療画像解析は、大規模な全スライド画像(WSI)から抽出されたパッチを用いて基盤モデルを事前学習することが一般的です。しかし実際には、こうした学習データに対する教師信号がスライドレベルで与えられたり、スパース(疎)であったり、異種混在していたりするため、どのような生物学的パターンが学習データに含まれているのかを理解し制御することが難しくなっています。
この課題に対して、研究者たちはSlideCheckという軽量な事前学習データ誘導ツールを提案しました。このツールは、凍結された病理学基盤モデルのパッチ特徴を基盤として構築されており、単なる診断モデルではなく、異常性と悪性度のスコアを明示的に提供することで、病理学的な事前学習データの整理、フィルタリング、監査を支援します。SlideCheckは二つのヘッドを持つMLPアーキテクチャを採用し、広範な異常形態と悪性の証拠を個別にモデル化しています。
正則化された特徴空間スコアラーがパッチレベルの証拠推定に対する教師付き基準を提供し、スコア注意合意メカニズムがパッチスコアをWSIレベルのMIL注意と組み合わせて、信頼度の高い疑似ラベルを抽出します。同じスコアを用いて、異常性または悪性度の証拠が閾値を超えるパッチを選別し、ブロードポジティブなViT事前学習部分集合を構築します。実験結果により、SlideCheckが定義するデータ分布は自己教師あり学習するViTの下流タスクでの振る舞いに影響を及ぼすことが確認され、生物学的な構成が病理学基盤モデル開発における重要な制御可能因子であることが示されました。キュレーションされた部分集合は全データを用いた学習に近い性能を達成でき、明示的にスコア付けされたパッチプールが、より効率的で監査可能な事前学習データ構築を支援する可能性があることが示唆されています。