arXiv (ML)AI
加速度計由来のデジタルバイオマーカーによる心代謝リスク予測:不確実性定量化を伴う母集団代表的なベンチマーク
Accelerometry-Derived Digital Biomarkers for Cardiometabolic Risk: A Population-Representative Tabular Benchmark with Uncertainty Quantification
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
健康医療データの予測モデル開発において、実世界の複雑さを反映したベンチマークの必要性が高まっています。本研究は、米国の大規模健康調査であるNHANES(2003~2006年)のデータを活用して、加速度計から得られるデジタルバイオマーカーを用いた心代謝リスク予測の新しいベンチマークを構築しました。1,381人の成人を対象に、腰に装着した加速度計によるデータに加え、空腹時の臨床検査値、食事摂取量、身体測定値を収集し、総合的な評価データセットを作成しています。
研究では、リッジ回帰、XGBoost、そして最新のファンデーションモデルであるTabPFN v2という3つの表形式学習手法を比較検討しました。これらのモデルを用いて、活動パターンとライフスタイル因子から糖化ヘモグロビン(HbA1c)、空腹時トリグリセリド、C反応性たんぱく質(CRP)の予測を行いました。結果として、TabPFN v2が最良の総合性能を示し、HbA1cではR²=0.156、CRPではR²=0.383を達成しました。一方、トリグリセリドはほぼ予測不可能(R²<0.05)であり、この特性が遺伝的要因に強く支配されていることと一致しています。
さらに注目すべきは、分割適合予測法を用いて分布自由な90%予測区間を生成し、性別および人種・民族別のサブグループ間における予測カバレッジの公平性を評価したことです。全体的なカバレッジはCRPとHbA1cで90%の目標を達成しましたが、トリグリセリドではこれを下回りました。サブグループレベルの分析では、メキシコ系アメリカ人でのHbA1c予測においてカバレッジの局所的な不足が観察されるなど、臨床的公平性を実現するために必要な条件付きカバレッジと全体的保証とのギャップが浮き彫りになりました。