arXiv (NLP)AI
EDEN:イタリア語の臨床診断記録の大規模コーパス
EDEN: A Large-Scale Corpus of Clinical Notes for Italian
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
イタリアの医療機関における自然言語処理研究が大きく前進する可能性を秘めた新しいデータセットが公開されました。EDEN(Emergency Department Electronic Notes)と名付けられたこのコーパスは、イタリアの病院の救急科で作成された臨床診断記録の大規模な集合体です。現在のバージョンでは、約400万件の完全に匿名化された臨床記録を収集しており、救急科における患者ケアのあらゆる段階をカバーしています。このスケールのデータセットは、イタリア語を対象とした医療分野の機械学習研究では従来利用できなかったため、今回の公開は学術界にとって極めて重要な資源となります。
このコーパスには単なる生ログ以上の価値があります。約6,000件の記録について、医学専門家により構造化されたCRF(Case Report Form)を用いた詳細なアノテーションが実施されました。アノテーション対象は呼吸困難と意識喪失という救急科での頻繁な患者状況に関連した132項目で、血液酸素飽和度などの数値データ、意識レベルなどのカテゴリカルデータ、外傷の有無といった二値データなど、多様な形式の医学情報を含んでいます。複数の臨床医による反復的な修正プロセスを経て、高い品質と信頼性が確保されています。
このデータセットの活用方法として、研究者らはCRFフィリング(CRF項目の自動入力)という新しい構造化情報抽出タスクを提案しています。ベースラインテストとしてGemma-27BとMedGemma-27Bの両LLMを用いたゼロショット評価も実施されています。EDENは医療AIアプリケーション開発の実践的なニーズに応えるとともに、大規模言語モデルの医療応用を促進するために設計された貴重なリソースであり、イタリア語対応の臨床テキスト処理研究を飛躍的に推し進める可能性を秘めています。