arXiv (NLP)AI
教育対話のプライバシー保護:完全ローカルAIカスケードによる個人情報除去システム
Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
教育現場での対話記録は、学習の実態を捉えた貴重な研究資源である一方で、個人識別情報(PII)と教育的内容が混在するという課題を抱えています。例えば「リーマン」という名前は実在する学生を指すこともあれば、数学の概念を指すこともあり、この曖昧性への対応が難しいのです。従来のアプローチでは、ガバナンスと精度のトレードオフを余儀なくされてきました。商用の大規模言語モデル(LLM)は確かにこうした曖昧性に対応できますが、学生データを外部企業に送信する必要があります。一方、ローカルの固有表現抽出(NER)システムはガバナンスを保ちながらも、教育用語まで過度に除去してしまう問題がありました。
本研究では、この問題を解決するために、完全ローカルで動作するカスケード型フレームワークを提案しています。このシステムは、個人情報除去を単なるエンティティ認識問題から、より限定的なプライバシー判定問題へと再定義します。まず「リコール重視の提案者」が2つの軽量エンコーダーと決定論的ルールを組み合わせて、候補となるテキスト区間を過剰に生成します。その後、「文脈認識型レビュアー」が、周囲の対話内容と話者の役割を考慮しながら、各候補について「除去」または「保持」の二項判定を行います。
評価実験では、2つの大規模チュータリングプラットフォームから得た数学教育の対話記録を用いて検証しました。最強のローカル設定は0.958のマクロF1スコアに達し、同じLLMファミリーの比較ベースライン(0.767)および商用API(0.706)を大きく上回りました。処理は単一のノートパソコン上で完全に実行可能です。教育用語と個人名の曖昧性に特化したチャレンジセットでは、提案手法はF1スコアで0.03の低下に留まる一方、より小規模なレビュアーでは0.19~0.25の低下が見られました。これらの結果は、教育分野の個人情報除去において、モデルの規模よりも問題定義のあり方が重要であることを示唆しています。