arXiv (Neural Computing)AI
TITLE_JA: 予測精度を超えて:予測モデルの論理的一貫性を測定する
Beyond Accuracy: Measuring Logical Compliance of Predictive Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
機械学習モデルの評価は、従来的には予測精度、ランキング品質、分類精度といった予測性能指標に依存してきました。これらの指標は予測値が実際のデータにどれだけ近いかを定量化するのに優れていますが、モデルの出力が事前に定義された論理的制約またはドメイン固有の制約を守っているかどうかを評価することはできません。医療、金融、自動運転システムなどの高リスク応用分野では、論理的一貫性は予測精度と同じくらい重要であるにもかかわらず、この側面を捉える標準的な指標が存在しませんでした。
本研究では、Rule Violation Score(RVS)という補完的な評価指標を提案します。RVSは、予測精度とは独立に、予測モデルが与えられた論理規則セットをどの程度尊重しているかを定量化します。この指標は厳密な制約である硬い規則と統計的規則性である柔らかい規則を区別して処理し、あらゆるデータセットとあらゆる関係語彙で表現された予測モデルに対して評価可能です。さらにRVSは、Horn規則に対して自動生成されたSQLクエリを使用して計算できるため、実装が容易です。
RVSはモデル評価以外にも、訓練データの論理的一貫性を評価し、定義不十分な規則を特定するのに役立ちます。研究チームは知識グラフのリンク予測と関係回帰をカバーする3つのベンチマークでRVSを評価し、規則ベース、埋め込みベース、ニューロシンボリック予測モデルを検証しました。
結果として、同等の予測精度を達成した2つのモデルでも、論理的一貫性のレベルに大きな違いが見られることが明らかになりました。これにより、標準的な指標では捉えられないモデル動作の違いが露呈され、特に規制要件が厳しい分野で信頼性の高いモデル選択が可能になります。