arXiv (NLP)AI
イスラム法の相続推論においてどのモデルがより高い性能を発揮するのか
Which Models Perform Better in Inheritance Reasoning?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
本論文は、2026年のQIAS共有タスクにおけるアラビア語イスラム法相続推論の課題に対して、PSLチームが提出した研究成果をまとめたものである。このタスクは、大規模言語モデル(LLM)がイスラム法の相続事件を解決する能力を評価するもので、法的解釈、複数ステップの推論、精密な数値計算を必要とするケースに対応できるかどうかを検証している。
研究では、商用モデルとオープンソースモデルを統一されたプロンプティング戦略の下で比較し、最小限のタスク特有の適応で構造化された法的推論にどの程度対応できるかを評価している。特に注目されるのは、異なるモデルファミリー間での信頼性に明らかな格差が見られたという点である。
商用モデルは、相続対象者の特定、除外ルールの適用、推論ステップ全体における一貫性の維持において、より強固なパフォーマンスを示した。一方、オープンソースモデルは、特に従属的な法的決定が関わるケースや分数シェアの調整が必要な場面において、より大きな不安定性を示しており、複雑な法的推論での課題が浮き彫りになった。最終的に、最高の性能はGoogle DeepMindのGemini 2.5 Flashが達成し、平均相対誤差(MRE)は0.989という結果が得られた。この研究は、法的領域における言語モデルの応用可能性と限界を理解する上で重要な知見を提供している。