arXiv (NLP)AI
TITLE_JA: アラビア英語対応機械可読辞書から情報抽出を用いて言語知識を自動抽出
Extracting Knowledge from an Arabic-English Machine-Readable Dictionary Using Information Extraction
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自然言語処理(NLP)の応用には、大規模で豊富な言語知識が必要とされます。近年、電子辞書や百科事典、言語コーパスなどの電子言語資源が利用可能になったことで、これらの資源から自動的に語彙情報を抽出する手法の重要性が高まっています。本研究では、アラビア英語対応辞書「Al-Mawrid」の機械可読版から語彙情報を自動抽出するメソッドを開発しました。
研究では、n-gram分析とキーワード・イン・コンテキスト(KWIC)分析を用いて、形態論的・統語論的・意味論的情報を表現する語彙パターンを発見しました。その後、手作成のルールベース情報抽出手法を適用して、これらの情報を体系的に抽出しました。さらに句読点といくつかのヒューリスティクスを活用して、副見出し内の同義語セットを抽出しました。
本研究の成果として、全ての情報タイプで高い精度が得られ、特に同義語抽出では高い再現率を達成しました。一方、その他の情報タイプでは再現率が低い結果となりました。分析結果から、Al-Mawridには導出語(形態論的情報)や同義語、領域ラベル、上位語・下位語関係(意味論的情報)が豊富に含まれていることが明らかになりました。本研究は、辞書のような構造化された言語資源から自動的に知識を抽出し、NLPアプリケーションに活用する可能性を示しています。