arXiv (NLP)AI
TITLE_JA: 近代的なBERTモデルの法律分野への領域適応
Legal Domain Adaptation of Modern BERT Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自然言語処理の分野では、大規模言語モデルを特定の専門分野に最適化する「領域適応」が重要な課題となっています。本研究では、ModernBERTと呼ばれる最新のBERTモデルを法律分野に適応させるプロセスを調査しました。ModernBERTは元来のBERTと比較して約500倍多くのデータで事前学習されている高性能なモデルですが、研究チームはこのモデルをさらに米国の全裁判所意見書データを用いてマスク言語モデリング目的で追加学習させました。
この領域適応アプローチにより、米国の裁判所意見書に関連するすべてのデータセットにおいて、バニラ版のModernBERTと比較して有意な性能改善が達成されました。得られた改善幅は、BERT系モデルの領域適応に関する初期研究で報告された成果と同程度のものとなっています。興味深いことに、ゼロから事前学習を行うアプローチは、既存のModernBERTチェックポイントをさらに学習させる方法の性能に及ばないことが明らかになりました。
最終的に開発されたモデルは最大8,192トークンまでの長い文章列を処理できる能力を備えており、法律文書の意味的な埋め込み表現を計算したり、特定の検索クエリに対して数百の法律文書を迅速に再ランク付けしたりすることが可能です。研究チームはこれらのモデルチェックポイントをすべて公開リリースしており、法律分野の自然言語処理の研究や応用に貢献しています。