arXiv (NLP)AI
強化学習と連鎖的思考推論を用いた中国語文法誤り訂正システムCSRP
CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を用いた中国語文法誤り訂正(CGEC)システムは、微妙な文法的区別に対する専門的な言語知識の不足と、最尤推定による教師あり微調整(SFT)が精度指向のメトリクス最適化に失敗するという2つの重大な課題に直面していました。これまでのアプローチでは過度な訂正傾向が生じ、本来正しい文や不要な変更が多発していたのです。
このような背景の中、研究チームは3段階のフレームワークであるCSRPを提案しました。まず継続的事前学習(CPT)を590万個のバランスの取れたサンプルに対して実施し、領域固有の知識を内在化させます。次に、連鎖的思考を伴う教師あり微調整を行い、エラー推論を明示的に組み込むことで診断の透明性を確保します。最後に、不要な編集に明示的にペナルティを与える効率性認識報酬を備えたグループ相対ポリシー最適化を適用します。
NACGECベンチマークでの評価結果は極めて優れており、CSRPはF0.5スコア50.99と精度57.17を達成し、従来の最良結果を大幅に上回りました。最尤推定で訓練されたモデルに内在する過度な訂正バイアスの軽減にも成功しています。さらに中国語綴り字訂正(CSCD)ではF1スコア59.61を達成し、GPT-4を5.20ポイント上回っています。アブレーション研究により、強化学習の整列段階がSFTベースラインに対して8%の相対的改善をもたらすこと、および大規模な継続的事前学習への貢献と直交していることが実証されました。