arXiv (NLP)AI
TITLE_JA: POLARIS:小規模言語モデルが長編ストーリーを執筆できるよう導く新手法
POLARIS: Guiding Small Models to Write Long Stories
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
小規模なオープンウェイト言語モデルは長編創作に課題を抱えています。生成されたストーリーが指定された長さに達しなかったり、長さが増すにつれて品質が大幅に低下したりする傾向があり、特にフロンティアモデルとの比較において顕著です。この問題に対処するため、研究チームはPOLARIS(Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting)を提案しました。これは計算効率の高いGRPOレシピで、2つの重要な要素を備えています。1つ目は、構造化されたStory Quality評価基準を用いたフロンティアLLM判定者をオンライン報酬として活用することであり、2つ目は、人間参照注入(HRI)で、教師強制された人間作成ストーリーが各GRPOグループ内で高報酬アンカーとして機能します。
研究チームはこの訓練レシピをQwen3.5-9Bに適用し、100冊の短編集と4つのA100 GPUから得られた約1,400個のプロンプト・ストーリーペアのデータセットを使用しました。その結果がPOLARIS-9Bです。分布内・分布外のプロンプトと評価基準にわたる5つのベンチマークで、POLARIS-9Bは遥かに大規模なオープンウェイトモデルと同等の競争力を示しながら、長さの指示により厳密に従います。盲検の人間評価では、POLARIS-9Bは基本的なQwen3.5-9Bよりも優先され、Qwen3.5-27Bと同等であると確認されました。
特に注目すべきは、訓練が4,000語までのストーリーのみで行われたにもかかわらず、POLARIS-9Bは訓練長の3倍までのストーリーを要求するプロンプトで品質を保持できることです。このような長さの領域では、ほとんどのオープンウェイトモデルが品質や長さの遵守で大幅に低下します。本研究は長さの汎化が創作モデルの有意義なストレステストであり、微妙な違いを持つモデルを区別するための有用なレンズであることを示唆しています。