arXiv (AI)AI
TITLE_JA: 推論モデルにおける学習ベースの早期終了はいつ有効か?コスト考慮型の実証研究
When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデルが複雑な推論タスクを解く際、すべての問題に同じ計算量を費やすのは非効率です。本研究は、推論モデルが途中で処理を打ち切るべきタイミングを判断する学習ベースの手法「LearnStop」を提案し、その有効性を詳細に検証しています。
LearnStopは、推論プロセスの各段階で現在の推論状態から短い答えを抽出し、その正確性を複数の特徴量から予測するチェックポイント停止器です。具体的には、回答の確信度、エントロピー、前置詞の投票シェア、答えの安定性、バックトラッキングマーカーの密度といったオンライン特徴量を活用して、推論を続行すべきかどうかを判定します。研究チームはGSM8K、MATH-500、MMLU-Pro、AIME-90、GPQAなど18のタスク・モデル設定にわたって検証を実施しました。
興味深いことに、学習ベースの停止ルールの有効性はタスクの性質に依存することが明らかになりました。自由形式の数学問題では、複数特徴量を用いた学習的な停止がスカラー値ベースの終了より優れた性能を示し、Qwen3-32BでGSM8Kに取り組む際には0.157のゲイン向上が観測されました。一方、多択問題や極めて難しい問題では、単純な確信度やエントロピー、安定性ルールの方が競争力を持つか、むしろ強い性能を示しました。
研究の重要な実践的発見は、学習ベースの停止が有用であるのは「多くの問題が予算上限に達する前に正解に至るが、単一の信頼できるスカラー停止信号を示さない場合」に限定されるということです。すなわち、LearnStopは万能な解決策ではなく、推論軌跡の構造に応じて価値が変動するツールとして位置づけられます。