arXiv (ML)AI
検索から合成へ:LLMをゼロショット・ワークフロー生成器として訓練する
From Search to Synthesis: Training LLMs as Zero-Shot Workflow Generators
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は様々なタスクで優れた性能を発揮しますが、個別インスタンスに対する解法は、信頼できるデプロイメントに必要な構造的一貫性を欠いていることが多いという課題があります。タスクレベルで反復的なアルゴリズムパターンを符号化するワークフローは、インスタンスの変動に対する堅牢性、デバッグのための解釈可能なトレース、問題インスタンス間での再利用可能性を提供する原則的なフレームワークとなり得ます。しかし、そのようなワークフローを手動で設計するには相当な専門知識と労力が必要であり、より広い応用を制限しています。
自動ワークフロー生成はこのボトルネックを解決する可能性を持っていますが、既存の手法は個別インスタンスに特有の解法を生成しながらもタスクレベルのパターンを学習できないか、訓練構成を超えた汎化ができません。本研究で提案するMetaFlowは、ワークフロー生成をメタ学習問題として捉え、タスクとオペレータセットが与えられると、モデルが解法戦略を構成することを学習します。MetaFlowは二段階で訓練されます。まず合成ワークフローデータに対する教師あり微調整を行い、その後、タスク内の問題インスタンス全体にわたる実行フィードバックを活用して end-to-end の成功を改善する検証可能報酬によるRL(RLVR)を実行します。
得られたモデルは訓練済みタスクに対して効果的なワークフローを生成し、訓練されていないタスクと新しいオペレータセットへの強い汎化性を示します。質問応答、コード生成、数学的推論の複数ベンチマークにおいて、MetaFlowは単一推論でドメイン内タスクで最先端ベースラインと同等の性能を達成しつつ、ドメイン外タスクとオペレータセットへの優れたゼロショット汎化能力を実証しています。