arXiv (NLP)AI
確率的プログラムを用いた大規模言語モデルの帰納的推論能力の向上
Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の推論能力を強化するポストトレーニングは、数学やコーディングなど正解が明確に検証できる演繹的タスクに焦点が当てられてきました。しかし現実世界の推論問題の多くは帰納的性質を持ち、限定的で曖昧な観測からの不確実な信念を推論する必要があります。このような帰納的推論に対して従来のファインチューニング手法を適用することは、大規模で高品質なラベル付きデータセットの構築が難しく、本質的に分布的な目標値を扱う困難さなど、複数の課題を抱えていました。
この研究では、こうした課題を解決するための新しいアプローチ「Program-based Posterior Training(PPT)」を提案しています。PPTの基本的な仕組みは、LLMを用いて多様なオープンワールドシナリオを確率的プログラムとして生成し、確率推論を実行して分布的な目標応答を生成した後、これらの確率的ソフトラベルに基づいてモデルをファインチューニングするというものです。
研究チームは、プログラムで生成した10,000個のシナリオを用いてLLMをファインチューニングし、保持されたテストセット、人間によるラベル判定、および外部ベンチマークで評価を実施しました。その結果、PPTは保持されたタスクにおける推定精度を大幅に改善し、人間の判断との一致度を高め、外部ベンチマークにおける推定と較正タスクへの転移性能を示しました。注目すべきは、得られた較正性能の向上が事後的な温度スケーリングでは説明できず、モデルが単なる出力の再スケーリング以上に不確実性をより深く内在化していることを示唆しています。これらの結果から、確率的プログラムを媒介としたファインチューニングは、信頼性の高い近似的帰納推論を実行するようにLLMをポストトレーニングするための有望なアプローチであることが示唆されています。