arXiv (ML)AI
TITLE_JA: GRPO、Dr. GRPO、DAPOは1つの数値に対する3つの操作:グループ標準偏差恒等式
GRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
言語モデルの推論能力を向上させるための訓練手法として注目されているGRPO(グループ相対ポリシー最適化)、Dr. GRPO、DAPOの3つの方法は、一見異なるアプローチに見えるが、実は本質的には同じメカニズムの異なる設定に過ぎないという研究結果が発表された。これら3つの手法は、すべてプロンプトに対するサンプル回答のばらつきを示す標準偏差という1つの数値を調整しているという共通点を持つ。
言語モデルの訓練では、各問題に対して複数回の回答が生成され、自動チェッカーがそれぞれの回答を正誤判定する。その正誤の標準偏差が、回答の一致度を測定する指標となる。回答が正答と誤答に二分されるときに最大となり、すべてが一致する場合にはゼロになる。GRPOはこの数値で除算し、Dr. GRPOは除算を行わず、DAPOはこの値がゼロのグループを除外するという3つの異なるアプローチが、実は1つのダイアルの3つの設定に過ぎないことを本論文が証明している。
この標準偏差は単なる正規化ステップではなく、訓練における重要な役割を果たしている。正誤報酬に対しては、ばらつきは正確に訓練更新のサイズと一致する。回答が分かれたグループは最も学習を促進し、全員一致のグループは何も学習をもたらさないという特性がある。同じ原理から、どの問題にどの程度の重みを与えるべきか、またそれぞれにいくつの試行が必要かが決定される。本研究は大規模な実数学データセット(Big-Math)と制御された訓練で実証され、この標準偏差が学習の発生場所と強度を決定する重要なメカニズムであることが確認された。