arXiv (NLP)AI
親切さが害になる:ポストトレーニング中の動物への思いやり値の領域依存的な低下
Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデルの開発において、ポストトレーニングのプロセスが意図せず事前の価値観を損なう可能性があることが指摘されています。この研究は、Llama 3.1 8Bモデルを対象に、動物への思いやりに関する価値観がポストトレーニング段階でどのように影響を受けるかを詳細に検証しました。
研究では、モデルを動物への思いやりに関する合成データでミッドトレーニングした後、異なるドメインのデータを用いたポストトレーニングを実施しました。具体的には、教師あり微調整(SFT)では親切さ関連のDolly-15kとコーディング関連のMagicoder-110Kを、強化学習(GRPO)ではRLHFlowとMagiccoderを使用しました。評価には動物危害ベンチマーク(AHB 2.2)と不確実性下の道徳的推論ベンチマーク(MORU)を採用しています。
驚くべき結果として、親切さを目的とした訓練はコーディング訓練と比べて動物への思いやりを著しく低下させることが明らかになりました。SFTでは35.7%対65.2%、GRPOでは18.7%対32.0%という大きな差が記録され、複数の独立したデータセットと訓練パラダイムで再現されました。さらに英語のMORUでは、親切さ訓練が一般的な道徳的推論を25.5ポイント低下させ、これは思いやりへの影響と同程度の規模であることが判明しました。
興味深いことに、この影響は言語を超えた転移では観察されませんでした。多言語MORUベンチマークではドメイン効果がほぼ消失しましたが、動物への思いやり効果は一貫して言語を超えて転移し、特に英語以外での効果が顕著でした。この結果は、ミッドトレーニングで習得された価値観がドメイン固有のポストトレーニングによる推論改善よりもはるかに深く、広く組み込まれていることを示唆しており、価値観を重視するラボではコーディング領域のポストトレーニングが親切さ関連の訓練よりも価値観の保持に有効である可能性を指摘しています。