arXiv (AI)AI
強化学習による広範で持続的に有益なAIモデルの構築に向けて
Reinforcement Learning Towards Broadly and Persistently Beneficial Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
AIシステムがより多くの異なる領域と高リスク環境に展開されるにつれて、モデルの価値観整合(アラインメント)は訓練時に見たタスクや領域を超えて一般化する必要があります。強化学習(RL)は報酬ハッキング、欺瞞、その他の意図しない戦略を通じて予期しない不整合を引き起こす可能性があるため、これは特に重要です。
本研究は、現実的な領域での有益な行動に対する強化学習が、訓練分布を超えた広範で持続的なアラインメント一般化を生み出すことができるかを調査しています。研究チームは真実性、公正性、リスク認識、修正可能性など有益な特性を測定・訓練するように設計された現実的な状況のデータセットを構築しました。このデータセットは医療、科学、教育を含むさまざまな領域にまたがっています。その後、このデータセットに対する強化学習でモデルを訓練し、50以上の独立したアラインメントおよび有益な行動ベンチマークで評価しました。
計算量が同等のベースラインと比較して、有益な特性を強化する強化学習は、これらの分布外ベンチマークの80%以上で性能を向上させました。特に注目すべき点として、医療領域のみに限定された有益な行動強化学習の介入が、報酬ハッキング低減や欺瞞防止を含む非医療領域のアラインメント評価全体で広範な改善をもたらしました。
さらに研究は、アラインメントの持続性も調査しました。有益な特性強化学習で訓練されたモデルは、敵対的なプロンプティングや有害なファインチューニングへの耐性が向上し、改善されたアラインメント持続性を示しました。本研究の結果は、現実的な領域での有益な行動を強化するための強化学習が、人間の繁栄とより堅牢に整合したモデルを生み出す可能性を示唆しています。