arXiv (NLP)AI
TITLE_JA: LLM個人化におけるヒューマンセントリックなアプローチの再構築
Re-Centering Humans in LLM Personalization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の個人化能力に関する研究が増えている一方で、ほとんどの評価は合成データに依存しており、実際のユーザーに対する個人化システムの効果が不十分に検証されてきました。本研究は、合成データと人間データを用いたLLM個人化パフォーマンスのギャップを調査しています。研究チームは550件の人間とのの会話と、個人化の3段階にわたる判断データを収集しました。具体的には、会話からユーザー属性を抽出する段階(5,949件の判断)、新しいプロンプトに関連する属性をペアリングする段階(11,919件)、そして抽出された属性をパーソナライズされた応答に組み込む段階(1,101件)です。
人間データの組み込みにより、各段階でシステムの限界が明らかになりました。モデルは人間の会話からの属性抽出に苦労し、関連属性の選択について人間の判断と不一致を示し、生成されたパーソナライズ応答は人間の評価では一般的な応答と変わらないレベルであることが判明しました。ただし、LLM自体による評価では改善されていると判定される傾向が見られました。研究チームは軽量な学習ベースの2つの介入手法を導入し、最初の2段階では自動化された個人化評価を人間データに近づけることに成功しました。
しかし第3段階では、学習された報酬モデルと人間の評価との相関が限定的であり、人間の価値観に合致したパーソナライズ品質判断を直接モデル化することの難しさが示唆されています。本研究が収集したデータセットは、モデルがユーザー情報をどのように抽出、選択、組み込むべきかについて、人間にとって有用な方法を研究するための基礎となる価値があります。