arXiv (AI)AI
大規模言語モデルを用いたユーザープロフィールベースの適応的対話戦略システム「UP-NRPA」の開発
UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
目標指向型の対話システムにおいて、ユーザーの多様な特性に動的に適応することは大きな課題でした。従来の対話ポリシー計画手法は、事前学習やオフライン強化学習に依存しており、異なるユーザーグループごとに個別のモデルを準備する必要がありました。この問題を解決するため、新たに提案されたのがユーザープロフィールベースのネステッドロールアウトポリシー適応フレームワーク(UP-NRPA)です。このシステムは大規模言語モデル(LLM)を活用しており、リアルタイムのユーザーフィードバック、ユーザーの性格・好み・目的といった情報を統合して、対話戦略を動的にカスタマイズできるという点で革新的です。
UP-NRPAの特筆すべき特徴は、オフライン強化学習モデルを必要としないということです。従来手法とは異なり、ユーザーの現在のプロフィール情報に基づいてリアルタイムで対話戦略を適応させるため、複雑な事前学習プロセスが不要になります。このアプローチにより、システムは多様なユーザーニーズに対して柔軟に対応できるようになりました。
実験結果は、このフレームワークの有効性を明確に示しています。協調的・非協調的な複数の対話ベンチマークテストで、UP-NRPAは複数の対話タスクで100%の成功率を達成しました。特に注目すべきは交渉タスクでの性能で、売上対定価比率(SL)が56.41%も上昇したことです。これらの成果は、UP-NRPAが訓練メカニズムを必要とせずに多様なユーザー特性に適応でき、対話システムの実用的な応用が大きく前進したことを示唆しています。