arXiv (AI)AI
BehaviorBench:行動トレースから実世界のユーザー決定をモデル化
BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
個人ユーザーに適応するシステムの開発は、意思決定支援の分野において重要な課題です。しかし、このような問題を評価するためのデータセットは現在のところ限定的です。既存のユーザー理解に関するベンチマークは、シミュレートされたユーザーやモデルが生成した行動に依存することが多いのですが、最近の研究では、モデルベースのシミュレーションが人間の実際の行動から体系的に乖離する可能性があることが指摘されています。
こうした課題に対応するため、研究チームはBehaviorBenchという新しいベンチマークを開発しました。これは実世界の行動トレースから個人化された意思決定モデルを評価するためのプラットフォームです。BehaviorBenchは、観測可能な公開予測市場およびブロックチェーンオンチェーン記録からウォレットレベルの意思決定履歴を再構築し、2つの相互補完的なタスク層に組織化しています。信念予測タスクではユーザーが市場で最終的に示した立場と確信度を予測し、取引予測タスクでは個別取引の方向と数量を予測します。
2,000個の評価対象ウォレットからなるこのベンチマークには、信念予測が141,445インスタンス、取引予測が1,485,972インスタンス含まれており、検索ベースの評価のための独立したサポートプールが用意されています。研究チームは、パーソナライゼーションなし、直近の履歴、生成されたユーザープロフィール、取得したサポートウォレット証拠という4つの履歴インターフェースの下で、最先端および公開重みの生成モデルを評価しました。その結果、パーソナライゼーションは信念予測でより一貫して改善効果を示し、タスク層とメトリクスによってモデルのランキングが変わること、また異なる履歴インターフェースが異なる失敗モードを露呈させることが明らかになりました。BehaviorBenchは、パーソナライズされた方法がシミュレートされたユーザーだけでなく実世界の行動証拠を活用できるかどうかを研究するための評価設定を提供しています。