arXiv (ML)AI
TITLE_JA: 短期賃貸の動的価格設定におけるヒューマン・イン・ザ・ループ文脈バンディット:過去データ活用による初期化とライブ学習の構造的等価性
Human-in-the-Loop Contextual Bandits for Short-Term Rental Dynamic Pricing: Structural Equivalence of Historical Warm-Up and Approval-Gated Live Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
短期賃貸(STR)市場における動的価格設定は、オンライン学習アルゴリズムにとって独特な課題をもたらします。価格決定には大きな財務リスクが伴い、事業者は意思決定の説明可能性を必要とし、さらに市場からのフィードバックは極めて限定的です。1つのリスティングあたり夜間1件の予約結果しか得られないという環境で、効率的に学習することは非常に難しいのです。
本研究で提案されるヒューマン・イン・ザ・ループ・ゲーテッド・バンディット(HITL-GB)フレームワークは、この課題に対する革新的なソリューションです。このフレームワークでは、文脈バンディット(contextual bandit)アルゴリズムが価格提案を生成しますが、その提案を実際に適用する前に、人間のエージェントが各推奨を承認、修正、または却下する権限を保持します。重要なのは、この承認ゲート制約下では、過去の決定論的ポリシーの下で収集された履歴的な価格設定データが、バンディットの初期分布を初期化するためのオンポリシー・ウォームアップデータと構造的に等価であるという発見です。これにより、スパースなフィードバック市場では実用的でない数週間から数ヶ月間のコールドスタート期間を回避できます。
研究チームは正則化されたリッジ回帰によるウォームアップ手順を導出し、実際の短期賃貸の本番データで検証しました。2022年4月から2026年4月までの都市市場における2つのリスティングの1,461夜間分の価格設定エピソードを使用した実験では、階層的因子化トンプソンサンプリング(HF-TS)ファミリーのエージェントを初期化する際、有効なコールドスタートを約150エピソードから約30エピソードに圧縮することに成功しました。
さらに注目すべき点は、この構造的等価性の結果が領域非依存であることです。臨床薬剤投与量の決定、信用組成、コンテンツモデレーション、放射線診断など、人間の承認が法的または運用上必要とされるあらゆる高リスク領域が同じ条件を満たし、同じウォームアップ戦略から利益を得られます。規制産業では、義務的な人間の監視は導入の制約ではなく、むしろ統計的資産として機能するのです。