arXiv (NLP)AI
ショッピング推論ベンチ:マルチターン会話型ショッピングアシスタント向けの専門家監修ベンチマーク
Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現在、会話型ショッピングアシスタントは数億人の顧客にサービスを提供していますが、実際のショッピング会話が要求する開放的なマルチターン推論、ドメイン専門知識、基準レベルの品質を総合的に評価する既存のベンチマークは存在しませんでした。ショッピング推論は言語モデルの応用の中でも独特です。事実的な質問応答や検証可能なコード生成とは異なり、複数ターンの対話を通じて主観的な好みと予算制約、製品間のトレードオフを同時にバランスさせる能力が必要であり、これらの機能は従来の電子商取引およびゼネラルパーパスベンチマークには欠けていました。
研究チームは525のミッション(単一ターン232、マルチターン293)で構成される専門家監修ベンチマークである「Shopping Reasoning Bench」を導入しました。小売ドメインの専門家により10,863個の重要度加重二値ルーブリック(評価基準)が作成されています。これらの基準は5つの推論カテゴリーと15の副カテゴリーの分類体系下に整理されており、好みの精緻化、トレードオフ分析、互換性評価など多様な需要をカバーしています。
GPT、Claude、Geminiの3つのファミリーに属する9つのモデルの評価では、全体的な合格率は57~77%に留まることが判明しました。マルチターンミッションでは、すべてのモデルが必須条件では高い成績を上げる一方で、要件以上の選択的基準では13~29ポイント低い成績を示しています。さらに会話が進行するにつれてパフォーマンスは4~18ポイント低下しています。これらのギャップにより、現在のモデルは基本的なショッピング支援は対応できるものの、専門家レベルのアドバイスには不足していることが明らかになり、Shopping Reasoning Benchは将来のショッピングアシスタント開発における困難なテストベッドとなるでしょう。