arXiv (NLP)AI
製品の望ましさを測定するための効率的で説明可能な暗黙的感情分析におけるLLM活用の評価
Evaluating LLM Usage for Efficient and Explainable Numerical and Classified Implicit Sentiment Analysis of Product Desirability
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
製品に対するユーザーのフィードバックは貴重な洞察を提供しますが、その中に含まれる暗黙的な感情を定量化することは困難です。本研究は、大規模言語モデル(LLM)を活用して、定性的なデータから製品の望ましさを数値化するスケーラブルで解釈可能なフレームワークを提案しています。ZORQ と CARMA から得られた Product Desirability Toolkit(PDT)データセットを用いて、106の回答者用語グループに対して人間による正確なアノテーションと比較しながら評価を行いました。
研究では、明示的なレビュースコアに依存せず、定性的な回答から直接的に数値感情スコアを生成し、分類的感情判定を実施しました。複数のデータセットにおいて、LLMは専門家のラベルと高度に合致する結果を達成し、ピアソン相関係数が最大0.97、分類精度が最大94%に達しました。さらに、複数の形式のデータを扱う場合でもLLMは堅牢性を保ち、高い信頼度を一貫して示しています。一方、辞書ベースおよび従来のトランスフォーマーベースラインは統計的に有意な結果を生成できませんでした。
テストされたモデルの中で、GPT-4o-mini はより大規模なモデルと同等の性能を達成しながら、94%低いコストで運用できることが示されました。このフレームワークはモデルの信頼度評価と人間が読みやすい根拠説明(xAI)を統合し、解釈可能性、透明性、信頼性を向上させています。PDTツールと費用効率的なLLMを組み合わせた調査手法は、数値および分類された感情スコアの両面で豊かな結果をもたらし、製品開発や改善のアイデア、またはターゲット層へのマーケティング戦略を特定する際に実用的な価値を提供する可能性があります。