arXiv (NLP)AI
TITLE_JA: PoQ-Judge:分散型LLM推論における費用対効果を考慮した品質評価の複数アーキテクチャフレームワーク
PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
分散型の大規模言語モデル(LLM)推論ネットワークにおいて、品質の証明(Proof of Quality、PoQ)を実現するための軽量で参照不要な評価手法が求められている。新たに提案されたPoQ-Judgeフレームワークは、この課題に対する包括的なソリューションを提供する。本フレームワークは、クエリと出力のペアをスコア化する専用の判定モデルを訓練し、参照用の正解テキストなしに品質を評価できるのが特徴である。
研究チームはTextCNN判定モデル、MiniLMクロスエンコーダ、DeBERTa判定モデルの3つのアーキテクチャを比較検討し、品質と計算コストのトレードオフを分析した。UltraFeedbackおよびGPTでラベル付けされたドメイン内データを用いた二段階の訓練により、最高性能モデルは保有テストセットにおいて正解プロキシとの相関係数0.747を達成し、先行研究の参照ベース評価器を上回る性能を示した。
参照不要なコンポーネントとして複合スコアリングに組み込まれた場合でも、0.645の相関係数を達成し、参照回答が不要となりながら最高の単一参照ベース評価器と同等の精度を維持している。さらにオンライン較正により意味的品質が主要な評価次元であることが判明し、カスケード評価により品質低下をわずかに抑えつつ計算コストを72.7%削減できることが示された。質問応答タスクではより強い結果が得られた一方、要約タスクでは性能が劣るため、プロキシ品質の精度向上が今後の主要な課題として指摘されている。