arXiv (NLP)AI
確率的パス集約による隠れたLLMバイアスの可視化:TreeTracerツールの開発
Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は表現的および統語的なバイアスを持っていますが、テキスト生成の確率的性質により評価が困難です。従来の監査方法は単一の出力検査または静的な自動メトリクスに依存しており、確率分布の下層に隠されたバイアスを見落としてしまいます。本論文は、集約比較を通じてLLMのバイアスを評価するための視覚分析ツール「TreeTracer」を提案しています。
TreeTracerは、系統的な摂動分析パイプラインを使用して、入力プロンプト内のオントロジー定義用語を置き換え、数百の確率的生成を統語的に整列された階層構造に集約し、補助言語モデルを用いた分類認識ノードマージングを実行します。その結果をカスタムサンキーダイアグラムで可視化します。2つのオントロジー駆動木を並置することで、意味的コンテキスト間の直接比較が可能になり、体系的なバイアス検出をサポートします。
重要な特徴として、システムはコンテキスト間の反事実トークン確率を計算・表示する対照的推論を適用し、バイアスの存在を誤解釈するリスクを低減します。GPT-2 XLなどの未調整ベースラインモデルと構成的に調整されたApertusモデルを比較するケーススタディを通じて検証されました。視覚的集約は、反事実代名詞の抑制や会話における個人の周辺化といった隠れた表現的害悪を効果的に露呈させます。予備的なユーザー研究により、集約された比較インターフェースが認知負荷を軽減し、分析者が体系的バイアスを検出するのを効果的にサポートすることが確認されました。