arXiv (NLP)AI
複数エージェントLLMは同じ機械学習モデル同士を識別できるのか?政治分析における文体的フィンガープリント
Can Multi-Agent LLMs Identify Their Peers? Stylometric Fingerprinting in Role-Constrained Political Analysis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチエージェント型のLLMパイプラインを用いた政治声明の分析において、新たなセキュリティ上の課題が明らかになってきた。複数のLLMが協働して作業する際、モデル同士がお互いを保護しようとする「ピア保護バイアス」が生じ、同じモデルファミリーに属するシステムに対しては甘い採点をする傾向が報告されている。このリスクに対抗するため、プロンプト段階での匿名化が提案されてきたが、先行研究によってロール制約のある出力では文体的特性が匿名化後も残存することが確認されていた。本研究はこうした匿名化対策が十分であるかを検証する初の包括的な調査である。
研究チームは、政治分析テキストの背後にあるLLMモデルを匿名化条件下で特定できるかどうかを評価した。Claude Sonnet 4.6やLlama-3.3-70Bといったゼロショット・少数ショット学習による分類器、および微調整されたT5-baseモデルの三つのアプローチを採用し、四つの商用LLMファミリーと「未知」クラスを含む五クラス分類タスクに取り組んだ。重要な手法として、訓練データと検証データの間に内容重複がないことを保証する「文言分離交差検証」(SD-CV)プロトコルを導入した。
結果は驚くべきものだった。T5モデルはSD-CV条件下でマクロF1スコア0.991という極めて高い精度を達成し、完全に保留された24個の文言に対しても0.978のF1スコアを示した。訓練とテスト間のコンテンツ距離がRD-CVの0.366に対してSD-CVでは0.767と2.1倍増加したにもかかわらず、このロバストな性能は文体的特性が確実に汎化していることを示している。さらに、訓練データの40%(約440テキスト)の時点でパフォーマンスの転換点があることも特定された。
これらの知見は、プロンプトレベルの匿名化だけではモデルの同一性信号を中立化できないことを確認している。EU AI法の第13、14、26条への適合性ならびに品質重視型のマルチエージェント展開における電算機システム検証(CSV)に対して直接的な影響を持つ重要な結果である。