arXiv (NLP)AI
AEyeDE:AI生成テキスト検出のための注意機構に基づく帰属フレームワーク
AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現代の大規模言語モデルが人間レベルの流暢性に近づくにつれ、AI生成テキストの検出はますます困難になっています。従来の表面統計や尤度ベースのシグナルに依存する検出器ではこれらのモデルの出力を見分けることができなくなってきました。こうした課題に対応するため、研究者たちはAEyeDEという新しい帰属駆動型アプローチを提案しました。このフレームワークは、Transformerモデルの注意機構(attention)を判別シグナルとして活用し、人間によるテキストとAI生成テキストを区別しようとするものです。
AEyeDEの仕組みは、ホワイトボックスアクセスを備えたプロキシTransformerモデルを使用して、人間とAIの両方で生成されたテキストから注意ベースの帰属行列を抽出することから始まります。これらの帰属マップから表現を学習するため、軽量な畳み込みニューラルネットワークが訓練されます。エンコーダ・デコーダの翻訳設定では、このメソッドはテキストのみのベースライン手法を一貫して上回るパフォーマンスを示しています。
デコーダのみの設定では、生成器固有の検出で高い性能を発揮し、標準的なベンチマークでは競争力のある結果を保持します。さらに、クロスデータセット転移と代替スペリング摂動下でのロバスト性も示されています。研究チームの分析により、注意マップは反復的な局所構造を示す傾向があり、これらの相対的な頻度はデータセットとプロキシモデル全体で人間とAI生成テキストの間で一貫して異なることが明らかになりました。これらの知見は、注意ベースの帰属マップがAI生成テキスト検出のための相互補完的で解釈可能なシグナルを提供することを示唆しています。研究者たちは今後の研究を支援するため、コードを公開する予定です。