arXiv (ML)AI
機械的解釈性における表現層のボトルネック:顕現化ユニットプロトコルの提案
Representation as a Bottleneck for Mechanistic Interpretability: The Manifestation Unit Protocol
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ニューラルネットワークの内部動作を理解する「機械的解釈性」の研究は、個々のコンポーネントが何を符号化し、どのように相互作用するかを分析する豊富な手法を生み出してきました。しかし、こうした分析結果は実用的な再利用が困難という課題を抱えていました。選択性テーブル、回路図、特徴リストといった成果物は個別の研究ノートブックに閉じ込められており、別の研究との組み合わせができず、自然言語で照会することもできず、下流の監査や介入に直結して活用できる形になっていません。
本研究は、こうした分析結果と実際の使用の間に存在する表現層をボトルネックと捉え、独立して評価できるようにすることを試みています。研究チームは「Manifestation Units(顕現化ユニット)」と呼ばれる新しいプロトコルを提案しました。これは型付きタプル(E、S、R、D、G)にトランスフォーマー用の注意ヘッドプリミティブ(T)を拡張したもので、各コンポーネントの統計情報を構造化されたフィールドに自動的に整理し、ハイブリッド検索を通じて照会可能にします。
このプロトコルは、生成モデル(beta-VAE)、識別モデル(CNN)、言語モデル(GPT-2)を対象に検証されました。結果として、型付き構造は非構造化されたベースラインを大幅に上回る検索性能を示し、スキーマで取得したCNNフィルタは制御された条件下で因果的充分性と必要性を満たすことが確認されました。このスキーマは注意ヘッドプリミティブを修正なしに吸収し、既知の回路構成要素を回収し、冗長なフィールドまたは干渉するフィールドを含む既約なコア(S+R)を明らかにします。本研究は、フロンティアスケールの検証ではなく、機械的解釈性のためのスキーマ基盤を提供するものとして位置付けられています。