arXiv (ML)AI
タンパク質共折りの対表現からの機械的解釈性:PairSAE
PairSAE: Mechanistic Interpretability from Pair Representations in Protein Co-Folding
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
構造生物学の基盤モデルは、生体分子の構造予測において優れた性能を示し、タンパク質や小分子の設計に大きな可能性を持っています。しかし、これらのモデルの内部特性がどのような出力を駆動しているのかを理解することは依然として困難です。トランスフォーマー型の配列埋め込みに有効な標準的なスパース自動符号化器(SAE)は、ペアフォーマーのようなアーキテクチャにはうまく適用できません。ペアワイズ表現に素朴に作用させると、特性の2乗的な増加をもたらし、配列表現と対表現に分散された概念を曖昧にしてしまいます。
今回、研究者らはPairSAEを導入しました。このアプローチは、N-mode SVDを通じてペアワイズテンソルをトークンレベルの相互作用役割に要約し、その後スパース自動符号化器を使用して、配列表現と対表現の両方にデコードできるトークンレベルの特性の共有セットを学習します。PLINDER タンパク質-リガンド複合体のBoltz-2活性化に対して評価すると、PairSAEは UniProt アノテーションと一致し、Boltz-2親和性値を予測する解釈可能な特性を生成します。
これらの結果は、PairSAEが構造生物学の基盤モデルの潜在空間を解釈可能な構造概念に結びつけ、モデルが「何を知っているか」を明確にしながら、従来のSAEの有効性を制限するペアフォーマー由来の落とし穴を回避していることを示しています。この機械的解釈性の向上により、構造予測AIの透明性と信頼性が大幅に向上する可能性があります。