arXiv (NLP)AI
モデル崩壊の疫学:二層SIRダイナミクスを用いた合成データ汚染のモデリング
Epidemiology of Model Collapse: Modeling Synthetic Data Contamination via Bilayer SIR Dynamics
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
合成データでの学習がモデル崩壊を引き起こす現象は、これまで単一の劣化過程として分析されてきました。しかし現実のAIエコシステムはより複雑です。複数のモデルが互いの生成した合成データを取り込み、さらに新たな合成テキストを生成して共有データベースを汚染するという、相互汚染が発生しているのです。本研究は、このダイナミクスを捉えるために、疫学の古典的なSIR/SIRS感染症モデルを拡張した二層結合フレームワークを提案しています。
データコーパスとAIモデルを二つの相互作用する母集団として扱い、それぞれが感受性・感染・回復の区画を持つこのモデルでは、層を超えた伝染機構が組み込まれています。推奨されるSIRS変種は免疫低下を考慮しており、フィルター処理されたコーパスと再学習されたモデルも再汚染に対して脆弱なままであることを反映しています。研究チームは次生成行列法を用いて基本再生産数R₀を導出し、公開されたAIテキスト普及度データから複数シナリオのキャリブレーションを実施しました。その結果、全シナリオで超臨界ダイナミクス(R₀ > 1)が確認され、感度分析から合成テキスト検出が最も高い影響力を持つパラメータであることが示されました。
二部ネットワークベースのエージェント・ベースモデルと実験的検証を通じて、GPT-2の汚染チェーン実験(WikiTextおよびShakespeareで192回実施)では用量反応的な劣化と多様性喪失が観察されました。一方、複数データソースの混合が崩壊を緩和する可能性は示唆されていますが、汚染率が低い場合その効果は消失します。最終的に、検出ベースフィルタリングと集団免疫がもっとも有効な介入戦略として特定されました。