arXiv (NLP)AI
TITLE_JA: 「機械学習の忘却」という用語はLLM研究で過度に使用されている
Position: The Term "Machine Unlearning" Is Overused in LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は、規制による削除義務、著作権・ライセンス紛争、安全性やプロダクトポリシーの要件によって、訓練データや知識、振る舞いを「忘却」することへの需要に直面している。本論文は、機械学習の忘却(machine unlearning)という用語がLLM研究で過度に使用されており、データセット定義の削除に限定すべきであると主張している。つまり、正確に指定された忘却セットの訓練への影響を除去し、結果として得られるモデルがそのデータなしで再訓練したモデルとほぼ区別不可能になることを意味すべきだということである。
現在「忘却」とラベル付けされている多くのタスク、例えば有害なリクエストへの拒否、エンティティや知識の削除、標的化された抑制などは、異なる目的、しばしはポリシーに依存した目的を追求しており、したがって異なる用語とベースラインが必要であると論文は主張する。それらは「調整(alignment)」「抑制(suppression)」「編集(editing)」「難読化(obfuscation)」といった異なる枠組みで理解すべきだという見方である。
この混乱は単なる表面的な問題ではなく、実質的な影響を持つと著者らは指摘する。異なるペーパーが同じラベルの下で異なる暗黙的な保証をしているため、メトリクスやベンチマークは意図した範囲外で頻繁に再利用され、ROUGE値や忘却精度が低いといった表面的な非開示が報酬を得ている。しかし、再訓練との等価性が検証されていない場合や派生能力が残存している場合も少なくない。論文は、明示的な保証と参照モデルに結びついたより厳密な用語の使用と、主張された目的に合致した評価を求めて締めくくられている。