arXiv (ML)AI
セミスコープ:半教師あり学習における分類器チューニングと共同最適化の分離
SemiScope: Disentangling Classifier Tuning and Joint Optimization in Semi-Supervised Security Classification
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
セキュリティ分類タスクにおいて、ラベル付きデータの不足は深刻な問題です。半教師あり学習(SSL)は少数のラベル付きデータから大規模なラベルなしデータへと学習を拡張する手法として注目されていますが、セキュリティ応用ではSSLをブラックボックスとして扱うことが多く、デフォルトパラメータの使用や固定された分類器、疑似ラベルによるクラス不均衡への対応不足といった課題を抱えています。
本研究は、SSL パイプラインの最適化による性能向上がどの要因に由来するのかを明確にすることを目的としています。単なる分類器のチューニングによる改善なのか、それとも SSL と分類器の相互作用による有意な効果なのかを区別することが重要です。研究チームはベイズ最適化を用いて SSL 設定、信頼度フィルタリング、オーバーサンプリング、分類器を共同でチューニングする SemiScope という分析ツールを開発しました。重要な統制条件として「Tuned-Clf」を設定し、SSL をデフォルト設定に固定しながら同等の予算で分類器をチューニングすることで、両者の効果を比較可能にしました。
ラベル率 10% の条件下での実験では、SemiScope はすべてのデフォルト SSL ベースラインを上回り、最強の手法を 0.7~12.7 ポイント改善しました。等価な予算制約の下では、分類器の超パラメータ最適化(HPO)単独で SemiScope の全体的な改善の中央値 86% を回復できることが判明しました。
結論として、Self-Training にベイズ最適化による分類器チューニングと検証データ上の決定閾値調整を組み合わせるシンプルなレシピで十分であることが示されました。このアプローチは 20~30% のラベル率で教師あり Random Forest と 1 g-measure 以内の性能に到達し、計算効率の面でも優れています。