arXiv (ML)AI
二値少数ショット分類のためのスペクトル位相図:固有次元性、幾何学的飽和、および表現診断
A Spectral Phase Diagram for Binary Few-Shot Classification: Intrinsic Dimensionality, Geometric Saturation, and Representational Diagnosis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
機械学習の実践において、ラベル付きデータの収集をいつやめるかは極めて重要な問題であるにもかかわらず、これまで理論的な検討が十分ではありませんでした。本研究は、この問題に対する新しい診断指標を提案しています。提案されたプール内クラス共分散行列の有効ランクとショット数の比率を用いた飽和指数S(K)を用いることで、共分散推定器が母集団共分散の周辺で良好に濃度化され、線形判別器が安定化する地点を数学的に特定できることを示しました。
この指数はサポート特徴量から単独でO(d³)時間で計算可能であり、テストラベルや学習済み分類器を必要としないという実用的な特徴を持っています。17個の二値タスク、6つのデータセットから得られた246個の観測値を用いた評価では、16タスクにおいて飽和指数と周辺精度向上の間に強い正の相関(中央値ρ=0.811)が認められました。全体的な相関係数はρ=0.548と統計的に有意です(p=1.1×10⁻²⁰)。
研究チームは探索フェーズ、遷移フェーズ、飽和フェーズの3段階を特定し、それぞれ平均周辺利得が3.48%、2.40%、0.82%であることを示しました。全ての段階間で有意な差が認められています。二値分類の停止ルールとしてAUC=0.752を達成し、アノテーション判断に対して有意義な確率的ガイダンスを提供します。一方で、漸近有効ランクと最高精度の間には明確な単調関係が見られず、小さな飽和指数と低い精度の組み合わせは表現の不十分性を診断することができます。