arXiv (NLP)AI
TITLE_JA: より良い合成データが欲しい?それを操作しよう:低リソース言語生成のための活性化ステアリング
Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は、特に低リソース言語における合成データ生成の有力なツールとなっています。生成されたデータは下流のタスク性能を向上させることができますが、現在の最高性能アプローチは通常、目標言語の例を用いた少数ショットプロンプティングに依存しており、推論コストの増加と語彙的アンカリングによる多様性の低下をもたらします。
本研究では、低リソース合成データ生成の代替手段として活性化ステアリングを調査しています。言語の言語的アイデンティティをターゲットにする言語ステアリングと、人間が書いたテキストと逆翻訳されたテキスト表現を対比させることで良好な形式を捉える品質ステアリングの2つのステアリング戦略を研究しました。これらの方法を4つのオープンソースLLM、複数のレイヤー、および11の言語類型学的に多様な言語にわたって評価し、感情分析とトピック分類データを生成して小さい分類器をファインチューニングしています。
ステアリングはゼロショットおよび少数ショットプロンプティング設定の両方で適用され、ステアリングなしの対照群と比較されました。結果は、初期レイヤーでのステアリングが生成されたデータの多様性を一貫して改善し、特に低リソース言語において下流モデルのより強いパフォーマンスをもたらすことを示しています。このアプローチは推論コストを削減しながら、データ生成の質と多様性の両面で優れた結果を実現する可能性を示唆しています。