arXiv (NLP)AI
大規模言語モデルによる自律的データエンジニアリング:モデル特化への新しいアプローチ
Exploring Autonomous Agentic Data Engineering for Model Specialization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は一般的なタスクでは優れた性能を発揮する一方で、高品質なドメイン固有データなしに特定の専門分野に適応することが難しいという課題を抱えています。従来のLLMベースのデータキュレーション手法は主に人間が設計したワークフローに依存していましたが、LLMが自律的にエンドツーエンドのデータエンジニアリングパイプラインを実行できるかどうかはほとんど検証されていませんでした。
今回の研究では「自律型エージェンティック・データエンジニアリング」という新たなタスクを定義し、LLMが自律的なデータエンジニアとして機能し、エンドツーエンドのデータキュレーションを通じてモデルの特化を推進できるかどうかを評価しました。研究グループはデータを最適化可能なコンポーネントとして位置づけ、複数のドメインにわたってエージェントが学習データを計画・生成し、学習後のパフォーマンス向上に基づいて反復的に最適化するシステムを研究しました。
実験結果は自律型LLMデータエンジニアの有効性を明確に示しています。GPT-5.2は学習カリキュラムを構築することで、学生モデルのパフォーマンスを反復的で エージェント駆動型のデータ適応を通じて、なんと57.29%も改善することに成功しました。この成果は、人間の介入を最小限に抑えながら、純粋にLLMの自律的なデータ適応によって実現されています。
本研究は自律型データエンジニアリングの可能性とボトルネックを明らかにすることで、この領域を測定可能な能力として確立し、エージェント駆動型のモデル特化への道筋を示すものとなります。研究コードはGitHubで公開予定とのことです。