arXiv (AI)AI
失敗を安全にする:オープンウェブデータ収集のための制約付き検証可能エージェントフレームワーク
Making Failure Safe: A Constrained, Verifiable Agent Framework for Open-Web Data Collection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)とエージェントは自然言語の要件からウェブスクレーパーを生成できますが、依存関係エラー、壊れたセレクタ、スキーマの不一致、ページ構造の多様性など、さまざまな問題が発生するため、直接生成は信頼性に乏しいという課題がありました。本研究は、この問題に対処するため、LLMの出力を自由形式のコードから型付きJSON収集器構成へと転換する制約付き検証可能エージェントフレームワークを提案しています。
このフレームワークは、6種類の収集器タクソノミー、テンプレートとユーティリティ関数の制約、静的なAirflow DAGの実行、ルールベースの品質チェック、および構造化フィードバック補正を組み合わせた構成になっています。138個のタスクに対する実験結果によれば、このタクソノミーは要件の説明ベースのタイピングを支援し、安定した実装には初期説明を超えてソース、フィールド、実行の制約を完成させることが必要であることが確認されました。
80個の独立したソース検証済みタスクでの運用実績を見ると、フレームワークは実行段階でゼロのLLMトークンで動作し、最低の平均実行時間を達成しています。初期の単一ショット品質を中程度に抑える代わりに、反復的なスケジュール済み収集に適した再利用可能で決定論的かつ検証可能な実行パスを提供します。これらの結果により、本フレームワークはオープンウェブデータの反復的な収集に対して、再利用可能で低コスト、かつ検証可能な実行パスとしての位置付けが確立されました。