arXiv (CV)AI
歴史的文書のスキャン画像を分類する深層学習モデル—チェコ考古学資料館での大規模デジタル化プロジェクトへの応用
Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
人文科学分野のデジタル化事業では、膨大で多様な歴史文書が生成される。チェコの百年単位の古い考古学資料館から生じた数万ページのスキャン画像を、手作業で分類することは現実的ではない。本研究は、スキャンされたページ画像を視覚的な内容タイプ(テキスト、表、グラフィックス)に基づいて自動分類するシステムを開発し、その後のOCR処理や構造化データ抽出など、内容別の処理につなげることを目指している。
研究チームは、ドメイン専門家による4段階の注釈付けプロセスを経て、48,000以上のラベル付き歴史ページ画像データセットを構築した。初期段階では手工芸的な画像特徴を用いたランダムフォレストで約75%の精度を達成したが、その後、EfficientNetV2やRegNetYなどのCNN、ViTやDiTなどのビジョン・ドキュメント・トランスフォーマー、さらにマルチモーダルのCLIPモデルなどの深層学習アーキテクチャをファインチューニングして比較した。ドメイン専門家と協力して設計された11カテゴリラベルスキームを5分割交差検証により評価している。
結果として、RegNetY-16GFが99.16%、ViT-largeが99.12%の最高精度を達成し、CLIP ViT-B/16も最適化されたテキスト記述により99.14%に達した。特に画像のみを用いたモデル、特にRegNetY-16GFは、ラベルなしの約65万ページの資料に対して90%以上の高い一致度でほぼ完全な分類精度を提供している。一方、CLIPは教師データセットでは競争力があったものの、未ラベル資料上では65%未満の一致度にとどまり、実運用には不向きであることが判明した。最終的なモデル、注釈付きデータセット、ソフトウェアはオープンソースライセンス下で公開されている。