arXiv (NLP)AI
マルチモーダル多者対話の談話構造解析データセット「DraDDP」の構築と評価
DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自然言語処理の分野において、対話システムの理解と分析は重要な研究課題です。特に複数の参加者が関わる多者対話の場合、発話間の依存関係や関連性を正確に把握することは技術的に困難であり、これまでの研究の多くはテキストのみの単一モダリティや二者間の対話に限定されていました。このギャップを埋めるため、研究チームはアメリカのテレビドラマを基にした新しいデータセット「DraDDP」を開発しました。
DraDDPは495の対話セグメントから構成され、合計6,374の発話と9.1時間の並行ビデオコンテンツを含む初の公開マルチモーダル多者対話談話解析データセットです。映像コンテンツを伴うテレビドラマを素材として用いることで、テキストだけでは捉えられない話者の表情、身振り、音声トーン、画面の背景情報といった豊かなマルチモーダル情報を獲得できています。このデータセットは、現実的な多人数対話の複雑なインタラクション場面を網羅的にカバーしています。
研究チームは包括的なベンチマーク評価を実施し、異なるモダリティが対話構造と関連性タイプの認識に及ぼす影響を詳細に分析しました。実験結果から、画像や音声などのマルチモーダル情報が対話の構造と関係性をより正確に捉えるうえで大きな価値があることが実証されました。
今後、データセット、注釈ガイドライン、実装コードを公開することにより、マルチモーダル対話理解に関する研究のさらなる発展を促進することが期待されます。