arXiv (NLP)AI
トルコ語とアラビア語のヘイトスピーチ検出に関する包括的研究
Hate Speech Detection in Turkish and Arabic Languages: A Comprehensive Study
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
オンラインでのヘイトスピーチは、世界中で少数民族への暴力増加と関連しており、銃乱射事件、リンチ、民族浄化といった深刻な事象を引き起こしている。宗教、人種、民族、文化、国籍、移民ステータスに基づいて特定のグループを標的にするヘイトスピーチに直面する社会は、表現の自由と広く使用されるオンラインプラットフォームでの効果的なコンテンツモデレーションの必要性のバランスを取ることに苦慮している。
この課題に対応するため、研究チームはトルコ語とアラビア語をカバーする包括的なヘイトスピーチデータセットを構築した。トルコ語では難民、イスラエル・パレスチナ紛争、トルコ内の反ギリシャ感情、アレヴィー派やアルメニア人、アラブ人、ユダヤ人、クルド人といった民族・宗教的コミュニティ、LGBTI+に関する五つの異なるトピックを対象とし、アラビア語では難民に関するトピックを含めている。
これらのデータに基づいて、研究チームはBERT(Bidirectional Encoder Representations from Transformers)ベースの最先端モデルを開発した。このモデルはヘイトスピーチ分析の複数の側面に対応しており、ヘイト分類、ヘイトの強度予測、ターゲット特定、ヘイトスピーチの範囲検出を可能にしている。これらの機能により、オンラインディスコース内の有害なコンテンツをより包括的に理解し、より効果的にヘイトスピーチを識別・対応することが期待されている。