arXiv (Multi-Agent)AI
MADRAG:検索拡張生成を用いた多者議論によるトレーニング不要な分析的エッセイ採点
MADRAG: Multi-Agent Debate with Retrieval-Augmented Generation for Training-Free Analytic Essay Scoring
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を評価者として使用する際の課題は、バイアスと採点の不安定性にあります。従来のLLMによる判定手法はこれらの問題に対処できていませんでしたが、新たに提案されたMADRAG(Multi-Agent Debate with Retrieval-Augmented Generation)は、この課題を解決する革新的なフレームワークです。
MADRAGの最大の特徴は、採点プロセスを複数のエージェント間の相互作用に分解することです。具体的には、3つの異なるエージェントが協働して機能します。まず「支持者」(Advocate)がエッセイの強みを特定し、続いて「懐疑論者」(Skeptic)が弱点を批評します。そして最後に「判定者」(Judge)がこれら両者の議論を統合して最終スコアを決定するという構造になっています。この多者議論アプローチにより、単一のLLMが下す判断よりも、より根拠に基づいた理性的な評価が可能になります。
MADRAGの革新性はさらに、判定者が検索拡張生成(RAG)で強化されている点にあります。評点済みの例を規準に沿って取得することで、判定者は採点結果を既知の事例と比較して較正することができます。これにより、より正確で一貫性のある採点が実現されます。
実験結果は、MADRAGがプロンプトベースのベースラインを大幅に上回り、かつタスク特有のトレーニングを必要としない教師あり学習システムに近いパフォーマンスを達成することを示しています。アブレーション研究からは、検索機能が較正性能を向上させ、一方議論型アプローチが高次の特性に関する推論を改善することが明らかになりました。この研究は、信頼性の高いLLMベースの評価において、構造化された相互作用と外部メモリの補完的な役割を示唆しています。