arXiv (NLP)AI
TITLE_JA: より少ないコンテキストでより高い精度を実現:LLMエージェント向け二時間メモリエンジン
Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
LLMエージェントは長期記憶の層が欠けており、セッション間でコンテキストを忘れてしまうという課題を抱えています。従来の解決策は全履歴をプロンプトに再挿入することでしたが、この方法はコスト効率が悪く、処理が遅く、さらに無関係な情報が蓄積されるにつれて精度が低下するという問題がありました。既存のメモリシステムはコストまたはレイテンシでは改善できていても、完全なコンテキストを使用したベースラインに対して精度で劣る傾向があり、ベンチマークの数字も一貫性がなく再現性も低いため、異なるソース間で大きな性能差が生じていました。
研究チームが開発したEngramは、オープンソースの二重プロセスメモリエンジンで、二時間データモデルに基づいています。高速書き込みパスは、LLMを関与させずにエピソードを無損失で追記し、非同期パスではアトミックな主述述語客体(SPO)型の事実を抽出して二時間知識グラフを構築し、矛盾を解決します。事実ごとにLLM呼び出しを行わないことで効率化し、削除ではなく無効化することで全ての事実の由来と継承チェーンを保持します。
ハイブリッド読み込みパスは、密集表現、字句的信号、グラフ信号、最新性・顕著性信号を融合させ、時点フィルタを適用して、由来情報がタグ付けされたコンパクトなコンテキストを組み立てます。公式な500問LongMemEval_Sベンチマークでは、Engramの精簡構成(約9.6kトークンの検索済みスライスから回答し、完全な履歴は使用しない)が83.6%の精度を達成し、完全なコンテキスト使用時の73.2%を大幅に上回ります。これは統計的に有意な改善(+10.4ポイント、McNemar検定 p < 10^-6)であり、使用トークン数は約8分の1に削減されました。研究では再現可能性の向上と測定の完全性を確保するため、公式ジャッジを組み込んだ中立的な評価ハーネスを提供し、全ての結果を再現するためのコマンドを公開しています。