arXiv (AI)AI
TITLE_JA: 構成的アライメント:人間とAIの相互作用における選好ダイナミクスの統治
Constructive Alignment: Governing Preference Dynamics in Human-AI Interaction
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現在のAIアライメント研究の多くは、人間の選好を固定された目標として扱い、これを推論して最適化することに焦点を当てている。しかし、行動経済学や心理学の実証研究は、人間の選好が階層的で動的であり、特に適応型技術との相互作用を通じて構成されることを明らかにしている。AIシステムがより持続的で個人化され、社会に組み込まれるようになるにつれて、人々が何に注目し、何を価値あるものと考え、何を支持するかは、AIシステムの影響下で時間とともに形成されていく。
この研究は「構成的アライメント」という新しいパラダイムを提唱している。従来の静的な選好満足ではなく、進化する人間の選好軌跡に対する制御問題として、アライメントを再構成するものだ。行動経済学、心理学、構成主義的社会理論の知見を統合し、選好を階層的な状態変数としてモデル化し、AIシステムとの相互作用によってどのように進化するかを分析している。制御理論的枠組みを用いて、システムアクションとインタラクション設計が、世界の状態と人間の評価状態の双方に影響を与えるメカニズムを形式化した。
研究者らは、アライメント問題の本質はAIの行動を制御することではなく、AIシステムがいかに人間の選好進化に影響を与えるかを規制することであると主張する。すなわち、価値軌跡が一貫性を保ち、十分に検討された上で支持され、認識論的に根拠があり、操作から守られ、不確実性の中で人間を力づけるものであることを確保する必要があるということだ。つまり、アライメントは単なる静的な選好充足ではなく、長期的な価値形成そのものを統治する問題として捉え直されるべきであると結論づけている。