arXiv (Robotics)AI
文化的道徳勾配を用いたLLM制御ソーシャルロボットの監査
Auditing LLM-Governed Social Robots with Culture-Specific Moral Gradients
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
LLM(大規模言語モデル)によって制御されるソーシャルロボットが、実社会での支援の優先順位を決定する場面が増加しています。しかし、道徳的な優先順位の基準は文化によって異なり、年齢や地位、集団の規模に基づいて変わります。英語中心のLLM道徳監査では、こうした多文化的なニュアンスが見落とされやすく、実装されたロボットの環境での挙動が十分にテストされていないため、多元的なキャリブレーション(調整)は緊急の課題として残されたままです。
本研究では、LLMの道徳的トレードオフ行動を文化的嗜好勾配に対して多言語で評価するための勾配ベースの監査フレームワークを提案しています。8,000以上の論文からなる9つの社会ロボティクスレビューに基づき、研究チームはケア、教育、サービスの領域において対称性を保つシナリオを導出しました。「Moral Machine Experiment」の「誰を救うべきか」という問題を「誰を最初に支援するべきか」というジレンマに翻訳し、多数対少数、若年対高齢、高地位対低地位といったアイデンティティのトレードオフを維持しています。
4つのLLMを4つの国・言語ペア(英語、中国語、日本語を含む)で4つのプロンプト方式にわたって監査し、57,600の決定を分析しました。その結果は国固有のMorph Machineの選好勾配との照合が行われました。研究では、プロンプティングだけでは解決できない、文化的に非対称な勾配追跡の失敗が常に存在することが判明しました。特に、西洋言語による決定の品質キャリブレーションは、中国語と日本語のおよそ2倍強くなっており、多数派優先のトレードオフにおける高い決定論が文化的勾配を消去する傾向にあります。年齢や地位に基づく規範への部分的な感応は、少数派を後回しにするリスクをもたらします。
これらの知見は、LLMロボット展開前の段階で多言語・多元的な監査をゲートウェイとする必要性を示唆し、プロンプティングだけでなくモデルそのものの要因修正がより堅牢なアプローチであることを示唆しています。