Constitutional AI

憲法AI

けんぽうえいあい

Definition

Constitutional AI is a training approach that uses a predefined set of principles to guide self-critique and self-improvement toward safer, more consistent behavior. It aims to make safety goals more explicit and repeatable.

AIに「良い振る舞い」を教えるとき、人間が一つひとつ「この回答は良い、この回答は悪い」と判定し続けるのは膨大なコストがかかりますし、評価者によって基準がブレるという根本的な問題もあります。Constitutional AI（CAI、憲法AI）とは、明文化された原則（「憲法」）に基づいてAI自身が自分の出力を評価・修正する手法で、Anthropicが2022年の論文で提案しました。

「憲法」に書かれていること

憲法AIの核となる「憲法」は、モデルが従うべき具体的な行動原則のリストです。Anthropicが公開した原則には、たとえば「回答が人種、性別、宗教に基づく差別を含まないこと」「暴力や違法行為を助長しないこと」「不確かな情報を断定的に述べないこと」「ユーザーの自律性を尊重し、過度に説教しないこと」といった項目が含まれています。国の憲法が国家運営の基本原則を定めるように、AIの憲法がモデルの判断基準を透明な形で定義するわけです。重要なのは、これらの原則が事前に明文化されている点で、なぜその判断が下されたかを原則に遡って説明できます。

2段階のプロセス：自己批評とRLAIF

CAIの訓練は明確に2つの段階で構成されます。第1段階の教師あり学習フェーズでは、モデルにまず質問に回答させ、次に「この回答は憲法の原則に照らして問題がないか？」と自己批評（Self-Critique）させます。問題が見つかれば自ら修正版を生成し、この批評→修正のサイクルを複数回繰り返します。繰り返すほど回答の質が向上し、改善された回答データが蓄積されます。

第2段階のRLAIF（AI Feedbackによる強化学習）フェーズでは、蓄積されたデータを使ってAI自身が回答の良し悪しを判定するフィードバックモデルを訓練します。このAIフィードバックを報酬信号として最終的なモデルを強化学習で最適化します。人間の評価者の代わりにAI自身がフィードバックを提供するため、スケーラビリティが大幅に向上します。

RLHFとの比較

RLHFでは人間の評価者が「回答Aと回答Bのどちらが良いか」を繰り返し判定しますが、評価者の主観や気分によって判断がブレるという課題があります。一方、CAIは原則が明文化されているため一貫性と透明性が高く、判断の根拠を第三者が検証できます。また、人手の評価コストを大幅に削減できます。ただし、原則の設計自体には人間の価値判断が不可避であり、原則間の矛盾（「正直に答える」と「有害な情報を提供しない」が衝突する場合など）の優先順位付けは依然として難しい問題です。

Claudeへの実装と業界への影響

AnthropicのClaudeシリーズはCAIを中核技術として採用しており、安全性評価で高い評価を得ています。CAIの最大の貢献は、AIの安全性を「暗黙の人間の判断」から「明示的なルールセット」に変えたことです。これにより安全性の議論が「どんな原則を採用すべきか」という具体的な設計問題になり、アラインメント研究を大きく前進させました。