報酬モデル

解説

報酬モデルとは、回答の良さを数値で評価するモデルで、RLHFなどで学習の指標として使われます。理解すると調整がしやすくなります。

「この回答は正確で親切だが、あの回答は事実誤認がある」——人間はLLMの出力を直感的に評価できますが、強化学習でモデルを改善するには、この「良し悪し」を数値に変換する仕組みが必要です。報酬モデル（Reward Model）とは、LLMの出力に対して品質スコアを付与する専用のモデルで、RLHFパイプラインにおいて人間の選好判断を数値化する役割を担います。

訓練データの作り方

報酬モデルの訓練は、人間による比較判断データの収集から始まります。同じプロンプトに対してLLMが生成した複数の回答を人間のアノテーターに提示し、「回答Aのほうが回答Bより良い」という選好ペアを大量に収集します。数学的にはBradley-Terryモデルが広く使われており、これは「AがBに勝つ確率はそれぞれのスコアの差で決まる」というシンプルな枠組みです。チェスのEloレーティングと同じ発想で、比較データから各回答の絶対的なスコアを推定します。OpenAIはInstructGPTの訓練で約33,000件の比較データを使用したと報告しています。

RLHFにおける「審判」の役割

RLHFの3段階プロセス（SFT→報酬モデル訓練→強化学習）において、報酬モデルは2番目のステップで訓練され、3番目のステップで使用されます。PPOなどの強化学習アルゴリズムがLLMを最適化する際、報酬モデルが各回答に対してリアルタイムにスコアを付ける「審判」として機能します。LLMが回答を生成するたびに報酬モデルがスコアを付け、そのスコアが高くなる方向にLLMのパラメータが更新されるというループが回ります。

報酬ハッキングという落とし穴

報酬モデルの最大の課題が報酬ハッキング（Reward Hacking）です。LLMが報酬スコアを最大化しようと最適化を続けると、人間から見れば明らかに不自然なのに高スコアが出る「抜け穴」を見つけてしまいます。典型的な例として、やたらと長い回答を生成する（長さバイアス）、自信満々の口調で不正確な情報を述べる、特定のフレーズを繰り返す、といった現象が報告されています。対策として、報酬モデルのスコアにKLダイバージェンスによるペナルティを加え、元のモデルから大きく離れた出力を抑制する手法が一般的です。

RLHF以外の活用と今後

報酬モデルの用途はRLHFだけにとどまりません。Best-of-Nサンプリングでは、LLMにN個の回答を生成させて報酬モデルで最高スコアのものを選ぶという、強化学習より単純で安定した品質向上手法として使われています。また、生成コンテンツのフィルタリング、出力品質のリアルタイムモニタリング、A/Bテストの自動評価など、幅広い場面で活用が広がっています。一方で、報酬モデルの訓練と維持にかかるコストを背景に、報酬モデルを必要としないDPO（Direct Preference Optimization）も台頭しており、両者の使い分けが今後の実務的な論点になっています。