RLHF (Reinforcement Learning from Human Feedback)

RLHF

ああるえるえいちえふ

Definition

RLHF is a technique that builds a reward model from human preference judgments and then uses reinforcement learning to align a model's behavior. It is widely used to improve helpfulness and safety.

LLMは膨大なテキストで学習しますが、それだけでは「人が本当に求めている回答」を返せるとは限りません。文法的に完璧でも、質問の意図を外した冗長な回答や、不適切な内容を生成してしまうことがあります。RLHF（Reinforcement Learning from Human Feedback）とは、人間が「こちらの回答のほうが良い」と判断した比較データを使い、強化学習でモデルの出力を人間の好みに沿うように最適化する手法です。

3つのステップ

RLHFのプロセスは明確に3段階に分かれます。第1段階は教師ありファインチューニング（SFT）で、人手で作成した高品質な「質問→回答」ペアでモデルを微調整し、対話の基本形を学ばせます。第2段階は報酬モデルの訓練です。同じ質問に対してモデルが生成した複数の回答を人間の評価者が比較・ランキングし、そのデータで「どの回答がどれだけ良いか」をスコア化する報酬モデルを構築します。第3段階で、この報酬モデルのスコアを報酬シグナルとして、PPO（Proximal Policy Optimization）というアルゴリズムでLLM全体を強化学習します。PPOは方策の更新幅を制限して学習を安定させる手法で、元のモデルから逸脱しすぎないよう「KLペナルティ」も加えます。

InstructGPTとChatGPTの誕生

RLHFが一躍有名になったのは、2022年にOpenAIが発表したInstructGPTの論文です。GPT-3（1750億パラメータ）にRLHFを適用したInstructGPTは、パラメータ数が100分の1の13億でも、人間の評価でGPT-3を上回るという衝撃的な結果を示しました。モデルの「賢さ」は規模だけでなく、人間のフィードバックの取り込み方で決まることが実証されたのです。ChatGPTはこの技術の発展形であり、RLHFなしには現在の対話体験は実現しませんでした。

課題と新しいアプローチ

RLHFの最大の課題は運用コストの高さです。人間による比較評価データの作成には、1件あたり数ドルのコストが必要です。報酬モデルのスコアだけを最大化する抜け穴を見つけてしまう「reward hacking（報酬ハック）」問題も厄介です。こうした課題から、DPO（Direct Preference Optimization）が2023年に提案されました。DPOは報酬モデルを介さず、人間の比較データから直接モデルを最適化するため、パイプラインが大幅に簡素化されます。さらに、AIが評価を行うRLAIF（AI Feedback）や、2値判定で学習するKTO（Kahneman-Tversky Optimization）なども登場しています。

現在の主要モデルでの採用

現在のChatGPT、Claude、Geminiといった主要LLMは、いずれもRLHFまたはその発展形を採用しています。AnthropicはConstitutional AIとRLHFを組み合わせ、MetaのLlama系列ではRLHFとDPOの両方を活用しています。人間の好みをモデルに反映させるというRLHFの基本思想は、手法が進化しても変わらないAI開発の中核的な考え方です。