Reinforcement Learning (RL)
強化学習
きょうかがくしゅう
Definition
Reinforcement learning is a training method that learns a policy to maximize rewards obtained from the outcomes of actions. In LLMs, it can be used to steer behavior toward preferred responses.
ゲームのハイスコアを目指してプレイを繰り返すうちに、自然と上手くなる――この「試行錯誤で上達する」プロセスをそのまま数学的に定式化したのが強化学習です。強化学習(Reinforcement Learning)とは、エージェントが環境と相互作用しながら行動を選択し、得られる報酬の累積を最大化する方策(ポリシー)を学習する機械学習の一分野です。
報酬信号が学びを駆動する
強化学習の核心は「報酬信号」にあります。エージェントは現在の状態を観察し、行動を選択し、環境から次の状態と報酬を受け取ります。重要なのは、何が正解かは教えられず、「良かったか悪かったか」のスカラー値だけが手がかりという点です。教師あり学習では「この入力には正解Aを出せ」と明示的に教えますが、強化学習では正解が未知のまま、報酬という間接的なフィードバックだけを頼りに学びます。さらに、報酬が行動の直後に得られるとは限らず、チェスのように一局の最後に勝敗がわかる「遅延報酬」の問題が、この分野特有の難しさです。
方策勾配とアルゴリズムの進化
エージェントが方策を改善する方法は大きく2系統あります。価値ベースはQ学習に代表され、各状態・行動ペアの「長期的な価値」を推定します。一方、方策勾配法(Policy Gradient)は方策そのものをパラメータ化し、報酬を最大化する方向に直接パラメータを更新します。LLMの文脈でよく登場するPPO(Proximal Policy Optimization)は方策勾配法の一種で、更新幅を制限することで学習の安定性を大幅に改善したアルゴリズムです。2017年にOpenAIが発表して以来、ロボティクスからLLMの調整まで幅広く使われています。
ゲームとロボティクスでの成果
強化学習が世界的に注目を集めたのは、2016年のAlphaGoでした。DeepMindが開発したこのAIは、自己対戦による強化学習で人類最強の囲碁棋士に勝利しました。その後のAlphaZeroはチェスと将棋でも超人的な強さを達成しています。ロボティクスでは、OpenAIのロボットハンドがルービックキューブを片手で解くデモや、Google DeepMindのRT-2がロボットの行動計画に大規模モデルを活用する研究など、実世界での試行錯誤学習が急速に進んでいます。
LLMとの結びつき
現在、強化学習がLLM分野で最も影響を与えているのがRLHF(人間のフィードバックによる強化学習)です。LLMを「エージェント」、テキスト生成を「行動」、人間の好みを「報酬」とみなし、PPOで方策を最適化します。ただし、報酬モデルの学習コストや不安定性の課題から、強化学習を使わないDPOやKTOといった代替手法も台頭しています。一方で、LLMを自律的なエージェントとしてタスク遂行に使う研究では、環境からのフィードバックを活かす強化学習的アプローチが再び重要性を増しており、この分野は今後もAI研究の中核であり続けるでしょう。