自己回帰モデル

解説

自己回帰モデルとは、直前までの文脈から次のトークンを順番に予測し、文章を1つずつ生成するモデルです。仕組みを知ると使い分けやすいです。

ChatGPTの回答が一文字ずつ流れるように表示されるのを見て、「なぜ一気に表示されないのだろう」と疑問に思ったことはないでしょうか。あれはUIの演出ではなく、モデルが実際に1トークンずつ順番に生成しているためです。自己回帰モデル（Autoregressive Model）とは、過去に生成したトークン列を入力として次の1トークンを予測する処理を繰り返すことで文章を生成するモデルで、GPT・Claude・Geminiなど現在の主要なLLMはすべてこの方式を採用しています。

次のトークン予測の連鎖

自己回帰モデルの動作はシンプルです。「今日の天気は」という入力に対して、まず「晴れ」を予測します。次に「今日の天気は晴れ」全体を入力として「です」を予測し、さらにそこから「。」を予測します。各ステップで語彙全体に対する確率分布を計算し、その中から次のトークンを選択するこの仕組みが、トランスフォーマーアーキテクチャの上で動作しています。左から右への順序を厳密に守ることで、文脈に沿った自然な文章生成を実現しています。

生成速度のボトルネック

1トークンずつ逐次的に生成するため、出力の長さに比例して生成時間が増加します。1,000トークンの回答には1,000回の推論ステップが必要で、これがLLMの応答速度における最大のボトルネックです。リアルタイム翻訳や音声対話のように低遅延が求められるアプリケーションでは特に深刻な制約になります。GPUの演算能力がどれだけ向上しても、逐次処理という構造的な制約は残ります。

Speculative Decodingによる高速化

この速度問題に対する注目の解決策がSpeculative Decoding（投機的デコーディング）です。小さく高速なドラフトモデルで複数トークンの候補を先に生成し、大きなメインモデルでまとめて検証します。検証は並列処理できるため、生成速度を2〜3倍に向上させつつ出力品質は維持できます。GoogleのGeminiやMetaのLlamaなど、主要なモデルの推論エンジンに組み込まれ始めています。

拡散モデルとの比較

画像生成で主流の拡散モデル（Diffusion Model）は、ノイズから徐々に画像を復元するアプローチで、全ピクセルを並列に処理できます。一方、テキスト生成では語順が意味を決定するため、自己回帰方式が圧倒的に有利です。最近では拡散モデルをテキスト生成に応用する研究も進んでいますが、文章品質では自己回帰モデルに及ばないのが現状です。当面は、自己回帰方式がLLMの標準アプローチであり続けるでしょう。