Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

自己回帰モデル

Autoregressive Model

じこかいきもでる

解説

自己回帰モデルとは、直前までの文脈から次のトークンを順番に予測し、文章を1つずつ生成するモデルです。仕組みを知ると使い分けやすいです。

ChatGPTの回答が一文字ずつ流れるように表示されるのを見て、「なぜ一気に表示されないのだろう」と疑問に思ったことはないでしょうか。あれはUIの演出ではなく、モデルが実際に1トークンずつ順番に生成しているためです。自己回帰モデル(Autoregressive Model)とは、過去に生成したトークン列を入力として次の1トークンを予測する処理を繰り返すことで文章を生成するモデルで、GPT・Claude・Geminiなど現在の主要なLLMはすべてこの方式を採用しています。

次のトークン予測の連鎖

自己回帰モデルの動作はシンプルです。「今日の天気は」という入力に対して、まず「晴れ」を予測します。次に「今日の天気は晴れ」全体を入力として「です」を予測し、さらにそこから「。」を予測します。各ステップで語彙全体に対する確率分布を計算し、その中から次のトークンを選択するこの仕組みが、トランスフォーマーアーキテクチャの上で動作しています。左から右への順序を厳密に守ることで、文脈に沿った自然な文章生成を実現しています。

生成速度のボトルネック

1トークンずつ逐次的に生成するため、出力の長さに比例して生成時間が増加します。1,000トークンの回答には1,000回の推論ステップが必要で、これがLLMの応答速度における最大のボトルネックです。リアルタイム翻訳や音声対話のように低遅延が求められるアプリケーションでは特に深刻な制約になります。GPUの演算能力がどれだけ向上しても、逐次処理という構造的な制約は残ります。

Speculative Decodingによる高速化

この速度問題に対する注目の解決策がSpeculative Decoding(投機的デコーディング)です。小さく高速なドラフトモデルで複数トークンの候補を先に生成し、大きなメインモデルでまとめて検証します。検証は並列処理できるため、生成速度を2〜3倍に向上させつつ出力品質は維持できます。GoogleのGeminiやMetaのLlamaなど、主要なモデルの推論エンジンに組み込まれ始めています。

拡散モデルとの比較

画像生成で主流の拡散モデル(Diffusion Model)は、ノイズから徐々に画像を復元するアプローチで、全ピクセルを並列に処理できます。一方、テキスト生成では語順が意味を決定するため、自己回帰方式が圧倒的に有利です。最近では拡散モデルをテキスト生成に応用する研究も進んでいますが、文章品質では自己回帰モデルに及ばないのが現状です。当面は、自己回帰方式がLLMの標準アプローチであり続けるでしょう。