Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

KVキャッシュ

KV Cache

けいぶいきゃっしゅ

解説

KVキャッシュとは、生成中の注意計算の中間結果を保存し、次トークン生成を高速化する推論最適化です。体験設計で重要になります。

AIチャットで会話を続けていると、過去のメッセージすべてを毎回モデルに送り直しているのに、応答がそこまで遅くならないと感じたことはないでしょうか。その裏側で活躍しているのがKVキャッシュです。KVキャッシュ(KV Cache)とは、Transformerモデルのアテンション計算で使われるKey(キー)とValue(バリュー)のペアを保存し、同じ計算の繰り返しを省略することでテキスト生成を高速化する技術です。

なぜキャッシュが必要なのか

Transformerがテキストを1トークンずつ生成するとき、新しいトークンは過去のすべてのトークンとのアテンション計算を行います。素朴に実装すると、出力が長くなるにつれて同じ計算を何度も繰り返すことになります。KVキャッシュは、過去のトークンから計算済みのKeyとValueを保存しておき、新しいトークンの生成時にはそれを再利用することで、計算量を大幅に削減します。

メモリとのトレードオフ

KVキャッシュは計算速度を向上させる一方で、GPUメモリを消費します。コンテキスト長が長くなるほど保存するKVペアが増え、メモリ使用量も増大します。128Kトークンのコンテキストウィンドウを持つモデルでは、KVキャッシュだけで数十GBのメモリが必要になることもあります。速度とメモリのバランスを取ることが、実運用では重要な課題です。

プロンプトキャッシュとの違い

AnthropicやOpenAIが提供する「プロンプトキャッシュ」は、KVキャッシュの概念をAPI利用者向けに拡張したものです。同じシステムプロンプトやプレフィックスを含むリクエストを送ると、すでに計算済みのKV状態がサーバー側で再利用され、入力トークンのコストが最大90%割引されます。長いシステムプロンプトやRAGのコンテキストを繰り返し送る場合に、コストとレイテンシの両方が改善されます。

最適化技術の進化

KVキャッシュのメモリ問題を解決するため、さまざまな最適化技術が研究されています。GQA(Grouped Query Attention)はKeyとValueのヘッド数を削減してキャッシュサイズを圧縮します。PagedAttention(vLLMで採用)はメモリを効率的にページ単位で管理します。量子化を適用してKVキャッシュ自体のビット数を下げる手法も登場しています。これらの技術は、長いコンテキストを扱うモデルの実用性を支える縁の下の力持ちです。