プロンプトキャッシング
Prompt Caching
ぷろんぷときゃっしんぐ
解説
プロンプトキャッシングとは、繰り返し使う長い入力を再利用して、LLM APIの処理時間やコストを抑える仕組みです。長文RAGやエージェント実行の効率化で重要です。
LLMアプリでは、毎回同じ長いシステムプロンプト、仕様書、社内文書、ツール定義を送ることがあります。内容が同じなのに毎回最初から処理すると、遅延とコストが増えます。プロンプトキャッシングとは、繰り返し使う入力部分を再利用し、LLM APIの応答速度や費用を改善する仕組みです。
なぜ重要なのか
RAGやエージェントでは、入力が長くなりがちです。たとえば数万トークンのドキュメントを背景情報として渡し、その上で複数回質問する場合、共通部分をキャッシュできると効率が大きく変わります。モデルの賢さそのものを変える技術ではありませんが、長いコンテキストを実用的に使うための運用技術として重要です。
ニュースで見るポイント
プロンプトキャッシングの発表では、どの単位でキャッシュされるのか、どのくらい保持されるのか、料金や遅延にどう効くのか、ストリーミングやツール利用と併用できるのかを確認します。数値は変わりやすいため、特定価格よりも「長い共通入力を何度も使うワークロードに効く」と理解すると安定します。
代表的な使われ方
長いシステムプロンプトを持つチャットボット、規約や仕様書を読むRAG、同じコードベースを何度も参照するコーディングエージェント、ツール定義が多い業務エージェントで効果が出やすいです。ユーザーごとに共通の背景情報がある場合にも使われます。
注意点
キャッシュは万能ではありません。入力が毎回大きく変わる用途では効果が小さく、機密情報の扱い、キャッシュの有効期限、更新時の反映漏れにも注意が必要です。AIニュースでは「安くなる」だけでなく、どのタイプのアプリで効果が出るのかを読むことが大切です。