Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

レイテンシ

Latency

れいてんし

解説

レイテンシとは、リクエストしてから回答が返るまでの遅延時間で、体感速度と運用コストに直結します。体験設計で重要になります。

AIチャットに質問を送ってから最初の文字が表示されるまで、数秒間じっと待った経験があるでしょう。あの「待ち時間」がレイテンシです。レイテンシ(Latency)とは、APIリクエストを送信してからレスポンスを受け取るまでの遅延時間のことで、ユーザー体験を左右する重要な性能指標です。

TTFTとTPS

レイテンシを語る上で重要な指標が2つあります。TTFT(Time To First Token)は、リクエストを送ってから最初のトークンが返ってくるまでの時間です。ストリーミング表示ではこれがユーザーの「待った感」に直結します。TPS(Tokens Per Second)は、1秒あたりに生成されるトークン数で、回答全体が表示されるまでの速度を決めます。TTFTが短くTPSが高いモデルが、体感的に「速い」と感じられます。

レイテンシに影響する要因

レイテンシはさまざまな要因で変動します。モデルのサイズが大きいほど計算量が増えるため遅くなります。入力トークン数が多いとプリフィル処理に時間がかかり、TTFTが長くなります。サーバーの負荷状況やネットワーク距離も影響します。また、同じモデルでもピーク時は混雑により数倍のレイテンシになることがあります。

レイテンシを下げる方法

アプリケーション側でレイテンシを改善するには、いくつかの戦略があります。ストリーミングレスポンスを有効にすれば、完全な回答を待たずに逐次表示できるためTTFTの体感が大幅に改善します。プロンプトを短く保つこと、不要なコンテキストを削ることも効果的です。地理的に近いリージョンのエンドポイントを選ぶことで、ネットワークレイテンシも削減できます。

モデル選択とのトレードオフ

一般に、高性能なモデルほどレイテンシが高く、軽量モデルほど高速です。GPT-4oはGPT-4o-miniより遅く、Claude 3.5 SonnetはClaude 3.5 Haikuより遅い傾向があります。すべてのリクエストに最大モデルを使う必要はありません。簡単な質問には軽量モデル、複雑な推論には高性能モデルというルーティングを実装すれば、コストとレイテンシの両方を最適化できます。リアルタイム性が求められるチャットボットでは、レイテンシは最優先の検討事項です。