Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Latency

レイテンシ

れいてんし

Definition

Latency is the delay from sending a request to receiving a response, directly affecting perceived speed and operating cost. It is a critical metric for production user experience.

AIチャットに質問を送ってから最初の文字が表示されるまで、数秒間じっと待った経験があるでしょう。あの「待ち時間」がレイテンシです。レイテンシ(Latency)とは、APIリクエストを送信してからレスポンスを受け取るまでの遅延時間のことで、ユーザー体験を左右する重要な性能指標です。

TTFTとTPS

レイテンシを語る上で重要な指標が2つあります。TTFT(Time To First Token)は、リクエストを送ってから最初のトークンが返ってくるまでの時間です。ストリーミング表示ではこれがユーザーの「待った感」に直結します。TPS(Tokens Per Second)は、1秒あたりに生成されるトークン数で、回答全体が表示されるまでの速度を決めます。TTFTが短くTPSが高いモデルが、体感的に「速い」と感じられます。

レイテンシに影響する要因

レイテンシはさまざまな要因で変動します。モデルのサイズが大きいほど計算量が増えるため遅くなります。入力トークン数が多いとプリフィル処理に時間がかかり、TTFTが長くなります。サーバーの負荷状況やネットワーク距離も影響します。また、同じモデルでもピーク時は混雑により数倍のレイテンシになることがあります。

レイテンシを下げる方法

アプリケーション側でレイテンシを改善するには、いくつかの戦略があります。ストリーミングレスポンスを有効にすれば、完全な回答を待たずに逐次表示できるためTTFTの体感が大幅に改善します。プロンプトを短く保つこと、不要なコンテキストを削ることも効果的です。地理的に近いリージョンのエンドポイントを選ぶことで、ネットワークレイテンシも削減できます。

モデル選択とのトレードオフ

一般に、高性能なモデルほどレイテンシが高く、軽量モデルほど高速です。GPT-4oはGPT-4o-miniより遅く、Claude 3.5 SonnetはClaude 3.5 Haikuより遅い傾向があります。すべてのリクエストに最大モデルを使う必要はありません。簡単な質問には軽量モデル、複雑な推論には高性能モデルというルーティングを実装すれば、コストとレイテンシの両方を最適化できます。リアルタイム性が求められるチャットボットでは、レイテンシは最優先の検討事項です。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.