Latency
レイテンシ
れいてんし
Definition
Latency is the delay from sending a request to receiving a response, directly affecting perceived speed and operating cost. It is a critical metric for production user experience.
AIチャットに質問を送ってから最初の文字が表示されるまで、数秒間じっと待った経験があるでしょう。あの「待ち時間」がレイテンシです。レイテンシ(Latency)とは、APIリクエストを送信してからレスポンスを受け取るまでの遅延時間のことで、ユーザー体験を左右する重要な性能指標です。
TTFTとTPS
レイテンシを語る上で重要な指標が2つあります。TTFT(Time To First Token)は、リクエストを送ってから最初のトークンが返ってくるまでの時間です。ストリーミング表示ではこれがユーザーの「待った感」に直結します。TPS(Tokens Per Second)は、1秒あたりに生成されるトークン数で、回答全体が表示されるまでの速度を決めます。TTFTが短くTPSが高いモデルが、体感的に「速い」と感じられます。
レイテンシに影響する要因
レイテンシはさまざまな要因で変動します。モデルのサイズが大きいほど計算量が増えるため遅くなります。入力トークン数が多いとプリフィル処理に時間がかかり、TTFTが長くなります。サーバーの負荷状況やネットワーク距離も影響します。また、同じモデルでもピーク時は混雑により数倍のレイテンシになることがあります。
レイテンシを下げる方法
アプリケーション側でレイテンシを改善するには、いくつかの戦略があります。ストリーミングレスポンスを有効にすれば、完全な回答を待たずに逐次表示できるためTTFTの体感が大幅に改善します。プロンプトを短く保つこと、不要なコンテキストを削ることも効果的です。地理的に近いリージョンのエンドポイントを選ぶことで、ネットワークレイテンシも削減できます。
モデル選択とのトレードオフ
一般に、高性能なモデルほどレイテンシが高く、軽量モデルほど高速です。GPT-4oはGPT-4o-miniより遅く、Claude 3.5 SonnetはClaude 3.5 Haikuより遅い傾向があります。すべてのリクエストに最大モデルを使う必要はありません。簡単な質問には軽量モデル、複雑な推論には高性能モデルというルーティングを実装すれば、コストとレイテンシの両方を最適化できます。リアルタイム性が求められるチャットボットでは、レイテンシは最優先の検討事項です。