Token-Based Pricing
トークン課金
とおくんかきん
Definition
Token-based pricing is a pay-as-you-go billing model where fees are determined by the number of input and output tokens. Managing both input and output lengths helps reduce cost.
ChatGPTに長い文書を要約してもらったとき、「思ったより料金がかかった」と感じたことはないでしょうか。その原因を理解するカギが、トークン課金の仕組みです。トークン課金(Token-Based Pricing)とは、AIモデルのAPI利用料を、入力と出力のトークン数に基づいて計算する料金体系です。
トークンとは何か
トークンはAIが処理するテキストの最小単位です。英語では1単語がおよそ1〜1.3トークン、日本語ではひらがな1文字が1トークン、漢字1文字が1〜3トークンになることが一般的です。つまり、同じ内容でも日本語は英語より多くのトークンを消費する傾向があります。OpenAIのtiktokenなどのツールで事前にトークン数を確認できます。
入力と出力で異なる単価
ほとんどのAPIプロバイダーは、入力トークン(プロンプト)と出力トークン(モデルの回答)で異なる単価を設定しています。一般的に出力トークンの単価は入力の2〜5倍です。たとえば、GPT-4oの場合、入力が100万トークンあたり$2.50、出力が$10.00です。長いドキュメントを入力に含めるよりも、長い回答を生成させるほうがコストが高くなるという点は重要です。
コストを見積もるには
API利用のコストを事前に見積もるには、いくつかの要素を把握する必要があります。システムプロンプトのトークン数、ユーザー入力の平均トークン数、期待する出力の平均トークン数、そして1日あたりのリクエスト数です。たとえば、1リクエストあたり入力1,000トークン・出力500トークンで1日1,000リクエストの場合、月間のトークン消費量は入力3,000万・出力1,500万トークンになります。
コスト最適化のテクニック
トークン課金を抑えるための実践的な方法はいくつもあります。プロンプトを簡潔に保つこと、不要なコンテキストを省くこと、`max_tokens`パラメータで出力長を制限することが基本です。さらに、プロンプトキャッシュを活用すれば同じシステムプロンプトの再送信コストを大幅に削減できます。タスクの難易度に応じてGPT-4oとGPT-4o-miniを使い分けるモデルルーティングも効果的です。
最新の価格競争
2024年以降、主要プロバイダー間の価格競争が激化しています。Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなど、高性能モデルの価格は1年前の数分の1にまで下がりました。DeepSeekのような低価格モデルの登場も価格破壊を加速させています。コスト最適化を考える際は、最新の料金表を必ず確認することをお勧めします。