トークン課金

解説

トークン課金とは、入力と出力のトークン数に応じて料金が決まる従量課金方式です。料金見積もりの基本になります。入力と出力を意識すると節約につながります。

ChatGPTに長い文書を要約してもらったとき、「思ったより料金がかかった」と感じたことはないでしょうか。その原因を理解するカギが、トークン課金の仕組みです。トークン課金（Token-Based Pricing）とは、AIモデルのAPI利用料を、入力と出力のトークン数に基づいて計算する料金体系です。

トークンとは何か

トークンはAIが処理するテキストの最小単位です。英語では1単語がおよそ1〜1.3トークン、日本語ではひらがな1文字が1トークン、漢字1文字が1〜3トークンになることが一般的です。つまり、同じ内容でも日本語は英語より多くのトークンを消費する傾向があります。OpenAIのtiktokenなどのツールで事前にトークン数を確認できます。

入力と出力で異なる単価

ほとんどのAPIプロバイダーは、入力トークン（プロンプト）と出力トークン（モデルの回答）で異なる単価を設定しています。一般的に出力トークンの単価は入力の2〜5倍です。たとえば、GPT-4oの場合、入力が100万トークンあたり$2.50、出力が$10.00です。長いドキュメントを入力に含めるよりも、長い回答を生成させるほうがコストが高くなるという点は重要です。

コストを見積もるには

API利用のコストを事前に見積もるには、いくつかの要素を把握する必要があります。システムプロンプトのトークン数、ユーザー入力の平均トークン数、期待する出力の平均トークン数、そして1日あたりのリクエスト数です。たとえば、1リクエストあたり入力1,000トークン・出力500トークンで1日1,000リクエストの場合、月間のトークン消費量は入力3,000万・出力1,500万トークンになります。

コスト最適化のテクニック

トークン課金を抑えるための実践的な方法はいくつもあります。プロンプトを簡潔に保つこと、不要なコンテキストを省くこと、`max_tokens`パラメータで出力長を制限することが基本です。さらに、プロンプトキャッシュを活用すれば同じシステムプロンプトの再送信コストを大幅に削減できます。タスクの難易度に応じてGPT-4oとGPT-4o-miniを使い分けるモデルルーティングも効果的です。

トークン課金

トークンとは何か

入力と出力で異なる単価

コストを見積もるには

コスト最適化のテクニック

最新の価格競争