Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

トークン課金

Token-Based Pricing

とおくんかきん

解説

トークン課金とは、入力と出力のトークン数に応じて料金が決まる従量課金方式です。料金見積もりの基本になります。入力と出力を意識すると節約につながります。

ChatGPTに長い文書を要約してもらったとき、「思ったより料金がかかった」と感じたことはないでしょうか。その原因を理解するカギが、トークン課金の仕組みです。トークン課金(Token-Based Pricing)とは、AIモデルのAPI利用料を、入力と出力のトークン数に基づいて計算する料金体系です。

トークンとは何か

トークンはAIが処理するテキストの最小単位です。英語では1単語がおよそ1〜1.3トークン、日本語ではひらがな1文字が1トークン、漢字1文字が1〜3トークンになることが一般的です。つまり、同じ内容でも日本語は英語より多くのトークンを消費する傾向があります。OpenAIのtiktokenなどのツールで事前にトークン数を確認できます。

入力と出力で異なる単価

ほとんどのAPIプロバイダーは、入力トークン(プロンプト)と出力トークン(モデルの回答)で異なる単価を設定しています。一般的に出力トークンの単価は入力の2〜5倍です。たとえば、GPT-4oの場合、入力が100万トークンあたり$2.50、出力が$10.00です。長いドキュメントを入力に含めるよりも、長い回答を生成させるほうがコストが高くなるという点は重要です。

コストを見積もるには

API利用のコストを事前に見積もるには、いくつかの要素を把握する必要があります。システムプロンプトのトークン数、ユーザー入力の平均トークン数、期待する出力の平均トークン数、そして1日あたりのリクエスト数です。たとえば、1リクエストあたり入力1,000トークン・出力500トークンで1日1,000リクエストの場合、月間のトークン消費量は入力3,000万・出力1,500万トークンになります。

コスト最適化のテクニック

トークン課金を抑えるための実践的な方法はいくつもあります。プロンプトを簡潔に保つこと、不要なコンテキストを省くこと、`max_tokens`パラメータで出力長を制限することが基本です。さらに、プロンプトキャッシュを活用すれば同じシステムプロンプトの再送信コストを大幅に削減できます。タスクの難易度に応じてGPT-4oとGPT-4o-miniを使い分けるモデルルーティングも効果的です。

最新の価格競争

2024年以降、主要プロバイダー間の価格競争が激化しています。Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなど、高性能モデルの価格は1年前の数分の1にまで下がりました。DeepSeekのような低価格モデルの登場も価格破壊を加速させています。コスト最適化を考える際は、最新の料金表を必ず確認することをお勧めします。