トークン（Token） - AI用語集

解説

トークンとは、文章をモデルが扱える細かな単位に分けたもので、料金や入力長の見積もりにも使われます。理解すると調整がしやすくなります。

ChatGPTの料金表に「100万トークンあたり◯ドル」と書かれていても、1トークンが何文字に相当するのか、直感的にはわかりにくいものです。しかもこの「トークン」の長さは言語によって大きく異なり、日本語ユーザーにとっては切実なコスト問題に直結します。トークンとは、LLMがテキストを処理する際の最小単位で、単語や文字の断片（サブワード）に分割されたものです。

BPEアルゴリズムの仕組み

多くのLLMが採用しているトークン化の手法がBPE（Byte Pair Encoding）です。その仕組みはシンプルで、まずテキストを1文字（バイト）単位に分解し、次に最も頻繁に隣り合う2文字のペアを見つけて1つのトークンに統合します。このマージ操作を数万回繰り返すことで、頻出する文字列（"the"や"tion"など）は1トークンになり、珍しい文字列は細かいトークンのまま残ります。結果として、学習データに多く出現するパターンほど効率的にトークン化され、少ないトークン数で表現できるようになります。

日本語と英語のトークン格差

BPEの仕組みを理解すると、日本語がなぜ不利なのかが見えてきます。LLMの学習データは英語が圧倒的に多いため、英語の単語やフレーズは効率よくトークン化されます。英語では「artificial intelligence」が2〜3トークンですが、日本語の「人工知能」は3〜5トークンに分割されることがあります。同じ意味の文章を比較すると、日本語は英語の1.5〜2倍のトークン数を消費するのが一般的です。OpenAIのtiktokenライブラリやAnthropicのトークンカウンターを使えば、実際のトークン数を事前に確認できます。この格差は、コンテキストウィンドウの実質的な容量にも影響します。128Kトークンのモデルでも、日本語では英語の半分程度の文章量しか入力できない場合があるのです。

コストと制限への直接的な影響

トークン数はLLM利用の2つの重要な側面に直結します。ひとつは料金です。APIの課金は入力トークン数と出力トークン数それぞれに基づくため、日本語ユーザーは同じ内容の処理でも英語より割高になります。GPT-4oの場合、入力と出力で異なる単価が設定されており、出力トークンは入力の数倍の単価です。もうひとつはコンテキストウィンドウの制約で、入力が長すぎるとモデルの上限を超えてエラーになったり、古い会話履歴が切り捨てられたりします。

実務でのトークン節約術

トークン数を意識した運用はコスト管理の基本です。まずtiktokenなどのツールでAPI呼び出し前にトークン数を計測する習慣をつけましょう。プロンプトの冗長な表現を削る、不要な背景情報を省く、出力形式を「箇条書き」や「JSON」に指定して無駄な装飾文を減らすといった工夫で、コストを数割削減できます。特に日本語では、丁寧すぎる敬語表現や繰り返しの接続詞を省くだけでもトークン数の節約になります。多言語対応が必要な場合は、処理を英語で行い、最終出力だけを日本語に翻訳する手法も有効です。